Lo difícil de la infraestructura multimodelo es todo lo que ocurre entre la petición y la respuesta. Eso es lo que WayJet diseña en cada llamada, para que tu código siga siendo una integración limpia mientras la capa se gana su lugar.
En cada llamada
El trabajo entre la petición y la respuesta
Puntuando rutas
Ruta A
Ruta B
Ruta C
Salud, latencia y precio puntuados en cada llamada: gana la mejor ruta.
Enrutamiento por puntuación, no una ruta fija
Cada llamada se puntúa según la salud, la latencia y el precio del proveedor en tiempo real, y luego se envía por la mejor ruta: con balanceo de carga, según latencia, según coste o por reglas. Fija un proveedor, prioriza al miembro más barato o enruta por header; la política es configuración, no un redespliegue.
¿Proveedor caído? El tráfico se redirige automáticamente.
Sigue en pie cuando un proveedor no
Los upstreams en mal estado se detectan y se aíslan con circuit breaker; las llamadas se reintentan con backoff y conmutan por error hacia un proveedor sano del mismo modelo. Una pata BYOK puede recurrir al pool. Tu app sigue respondiendo durante una caída en lugar de heredarla.
claude-opus-4.7— ok
gpt-5.1— ok
gemini-3-pro— ok
Un único panel para cada modelo y cada llamada.
Cada llamada, totalmente observable
Latencia, estado y gasto de cada modelo en un solo lugar, desglosados por petición en segmentos de enrutamiento, upstream y cache, para que nada de una llamada sea una caja negra que tengas que adivinar.
Control, sin el mantenimiento
El resto de la capa
Grupos de modelos
Define un modelo virtual que se resuelve al mejor miembro por coste, prioridad o peso. Cambia la política de selección sin tocar una sola línea de tu código.
Usa tus propias claves
Enruta por tus propias cuentas de proveedor cuando quieras: conserva los descuentos por gasto comprometido, deja que WayJet haga la orquestación y solo cobra su tarifa de servicio.
Controles de gasto y de tasa
Límites por clave de RPM, TPM, concurrencia y gasto diario, además de presupuestos de organización: gobernanza integrada en la capa, aplicada antes de la llamada al upstream, no añadida después.
Caché de respuestas
Caché exacta y semántica con interruptores por clave y observabilidad de aciertos: el trabajo repetido se sirve desde la caché, así pagas el coste del upstream una vez, no cada vez.
Medición precisa
El coste por token se calcula a partir del propio uso del upstream a precios de catálogo, en decimal, con fail-closed cuando una llamada no puede tarificarse con exactitud. Precisión de nivel OpenRouter, por diseño.
Uso unificado
Una única fuente de verdad para el gasto y el volumen en todos los modelos y claves: consulta por periodo, modelo o clave, con el saldo prepago que nunca caduca.
Construye sobre la capa, no sobre un solo proveedor
Una sola clave de API hacia cada modelo: enrutamiento, conmutación por error, observabilidad y controles incluidos.