A parte difícil de uma infraestrutura multimodelo é tudo o que acontece entre a requisição e a resposta. É isso que a WayJet projeta em cada chamada — para que seu código continue sendo uma integração limpa enquanto a camada faz por merecer.
Em cada chamada
O trabalho entre a requisição e a resposta
Pontuando rotas
Rota A
Rota B
Rota C
Saúde, latência e preço pontuados a cada chamada — a melhor rota vence.
Roteamento por pontuação, não uma rota fixa
Cada chamada é pontuada conforme a saúde, a latência e o preço do provedor em tempo real e, então, enviada pela melhor rota — com balanceamento de carga, por latência, por custo ou por regras. Fixe um provedor, prefira o membro mais barato ou roteie por header; a política é configuração, não um novo deploy.
Provedor fora do ar? O tráfego é redirecionado automaticamente.
Continua de pé quando um provedor não
Upstreams sem saúde são detectados e isolados por circuit breaker; as chamadas são repetidas com backoff e fazem failover para um provedor saudável do mesmo modelo. Uma perna BYOK pode recorrer ao pool. Seu app continua respondendo durante uma queda em vez de herdá-la.
claude-opus-4.7— ok
gpt-5.1— ok
gemini-3-pro— ok
Um único painel para cada modelo, cada chamada.
Cada chamada, totalmente observável
Latência, status e gasto de cada modelo em um só lugar — detalhados por requisição em segmentos de roteamento, upstream e cache, para que nada de uma chamada seja uma caixa-preta que você precise adivinhar.
Controle, sem a manutenção
O restante da camada
Grupos de modelos
Defina um modelo virtual que resolve para o melhor membro por custo, prioridade ou peso. Troque a política de seleção sem tocar em uma linha do seu código.
Traga suas próprias chaves
Roteie pelas suas próprias contas de provedor quando quiser — mantenha os descontos por gasto comprometido, deixe a WayJet fazer a orquestração e cobrar apenas sua taxa de serviço.
Controles de gasto e de taxa
Limites por chave de RPM, TPM, concorrência e gasto diário, além de orçamentos da organização — governança integrada à camada, aplicada antes da chamada ao upstream, não acoplada depois.
Cache de respostas
Cache exato e semântico com chaves de ativação por chave e observabilidade de acertos — o trabalho repetido é servido a partir do cache, então você paga o custo do upstream uma vez, não toda vez.
Medição precisa
O custo por token é calculado a partir do próprio uso do upstream a preços de catálogo, em decimal — com fail-closed quando uma chamada não pode ser precificada com exatidão. Precisão de nível OpenRouter, por design.
Uso unificado
Uma única fonte de verdade para gasto e volume em todos os modelos e chaves — consulte por período, modelo ou chave, com o saldo pré-pago que nunca expira.
Construa sobre a camada, não sobre um único fornecedor
Uma única chave de API para cada modelo — roteamento, failover, observabilidade e controles incluídos.