Comment fonctionne le routage intelligent
Décision sub-milliseconde, déterministe, aucun appel LLM.
La plupart des proxys LLM routent selon le nom du modèle demandé. HiWay route selon ce dont votre prompt a réellement besoin. La décision est prise par un moteur de scoring déterministe en pur CPU, en moins d'une milliseconde - pas de second appel LLM, pas de modèle dans la boucle, pas de latence surprise.
Comment le routage décide
Chaque requête est analysée localement pour estimer sa complexité, qui détermine le tier (light, standard, heavy). C'est déterministe et instantané, sans second appel LLM.
- Intention - salutation, question simple, confirmation, demande d'action, requête expert…
- Complexité - nombre de contraintes, exigences de sortie structurée, instructions multi-étapes
- Outils - présence de définitions de fonction/tool et combien
- System prompt - longueur et densité (un prompt système de 4 K tokens trahit en général un contexte d'agent)
- Présence de code - l'utilisateur attache des blocs de code, mentionne des chemins de fichier, parle de debugging ?
- Domaine - finance, médical, juridique, sécurité, etc. → bump vers un tier supérieur
- Contexte de conversation - total de tokens déjà échangés, profondeur de la conversation
Du score au tier
Les seuils par défaut sont : [0.0, 0.3] → light, [0.3, 0.7] → standard, [0.7, 1.0] → heavy. Une marge de confiance bump les requêtes proches de la frontière d'un tier vers le supérieur, donc on ne sous-estime jamais la qualité sur les cas limites.
Du tier au fournisseur
Une fois le tier connu, HiWay choisit le modèle réel selon vos paramètres : quels fournisseurs vous avez activés dans Paramètres → Fournisseurs et votre profil de routage (Budget / Équilibré / Qualité). Le résolveur regarde tous les modèles qui matchent le tier parmi vos fournisseurs activés et en choisit un selon la stratégie.
Antisèche profil de routage
| Profil | Stratégie de sélection | Vainqueur typique du tier light |
|---|---|---|
| Budget | Prix d'entrée le plus bas | Mistral Small (0,10$/M) |
| Équilibré | Meilleur ratio qualité/dollar | Claude Haiku 4.5 (0,80$/M, qualité 60) |
| Qualité | Score de qualité le plus haut | Claude Haiku 4.5 |
Forcez n'importe quoi
Mettez model à un id qualifié complet (ex. "anthropic/claude-haiku-4-5", "openai/gpt-4o") pour bypasser le scoring et épingler la requête à ce modèle. Utilisez "auto" pour laisser le router décider.