Documentation

Construisez avec HiWay2LLM

Apprenez comment fonctionne le routage intelligent, intégrez n'importe quel client chat-completions en 2 minutes, et maîtrisez les Contrôles budgétaires, la recharge auto et le système Guardian.

Commencer par le démarrage rapide

Démarrage

Concepts

Comment fonctionne le routage intelligent

Décision sub-milliseconde, déterministe, aucun appel LLM.

Modèle tarifaire

Markup BYOK dégressif. Vos fournisseurs vous facturent directement. 9-12,5 % sur Scale.

Guardian - système anti-boucle

Règles par workspace pour bloquer les agents runaway, le trafic dupliqué et les pics de coût.

Budget Control

Plafonnez votre coût BYOK upstream mensuel. Verdict : BLOCK, DOWNGRADE ou LIGHT_ONLY.

Fallback fournisseur

Quand un fournisseur tombe, HiWay retry sur le modèle le moins cher du même tier. Max 2 retries.

Cache sémantique

Skip total des requêtes identiques et quasi-identiques - zéro token, réponse instantanée.

Prompt caching Anthropic (auto-injecté)

On ajoute les breakpoints `cache_control` à vos requêtes Anthropic automatiquement. Input ~10x moins cher sur les cache hits, zéro config.

Masquage PII

Opt-in. Regex sur email / téléphone / carte / IBAN / clés API avant hashing du cache.

Mode passthrough & cap de grâce

Wallet à 0 ? Le service continue en BYOK direct pendant 72h / 100k tokens, puis arrêt soft jusqu'au rechargement.

A/B Experiments

Lancez N variantes d'une requête en parallèle sur plusieurs modèles. Comparez coût, latence, qualité.

Enveloppe de réponse

Body OpenAI-compatible + métadonnées _hiway + headers X-HiWay-Routed-*.

Streaming des réponses

Comment HiWay forwarde les Server-Sent Events de bout en bout.

Tool calls et function calls

HiWay est transparent au tool-calling sur tous les fournisseurs supportés.

System prompts et routage

Pourquoi le system prompt influence le tier vers lequel votre requête est routée.

Fonctionnalités

Multimodal

Providers

Intégrations

Migrer

Référence API

Dépannage

Programme Partners