How does HiWay2LLM reduce my costs?

Most LLM requests don't need the most powerful (and expensive) model. A simple "hello" doesn't need Claude Opus 4.7 at $25/M output tokens - Haiku 4.5 at $5/M handles it perfectly. HiWay2LLM analyzes every request in under 1 millisecond and routes it to the cheapest model in your BYOK roster that can handle it. On typical mixes, customers save 40-60% without changing their code or prompts.

Will the quality of responses decrease?

No. HiWay2LLM only routes simple requests (greetings, short questions, confirmations) to cheaper models. Complex tasks - code generation, multi-step reasoning, agentic tool use - still go to the most powerful models. You can also override routing at any time with the X-Force-Model header if you need a specific model for a request.

How long does it take to integrate?

About 2 minutes. You change one line of code - your base_url. That's it. HiWay2LLM is compatible with any LLM SDK: OpenAI, Anthropic, LangChain, Vercel AI SDK, n8n, curl, and anything that speaks the standard API format. No SDK to install, no config file to maintain.

What LLM providers are supported?

Anthropic (Haiku 4.5, Sonnet 4.6, Opus 4.7), OpenAI (GPT-4o-mini, GPT-4o, GPT-5), Google (Gemini 2.5 Flash Lite, Flash, Pro), Mistral (Small, Large), and DeepSeek (V3, R1). You plug in your own keys for the providers you want to use - HiWay2LLM automatically picks the best price/quality for each request across your enabled set.

Do you store my prompts or responses?

No. Zero prompt logging is a core architectural principle, not just a policy. Your prompts pass through our routing proxy in memory only, are forwarded to the LLM provider, and immediately discarded. No prompt data is ever written to disk. We only store metadata: token counts, model selected, cost, and routing latency.

How does pricing work?

Token packs with three billing modes - Free (2M tokens/mo, no card), Spark ($5.50 once · $5.25/mo · $59.40/yr, 10M tokens), Boost ($25 once · $23.75/mo · $270/yr, 50M tokens), Pro ($85 once · $80.75/mo · $918/yr, 200M tokens), Scale ($360 once · $342/mo · $3,888/yr, 1B tokens), Enterprise on request. Inference is billed separately by your LLM providers on your own accounts - HiWay2LLM applies zero markup. You can switch packs or cancel any time from the dashboard.

What happens when my costs spike?

HiWay2LLM watches your spend in real time and fires burn-rate alerts when a key, agent or workspace drifts above baseline. You get email + Slack notifications the moment something looks off - before the monthly bill does. You set the thresholds; we surface the signal.

What if HiWay2LLM goes down?

We target 99.9% uptime. If our routing proxy is unavailable, your requests will fail with a clear error (502). We recommend implementing a simple fallback in your code that routes directly to your provider if HiWay2LLM is unreachable. This takes 3 lines of code.

Can I force a specific model for certain requests?

Yes. Add the X-Force-Model header to any request to bypass smart routing. For example: X-Force-Model: anthropic/claude-opus-4-7 will always use Opus 4.7 regardless of the complexity score. Useful for critical requests where you always want the best model.

Is this GDPR compliant?

Yes. We're a French company (Hiway2llm.com) hosted on EU servers (OVH, France). We don't store personal data beyond your email. We don't store prompts. We comply with GDPR and the EU AI Act. A Data Processing Agreement (DPA) is available for enterprise clients.

How does this compare to OpenRouter?

OpenRouter is a multi-provider API gateway - you manually choose which model to use. HiWay2LLM is a smart router - it automatically picks the best model for each request based on complexity analysis. OpenRouter adds cost (their fee + no routing savings). HiWay2LLM saves cost (routing to cheaper models offsets the flat subscription fee).

Can I self-host HiWay2LLM?

We offer a fully managed SaaS - no infrastructure to maintain. For enterprise clients with specific compliance or data residency requirements, we offer private deployment options. Contact us to discuss.

Disponible maintenant· 200+ Modèles · LLM · Image · Vidéo · Audio · BYOK

Utilisez le meilleur modèle.
Payez le prix du moins cher.

HiWay2LLM analyse chaque requête en <1ms et la route vers le modèle optimal à travers vos propres clés API. Les messages simples vont vers les modèles économiques. Les tâches complexes vers les plus puissants. Vous économisez 40-60 % sur un mix typique, sans aucune marge.

Commencer gratuitement Voir comment ça marche

<1ms

Latence de routage

Markup minimum (Enterprise)

Prompts stockés

200+

Modèles - LLM, image, vidéo, audio et embeddings

Comment ça s'emboîte

Une couche fine entre ton app et les modèles

HiWay2LLM s'intercale entre ton code et les fournisseurs LLM. Tes clés. Tes données. Notre intelligence de routage.

Tes applis

Chatbot client

Agent autonome

Pipeline RAG

CLI / script

1. requête

4. réponse

1. requête

4. réponse

Couche de routage

HiWay2LLM

Smart routing

Choisit le modèle le moins cher capable pour chaque requête.

Coffre BYOK

Tes clés fournisseur, chiffrées AES-GCM par workspace.

0% de marge

Les fournisseurs te facturent directement. Aucune marge sur l'inférence.

Guardian

Anti-loop + kill-switch burn-rate avant qu'un appel douteux parte.

Routage sous la milliseconde

< 1 ms

2. routé

3. stream

2. routé

3. stream

Fournisseurs LLM

AnthropicBYOK

OpenAIBYOK

GoogleBYOK

MistralBYOK

GroqBYOK

xAIBYOK

40-60%

économies typiques vs flagship systématique

de marge sur l'inférence - jamais

< 1 ms

latence de la décision de routage

10+

fournisseurs supportés, API OpenAI-compat

200+ models · LLM · Image · Video · Audio · Embeddings - all via BYOK

OpenAI

Anthropic

Google

Mistral

DeepSeek

Groq

xAI

Perplexity

Meta Llama

Cohere

Together AI

Azure OpenAI

Stability AI

BFL / Flux

fal.ai

Kling

Runway

Luma AI

ElevenLabs

HeyGen

Voyage AI

Fireworks

Replicate

OpenAI

Anthropic

Google

Mistral

DeepSeek

Groq

xAI

Perplexity

Meta Llama

Cohere

Together AI

Azure OpenAI

Stability AI

BFL / Flux

fal.ai

Kling

Runway

Luma AI

ElevenLabs

HeyGen

Voyage AI

Fireworks

Replicate

Démarrez en 3 étapes

De l'inscription à votre première requête routée en moins de 2 minutes.

Créez un compte

Compte créé en 30 secondes. Email + mot de passe, l'offre gratuite est active immédiatement - 2M tokens/mois, sans carte bancaire.

✉

Ajoutez vos clés fournisseur

Branchez vos propres clés pour n'importe quel provider supporté - LLM (Anthropic, OpenAI, Google, Mistral, Groq…), image (Flux, Stability AI, fal.ai), vidéo (Kling, Runway), audio (ElevenLabs) ou embeddings (Cohere, Voyage AI). Elles restent chiffrées chez nous et vous êtes facturé directement par vos fournisseurs. Aucune marge sur l'inférence.

Apr 12$100

Apr 8$25

Changez une ligne. C'est tout.

Pointez le base_url de votre SDK vers HiWay2LLM. Un seul endpoint atteint tous les modèles que vous avez activés, et le routeur choisit le modèle le moins cher capable de traiter chaque requête. Compatible OpenAI. Fonctionne avec n'importe quel SDK.

HIWAY_API_KEY

••••••••••••••

Changez une ligne. Économisez 50%.

Pointez votre code existant vers HiWay2LLM. On s'occupe du reste.

app.py

from openai import OpenAI

client = OpenAI(base_url="https://api.anthropic.com/v1")

client = OpenAI(base_url="https://app.hiway2llm.com/v1")

# C'est tout. Même code. 50% moins cher.

Light

Haiku 4.5 / GPT-4o-mini / Gemini 2.5 Flash Lite

65% des requêtes

Standard

Sonnet 4.6 / GPT-4o / Gemini 2.5 Flash

28% des requêtes

Heavy

Opus 4.7 / GPT-5 / Gemini 2.5 Pro

7% des requêtes

Pas juste du routage. De l'intelligence.

7 analyseurs, alerting burn-rate, optimisation multi-fournisseur - et CORTEX, l'IA qui auto-calibre votre routeur pendant que vous shippez.

Routage < 1ms

7 analyseurs détectent l'intention, la complexité, les outils et le code en moins d'une milliseconde. Pas d'appel LLM pour le routage - pur CPU.

Control Layer - Anti-dérive

Baseline par agent, détection de l'inflation de prompts, des escalades silencieuses vers des modèles premium et des dérives tarifaires. Alertes, rollback, budgets par agent. Conçu pour les CTO qui veulent la maîtrise totale de leur dépense LLM.

Alerting Burn-Rate

On surveille votre dépense en temps réel. Seuils de burn-rate, détection d'anomalies et alertes par clé : on déclenche dès que quelque chose dérive - avant que votre facture le fasse.

Contrôle Budgétaire Avancé

Aucun fournisseur LLM ne propose ça. Plafonds journaliers/mensuels, limites par modèle, règles hors-heures, et dégradation automatique.

Rapports d'usage

Exports CSV par utilisateur, ventilation quotidienne par modèle, attribution des coûts au token près. Branchez-le sur votre facturation en deux clics.

200+ Modèles, Toutes Modalités

Apportez vos propres clés de n'importe quel provider - LLM (Anthropic, OpenAI, Google, Mistral, Groq, Together AI, Replicate…), image (Flux, Stability AI, fal.ai), vidéo (Kling, Runway, Luma), audio (ElevenLabs, HeyGen) et embeddings (Cohere, Voyage AI). Une seule API, toutes les modalités.

Intégration en 1 Ligne

Changez votre base_url. C'est tout. Compatible avec tous les SDK LLM - OpenAI, Anthropic, LangChain, Vercel AI, n8n.

Zéro Journalisation des Prompts

Vos prompts ne touchent jamais notre disque. Garantie architecturale. Conforme RGPD et AI Act européen.

Orchestrateur IA CORTEX

IA proactive qui lit les événements Guardian, auto-calibre les seuils de routage et pousse des insights dans votre CORTEX Inbox - pour voir les problèmes avant vos utilisateurs. Scale et Enterprise.

Sécurité Enterprise

Sécurité des prompts intégrée.

Scanner deux couches : injection, jailbreak, fuite PII et secrets en moins de 2 ms, avant d'atteindre le modèle. Zéro latence en mode monitor.

Injection de prompt

Bloque "ignorez toutes les instructions précédentes", mode DAN, mode développeur et les patterns de substitution de persona.

Extraction de prompt

Détecte les tentatives de lecture de votre prompt système ou de vos instructions internes.

Jailbreak

Stoppe les demandes de malware, exploits, synthèse de substances contrôlées et contenus illégaux.

Détection PII

Signale emails, numéros de téléphone, IBANs et identifiants fiscaux avant qu'ils n'atteignent le modèle, conforme RGPD.

Fuite de secrets

Détecte les clés API (OpenAI, Anthropic, GitHub PAT, tokens Bearer) collées accidentellement dans les prompts.

<2ms

Latence scan Couche 1

Types de menaces

100%

Garantie uptime

SOC 2

Piste d'audit prête

Scan regex Couche 1 < 2 ms, toujours actif

Couche 2 LLM Guard NLP (optionnel, chargement paresseux)

Piste d'audit immuable (trigger DB inviolable)

Export webhook SIEM (Splunk, Datadog, personnalisé)

Lire la documentation Security Shield

Open source · MIT

Un SDK. Tout de suite.

CLI en 30 secondes, SDK Python et TypeScript compatibles OpenAI. Aucun vendor-lock : tu peux sortir d'HiWay sans toucher une ligne de code applicatif.

Recommandé

CLI

Install en une ligne, signup direct, premier appel depuis le terminal. Parfait pour tester avant de coder quoi que ce soit.

npm i -g @hiway2llm/cli
hw signup
hw chat "explain this in 3 bullets"

Python

Import drop-in. Toutes les méthodes qui existent dans l'OpenAI SDK fonctionnent - on ne fait que rediriger vers le bon modèle.

pip install hiway2llm

from hiway2llm import Hiway
cli = Hiway(api_key="hw_live_...")
cli.chat("Say hi")

TypeScript

Client fetch natif, compatible Node et Edge runtimes (Vercel, Cloudflare Workers).

npm i @hiway2llm/client

import { Hiway } from "@hiway2llm/client";
const h = new Hiway({ apiKey: "hw_live_..." });
await h.chat("Say hi");

Code sur GitHub·Docs complètes·MIT

Des plans simples. Vos clés, notre cerveau.

Gardez votre clé Anthropic, payez Anthropic directement. HiWay mesure la conso et facture un markup % sur le coût réel routé - largement rentabilisé par les économies de routage.

Commencez gratuitement. Passez à l'échelle quand vous êtes prêt.

Sans carte bancaire · Résiliation immédiate · Accès instantané

Estimez votre économie réelle

Routage intelligent − frais HiWay2LLM = gain net

Budget API mensuel

$1kScale

$100$50k+

Profil d'usage

Mix estimé : 40% Haiku · 50% Sonnet · 10% Opus

Économie nette / mois

+$501

soit +50% sur ta facture actuelle

Avant HiWay2LLM$1k / mois

Économies smart routing−$550

Markup HiWay2LLM (11% du routé)+$49

Total après HiWay2LLM$499 / mois

Projection 12 mois+$6.0k économisés

Démarrer gratuitement

Simulation indicative · basée sur le mix modèles typique de votre profil

Free

Gratuit

Pour tester et prototyper.

Routage intelligent (toutes sources)

Dashboard analytics basique

1 clé API

Zéro journalisation des prompts

Guardian anti-dérive

CORTEX Orchestrateur IA

Contrôles budgétaires

Cache sémantique

Masquage PII

Démarrer gratuitement

Populaire

Scale

jusqu'à

−60%

sur tes coûts IA réels · CORTEX route vers le modèle optimal

Smart routing LLMbon modèle au bon moment

−30 à −60%

Cache sémantiquetokens évités

−10 à −20%

Guardian anti-dériverequêtes inutiles bloquées

−5 à −15%

Markup HiWay2LLM+10 à 12,5%

Dégressif : <$500 → 12,5% · $500-5K → 11% · $5K-20K → 10%

Tout FREE inclus

Guardian anti-dérive avancé

CORTEX Orchestrateur IA

Contrôles budgétaires avancés

Cache sémantique

Masquage PII

Sessions agents multi-tenant

Rapports d'usage exportables (CSV)

Support prioritaire

Démarrer

Enterprise

Sur mesure

$20K-50K/mois → 9% · au-delà : sur-mesure négocié

VolumeNégocié

SLA dédiéInclus

Contrat annuelPossible

Tout Scale inclus

Markup négocié selon volume

SLA dédié & uptime garanti

Contrat annuel possible

Support dédié (Slack privé)

Intégrations sur mesure

Nous contacter

Ta clé Anthropic, tu paies Anthropic directement

HiWay2LLM mesure la conso et facture le markup

Wallet vide = passthrough, service continu

Résiliation immédiate

Ce qui est inclus

Toutes les fonctionnalités core sont disponibles dès le premier pack. Les features avancées s'ouvrent avec Scale et Enterprise.

Fonctionnalité	FreeRoutage de base · 10M/mois	ScaleMarkup 12,5 → 10%	EnterpriseSur devis
USAGE & QUOTAS
Tokens inclus	par pack acheté	1B / achat	custom
Auto-reload
Sièges équipe	3	25	∞
Workspaces	1	5	∞
Conservation analytics	30j	1 an	∞
MOTEUR DE ROUTAGE
Smart routing (model=auto)
BYOK fournisseurs
0 % marge sur l'inférence
Fallback automatique
Guardian anti-loop
CORTEX alertes Inbox
CONTRÔLES AVANCÉS
Cache sémantique
A/B testing modèles
Journal d'audit
CORTEX complet (5 phases)
SSO (Google, Microsoft)
Masquage PII
Self-hosted
Règles routage custom
SUPPORT & CONFORMITÉ
Canal de support	Email	Priority	SLA 99.99%
DPA (RGPD)
Financement disponible
Ingénieur dédié

L'inférence est toujours facturée directement par vos fournisseurs LLM, sur vos propres clés. Les prix ci-dessus n'incluent pas l'inférence.

INCLUS DANS CHAQUE PLAN

Routage intelligent sur tous vos fournisseurs BYOK

Alerting burn-rate et détection d'anomalies

Dashboard temps réel, analytics par clé

Support multi-tenant, rate-limits par clé

Zéro journalisation des prompts (RGPD)

API compatible OpenAI - fonctionne avec n'importe quel SDK

BYOK - apportez vos propres clés de n'importe quel provider supporté : LLM (Anthropic, OpenAI, Google, Mistral, Groq, Together AI, Replicate, Cohere…), image (Flux/BFL, Stability AI, fal.ai), vidéo (Kling, Runway, Luma AI), audio (ElevenLabs, HeyGen). L'inférence est facturée directement par vos fournisseurs. HiWay facture uniquement un markup % sur le coût routé réel.

Arrêtez de surpayer pour
"bonjour"

Vos utilisateurs envoient des messages simples 70% du temps. Pourquoi payer le prix d'Opus pour un bonjour ?

Commencer gratuitement

Comparé à OpenRouter, Portkey, LiteLLM

Comparatif honnête. Mis à jour le 2026-04-22 d'après les docs publiques de chaque éditeur.

Fonctionnalité	HiWay2LLM	OpenRouter	Portkey	LiteLLM	Requesty
Tes propres clés (BYOK)
Routing intelligent par complexité de requête
API compatible OpenAI
Fallback automatique entre providers
Prompt caching (Anthropic / OpenAI)
Analytics par workspace + audit log
Alertes burn-rate (pics de budget)
Hébergement UE par défaut (RGPD)				self-host
Aucun log de prompt
Auto-gestion IA (CORTEX)
Modèle de pricing	forfait €/mois	% markup	forfait + % markup	self-host / SaaS	% markup

natif · partiel / plugin · non proposé. On vérifie chaque claim contre les docs publiques de l'éditeur - si tu repères une erreur, dis-le-nous.

Questions Fréquentes

Comment HiWay2LLM réduit-il mes coûts ?

La plupart des requêtes LLM n'ont pas besoin du modèle le plus puissant (et le plus cher). Un simple « bonjour » n'a pas besoin de Claude Opus 4.7 à 25 $/M tokens en sortie - Haiku 4.5 à 5 $/M le gère parfaitement. HiWay2LLM analyse chaque requête en moins d'une milliseconde et la route vers le modèle le moins cher de votre roster BYOK capable de la traiter. Sur un mix typique, les clients économisent 40 à 60 % sans changer leur code ni leurs prompts.

La qualité des réponses va-t-elle diminuer ?

Non. HiWay2LLM ne route que les requêtes simples (salutations, questions courtes, confirmations) vers les modèles économiques. Les tâches complexes - génération de code, raisonnement multi-étapes, utilisation d'outils par agents - vont toujours vers les modèles les plus puissants. Vous pouvez aussi forcer un modèle à tout moment avec le header X-Force-Model.

Combien de temps prend l'intégration ?

Environ 2 minutes. Vous changez une ligne de code - votre base_url. C'est tout. HiWay2LLM est compatible avec tous les SDK LLM : OpenAI, Anthropic, LangChain, Vercel AI SDK, n8n, curl, et tout ce qui parle le format API standard. Pas de SDK à installer, pas de fichier de config à maintenir.

Quels fournisseurs LLM sont supportés ?

Anthropic (Haiku 4.5, Sonnet 4.6, Opus 4.7), OpenAI (GPT-4o-mini, GPT-4o, GPT-5), Google (Gemini 2.5 Flash Lite, Flash, Pro), Mistral (Small, Large) et DeepSeek (V3, R1). Vous branchez vos propres clés pour les fournisseurs que vous voulez utiliser - HiWay2LLM choisit automatiquement le meilleur rapport prix/qualité sur chaque requête, parmi votre roster activé.

Stockez-vous mes prompts ou mes réponses ?

Non. Le zéro journalisation des prompts est un principe architectural fondamental, pas juste une politique. Vos prompts passent par notre proxy de routage en mémoire uniquement, sont transmis au fournisseur LLM, puis immédiatement supprimés. Aucune donnée de prompt n'est jamais écrite sur disque. Nous ne stockons que les métadonnées : nombre de tokens, modèle sélectionné, coût et latence de routage.

Comment fonctionne la tarification ?

Packs de tokens avec trois modes de facturation - Free (2M tokens/mois, sans carte), Spark (5,50 € unique · 5,25 €/mois · 59,40 €/an, 10M tokens), Boost (25 € unique · 23,75 €/mois · 270 €/an, 50M tokens), Pro (85 € unique · 80,75 €/mois · 918 €/an, 200M tokens), Scale (360 € unique · 342 €/mois · 3 888 €/an, 1B tokens), Enterprise sur demande. L'inférence est facturée séparément par vos fournisseurs LLM sur vos propres comptes - HiWay2LLM applique 0 % de marge. Vous pouvez changer de pack ou annuler à tout moment depuis le dashboard.

Que se passe-t-il si mes coûts explosent ?

HiWay2LLM surveille votre dépense en temps réel et déclenche des alertes burn-rate dès qu'une clé, un agent ou un workspace dérive au-dessus de sa baseline. Vous recevez des notifications email + Slack à l'instant où quelque chose dérape - avant que la facture mensuelle ne le fasse. Vous définissez les seuils ; on fait remonter le signal.

Et si HiWay2LLM tombe en panne ?

Nous visons 99,9% de disponibilité. Si notre proxy de routage est indisponible, vos requêtes échoueront avec une erreur claire (502). Nous recommandons d'implémenter un fallback simple dans votre code qui route directement vers votre fournisseur si HiWay2LLM est injoignable. Cela prend 3 lignes de code.

Puis-je forcer un modèle spécifique pour certaines requêtes ?

Oui. Ajoutez le header X-Force-Model à n'importe quelle requête pour contourner le routage intelligent. Par exemple : X-Force-Model: anthropic/claude-opus-4-7 utilisera toujours Opus 4.7 quel que soit le score de complexité. Utile pour les requêtes critiques où vous voulez toujours le meilleur modèle.

Est-ce conforme au RGPD ?

Oui. Nous sommes une entreprise française (Hiway2llm.com) hébergée sur des serveurs européens (OVH, France). Nous ne stockons aucune donnée personnelle au-delà de votre email. Nous ne stockons pas les prompts. Nous sommes conformes au RGPD et à l'AI Act européen. Un accord de traitement des données (DPA) est disponible pour les clients entreprise.

Quelle est la différence avec OpenRouter ?

OpenRouter est une passerelle API multi-fournisseur - vous choisissez manuellement quel modèle utiliser. HiWay2LLM est un routeur intelligent - il choisit automatiquement le meilleur modèle pour chaque requête selon l'analyse de complexité. OpenRouter ajoute du coût (leurs frais + aucune économie de routage). HiWay2LLM économise du coût (le routage vers des modèles moins chers compense largement l'abonnement fixe).

Puis-je héberger HiWay2LLM moi-même ?

Nous proposons un SaaS entièrement géré - aucune infrastructure à maintenir. Pour les clients entreprise avec des exigences spécifiques de conformité ou de résidence des données, nous proposons des options de déploiement privé. Contactez-nous pour en discuter.

Utilisez le meilleur modèle.Payez le prix du moins cher.