A/B Experiments
Lancez N variantes d'une requête en parallèle sur plusieurs modèles. Comparez coût, latence, qualité.
Les A/B Experiments permettent de benchmarker des modèles sur votre trafic de production réel sans écrire de glue code. Vous définissez une expérience avec 2-5 modèles candidats, un taux d'échantillonnage (ex. 5% des requêtes qui matchent), et une condition d'arrêt. HiWay fan-out ces requêtes vers chaque candidat en parallèle, enregistre coût et latence, et vous permet de tagger les résultats pour scoring qualité.
Inclus dans Scale et Enterprise
Les A/B Experiments sont disponibles sur les plans Scale et Enterprise.
Config d'une expérience
json
{
"name": "haiku-vs-gpt4o-mini-en-classification",
"candidates": ["anthropic/claude-haiku-4-5", "openai/gpt-4o-mini"],
"sample_rate": 0.05,
"match_filter": { "tier": "light", "has_tools": false },
"stop_after": { "requests": 1000 },
"primary_metric": "cost_per_request"
}Ce que vous obtenez
- Agrégé par candidat : coût moyen, latence p50/p95, taux d'erreur, taille d'échantillon
- Gagnant pairwise avec intervalle de confiance (test t unilatéral sur le coût)
- Scoring qualité humain optionnel via
POST /v1/experiments/:id/score - Export des données brutes par requête en CSV