A/B Experiments

Lancez N variantes d'une requête en parallèle sur plusieurs modèles. Comparez coût, latence, qualité.

Les A/B Experiments permettent de benchmarker des modèles sur votre trafic de production réel sans écrire de glue code. Vous définissez une expérience avec 2-5 modèles candidats, un taux d'échantillonnage (ex. 5% des requêtes qui matchent), et une condition d'arrêt. HiWay fan-out ces requêtes vers chaque candidat en parallèle, enregistre coût et latence, et vous permet de tagger les résultats pour scoring qualité.

Inclus dans Scale et Enterprise

Les A/B Experiments sont disponibles sur les plans Scale et Enterprise.

Config d'une expérience

json

{
  "name":          "haiku-vs-gpt4o-mini-en-classification",
  "candidates":    ["anthropic/claude-haiku-4-5", "openai/gpt-4o-mini"],
  "sample_rate":   0.05,
  "match_filter":  { "tier": "light", "has_tools": false },
  "stop_after":    { "requests": 1000 },
  "primary_metric": "cost_per_request"
}

Ce que vous obtenez

Agrégé par candidat : coût moyen, latence p50/p95, taux d'erreur, taille d'échantillon
Gagnant pairwise avec intervalle de confiance (test t unilatéral sur le coût)
Scoring qualité humain optionnel via POST /v1/experiments/:id/score
Export des données brutes par requête en CSV