Lancer une expérience A/B

Benchmark de modèles sur le trafic réel sans glue code.

Ouvrez Tableau de bord → Experiments → Nouveau. Choisissez 2-5 modèles candidats, un taux d'échantillonnage, un match filter (pour que seules les requêtes qui matchent participent), et une condition d'arrêt.

bash

# Lancer une expérience via API
curl https://app.hiway2llm.com/v1/experiments \
  -H "Authorization: Bearer hw_live_VOTRE_CLE" \
  -H "Content-Type: application/json" \
  -d '{
    "name":          "haiku-vs-gpt4o-mini",
    "candidates":    ["anthropic/claude-haiku-4-5", "openai/gpt-4o-mini"],
    "sample_rate":   0.05,
    "match_filter":  { "tier": "light" },
    "stop_after":    { "requests": 1000 }
  }'

Lire les résultats

Ouvrez Tableau de bord → Experiments → [votre expérience] pour le dashboard live : coût par candidat, latence p50/p95, taux d'erreur, et gagnant pairwise avec intervalle de confiance. Export des données brutes en CSV pour votre propre analyse.