Streaming des réponses

Comment HiWay forwarde les Server-Sent Events de bout en bout.

HiWay supporte nativement le protocole SSE complet. Mettez stream: true dans votre requête et vous recevrez les chunks standards data: {...}\n\n, un token à la fois, exactement comme si vous parliez au fournisseur directement.

Impact latence

La latence du premier token = latence fournisseur + ~5 ms de routage. On ne buffere pas le stream, on ne réécrit pas les chunks, on n'ajoute pas de wrapper JSON. Votre client voit les mêmes événements SSE que le fournisseur aurait envoyés.

Les tool calls streament aussi

Les deltas de tool/function call passent inchangés. Ce que le fournisseur fait avec tool_calls dans un chunk streamé, HiWay le forwarde tel quel - votre client OpenAI-compatible les parse sans adapter.

Exemple côté client

python

from openai import OpenAI

client = OpenAI(base_url="https://app.hiway2llm.com/v1", api_key="hw_live_VOTRE_CLE")

stream = client.chat.completions.create(
    model="auto",
    messages=[{"role": "user", "content": "Écris un haiku sur les routers"}],
    stream=True,
)

for chunk in stream:
    delta = chunk.choices[0].delta.content or ""
    print(delta, end="", flush=True)