Streaming des réponses
Comment HiWay forwarde les Server-Sent Events de bout en bout.
HiWay supporte nativement le protocole SSE complet. Mettez stream: true dans votre requête et vous recevrez les chunks standards data: {...}\n\n, un token à la fois, exactement comme si vous parliez au fournisseur directement.
Impact latence
La latence du premier token = latence fournisseur + ~5 ms de routage. On ne buffere pas le stream, on ne réécrit pas les chunks, on n'ajoute pas de wrapper JSON. Votre client voit les mêmes événements SSE que le fournisseur aurait envoyés.
Les tool calls streament aussi
Les deltas de tool/function call passent inchangés. Ce que le fournisseur fait avec tool_calls dans un chunk streamé, HiWay le forwarde tel quel - votre client OpenAI-compatible les parse sans adapter.
Exemple côté client
from openai import OpenAI
client = OpenAI(base_url="https://app.hiway2llm.com/v1", api_key="hw_live_VOTRE_CLE")
stream = client.chat.completions.create(
model="auto",
messages=[{"role": "user", "content": "Écris un haiku sur les routers"}],
stream=True,
)
for chunk in stream:
delta = chunk.choices[0].delta.content or ""
print(delta, end="", flush=True)