Cache sémantique

Skip total des requêtes identiques et quasi-identiques - zéro token, réponse instantanée.

Une grande partie du trafic agent est répétitive. Le cache sémantique reconnaît quand une nouvelle requête est en pratique la même qu'une récente et rejoue la réponse stockée. Aucun appel upstream, aucun token consommé, ~20 ms de latence totale.

Inclus dans Scale et Enterprise

Le cache sémantique est disponible sur les plans Scale et Enterprise. Le plan Free ne l'inclut pas.

Comment marche la similarité

Chaque requête entrante est empreintée localement (aucun appel externe).
On cherche l'entrée stockée la plus proche dans le namespace de votre workspace.
Si elle est suffisamment proche d'une entrée existante et que les paramètres de la requête correspondent, on rejoue la réponse cachée.
Les entrées de cache expirent après 24h par défaut (configurable par workspace).

Ce qu'il faut regarder dans la réponse

json

{
  "_hiway": {
    "cache_hit":        true,
    "cache_similarity": 0.971,
    "routed_model":     "cache",
    "routed_tier":      "cache"
  }
}

Activez le masquage PII avant le cache

Si vos prompts incluent des identifiants spécifiques à l'utilisateur (email, téléphone, ID de compte), le contenu brut mis en cache peut les exposer via la correspondance. Activez le masquage PII - il tourne avant la mise en cache.