L'AI Gateway est une surface HTTP/SDK unique qui proxifie les providers LLM majeurs. Le même code tourne contre OpenAI, Anthropic, Mistral ou Vertex AI — vous changez seulement provider.
Le gateway ajoute trois couches au-dessus : cache sémantique (embeddings des prompts, hit rate ~30% en moyenne), budget per-tenant (quota $ par user), observabilité (tokens, coût, latence, provider).
Pour chaque requête entrante, le gateway embedding la question (modèle léger interne, <10ms) et cherche en vecteur similaire dans un cache TTL. Si la distance cosinus dépasse votre seuil (par défaut 0.96), il retourne la réponse cachée sans appeler le provider.
config
TYPESCRIPT
await aura.ai.chat({
provider: 'anthropic', model: 'claude-opus-4-5',
messages: [...],
cache: {
enabled: true,
threshold: 0.96, // similarité min
ttl: '24h',
},
})
Astuce
Le cache est scopé par projet. Deux utilisateurs différents dans le même projet peuvent bénéficier d'une réponse cachée — ajoutez cache.scope: 'user' si vous voulez isoler par utilisateur.
Chaque appel est loggué avec tokens in/out, coût calculé au centième de centime, provider, model, latence, cache hit. Définissez un budget mensuel par user pour éviter les surprises.
cli
BASH
# Budget 10 € / mois par user sur Claude Opus
aura ai budget set \
--user-scope \
--provider anthropic \
--model claude-opus-4-5 \
--limit 10_euros_per_month
# Voir la consommation temps réel
aura ai usage --by user --top 10
Attention
Les budgets dépassés retournent HTTP 402 Payment Required avec un champ reset_at. Votre app peut gérer ça gracieusement (dégrader vers un modèle moins cher, prompter l'utilisateur à upgrader).