Aurabase Logo
aurabasedocs
docsServicesAI Gateway

AI Gateway

Proxy unifié OpenAI, Anthropic, Mistral, Llama, Ollama. Cache sémantique, budget per-tenant, observabilité tokens. Un seul SDK pour vos workloads LLM.

8 min de lecture·Niveau intermédiaire·Révisé le 15 avr. 2026
#
Vue d’ensemble

Un endpoint, N providers

§ 01

L'AI Gateway est une surface HTTP/SDK unique qui proxifie les providers LLM majeurs. Le même code tourne contre OpenAI, Anthropic, Mistral ou Vertex AI — vous changez seulement provider.

Le gateway ajoute trois couches au-dessus : cache sémantique (embeddings des prompts, hit rate ~30% en moyenne), budget per-tenant (quota $ par user), observabilité (tokens, coût, latence, provider).

#
Providers

Cinq supportés GA

§ 02
ProviderModèles chat/completionEmbeddings
OpenAIgpt-4o, gpt-4o-mini, o1, o1-minitext-embedding-3-*
Anthropicclaude-opus-4-5, sonnet-4-5, haiku-4-5
Mistralmistral-large, medium, smallmistral-embed
Llama (hébergé)llama-3.3-70b, llama-3.1-8b
Vertex AIgemini-1.5-pro, gemini-1.5-flashtext-multilingual-embedding
#
Cache sémantique

~30% des prompts déjà connus

§ 03

Pour chaque requête entrante, le gateway embedding la question (modèle léger interne, <10ms) et cherche en vecteur similaire dans un cache TTL. Si la distance cosinus dépasse votre seuil (par défaut 0.96), il retourne la réponse cachée sans appeler le provider.

config
TYPESCRIPT
await aura.ai.chat({
provider: 'anthropic', model: 'claude-opus-4-5',
messages: [...],
cache: {
enabled: true,
threshold: 0.96, // similarité min
ttl: '24h',
},
})
Astuce
Le cache est scopé par projet. Deux utilisateurs différents dans le même projet peuvent bénéficier d'une réponse cachée — ajoutez cache.scope: 'user' si vous voulez isoler par utilisateur.
#
Exemples

Chat, embeddings, RAG

§ 04
functions/chat.tsTYPESCRIPT
const stream = await aura.ai.chat({
provider: 'anthropic',
model: 'claude-opus-4-5',
stream: true,
messages: [{ role: 'user', content: prompt }],
})
for await (const chunk of stream) {
process.stdout.write(chunk.delta)
}
#
Budget & observabilité

Quotas par user, métriques live

§ 05

Chaque appel est loggué avec tokens in/out, coût calculé au centième de centime, provider, model, latence, cache hit. Définissez un budget mensuel par user pour éviter les surprises.

cli
BASH
# Budget 10 € / mois par user sur Claude Opus
aura ai budget set \
--user-scope \
--provider anthropic \
--model claude-opus-4-5 \
--limit 10_euros_per_month
# Voir la consommation temps réel
aura ai usage --by user --top 10
Attention
Les budgets dépassés retournent HTTP 402 Payment Required avec un champ reset_at. Votre app peut gérer ça gracieusement (dégrader vers un modèle moins cher, prompter l'utilisateur à upgrader).
Dernière mise à jour · 15 avr. 2026