docs›Services›AI Gateway

AI Gateway

Proxy unifié OpenAI, Anthropic, Mistral, Llama, Ollama. Cache sémantique, budget per-tenant, observabilité tokens. Un seul SDK pour vos workloads LLM.

8 min de lecture·Niveau intermédiaire·Révisé le 15 avr. 2026

Vue d’ensemble

Un endpoint, N providers

§ 01

L'AI Gateway est une surface HTTP/SDK unique qui proxifie les providers LLM majeurs. Le même code tourne contre OpenAI, Anthropic, Mistral ou Vertex AI — vous changez seulement provider.

Le gateway ajoute trois couches au-dessus : cache sémantique (embeddings des prompts, hit rate ~30% en moyenne), budget per-tenant (quota $ par user), observabilité (tokens, coût, latence, provider).

Providers

Cinq supportés GA

§ 02

ProviderModèles chat/completionEmbeddings

OpenAIgpt-4o, gpt-4o-mini, o1, o1-minitext-embedding-3-*

Anthropicclaude-opus-4-5, sonnet-4-5, haiku-4-5—

Mistralmistral-large, medium, smallmistral-embed

Llama (hébergé)llama-3.3-70b, llama-3.1-8b—

Vertex AIgemini-1.5-pro, gemini-1.5-flashtext-multilingual-embedding

Cache sémantique

~30% des prompts déjà connus

§ 03

Pour chaque requête entrante, le gateway embedding la question (modèle léger interne, <10ms) et cherche en vecteur similaire dans un cache TTL. Si la distance cosinus dépasse votre seuil (par défaut 0.96), il retourne la réponse cachée sans appeler le provider.

config

TYPESCRIPT

await aura.ai.chat({
  provider: 'anthropic', model: 'claude-opus-4-5',
  messages: [...],
  cache: {
    enabled: true,
    threshold: 0.96,   // similarité min
    ttl: '24h',
  },
})

Astuce

Le cache est scopé par projet. Deux utilisateurs différents dans le même projet peuvent bénéficier d'une réponse cachée — ajoutez cache.scope: 'user' si vous voulez isoler par utilisateur.

Exemples

Chat, embeddings, RAG

§ 04

functions/chat.tsTYPESCRIPT

const stream = await aura.ai.chat({
  provider: 'anthropic',
  model: 'claude-opus-4-5',
  stream: true,
  messages: [{ role: 'user', content: prompt }],
})
for await (const chunk of stream) {
  process.stdout.write(chunk.delta)
}

Budget & observabilité

Quotas par user, métriques live

§ 05

Chaque appel est loggué avec tokens in/out, coût calculé au centième de centime, provider, model, latence, cache hit. Définissez un budget mensuel par user pour éviter les surprises.

cli

BASH

# Budget 10 € / mois par user sur Claude Opus
aura ai budget set \
  --user-scope \
  --provider anthropic \
  --model claude-opus-4-5 \
  --limit 10_euros_per_month
# Voir la consommation temps réel
aura ai usage --by user --top 10

Attention

Les budgets dépassés retournent HTTP 402 Payment Required avec un champ reset_at. Votre app peut gérer ça gracieusement (dégrader vers un modèle moins cher, prompter l'utilisateur à upgrader).

Continuer

Pour aller plus loin

§ 06

Edge Functions

ctx.ai dans vos handlers/crons/jobs.

Database + pgvector

Stocker embeddings, match via index HNSW.

API REST

Endpoints /v1/ai/chat, /embed, /rag.

Performances

Streaming, retry, fallback providers.

← Précédent

Notifications

Tous les guides

Dernière mise à jour · 15 avr. 2026
↗ Éditer sur GitHub↗ Signaler un problème