Skip to content

Smart Routing, High Availability & Caching ⚡

Optimisez vos coûts, réduisez votre latence et assurez une disponibilité maximale grâce au moteur de routage intelligent et de mise en cache hiérarchique de LLM Bastion.


🔄 Routage Intelligent & Haute Disponibilité (Failover)

LLM Bastion ne se contente pas de relayer vos appels d'API. Il orchestre de manière dynamique les requêtes vers vos différents fournisseurs (OpenAI, Anthropic, Mistral, Google Vertex) selon vos contraintes d'affaires.

Fonctionnalités Clés du Routage :

  • 🔄 Basculement automatique (Failover & Retry) : Si un fournisseur principal subit une panne ou renvoie un code d'erreur (ex: 500 Internal Server Error, 429 Rate Limit), Bastion re-route automatiquement la requête vers un modèle équivalent chez un fournisseur alternatif en moins de 50ms.
  • 📊 Canary Deployments : Distribuez dynamiquement votre trafic (ex: 90% vers GPT-4o-mini pour l'économie, et 10% vers le tout nouveau modèle de test) pour valider les performances en production sans impact utilisateur.
  • 💎 Priority Queuing : Donnez la priorité aux requêtes des utilisateurs payants ou premium en les dirigeant vers des abonnements de fournisseurs à bande passante garantie, tandis que la R&D est dirigée vers des instances de moindre priorité.

🛡️ Validation de Bout en Bout par les Tests (test_failover_retry_with_mockito)

Notre système de tolérance aux pannes est validé en permanence par des tests d'intégration simulant des pannes d'infrastructure réelles :

  1. Panne du Fournisseur A : Une requête est initiée vers Fournisseur A. L'API renvoie un code d'erreur 500.
  2. Interception Intelligente : LLM Bastion intercepte l'erreur sans la renvoyer à l'application cliente.
  3. Routage de Secours : La requête est immédiatement re-dirigée vers le Fournisseur B (préalablement enregistré dans la base de routage).
  4. Succès Transparent : Le client reçoit sa réponse au format standard avec un code 200 OK, totalement inconscient de la panne réseau sous-jacente.

🗄️ Caching Hiérarchique (L1 / L2)

Pour minimiser vos factures de tokens d'IA, LLM Bastion intègre un système de cache à deux niveaux, sécurisé par tenant.

Niveau 1 : Le Cache Exact (L1)

  • Vitesse : Réponse instantanée en < 1ms.
  • Logique : Hash cryptographique SHA-256 de la requête normalisée (les métadonnées variables comme user_id et stream sont ignorées).
  • Cas d'usage : Questions identiques répétées fréquemment.

Niveau 2 : Le Cache Sémantique (L2)

  • Vitesse : Réponse en ~10ms.
  • Logique : Recherche par similarité de vecteurs (Cosine Similarity) avec un seuil de confiance strict de > 0.98.
  • Cas d'usage : Requêtes reformulées (ex: "Quelle est la météo à Paris ?" vs "Quel temps fait-il à Paris ?").

🏷️ Headers de Réponse pour le Débogage

Chaque réponse renvoyée par le gateway inclut des en-têtes (headers) permettant de suivre le comportement du routage et du cache :

http
X-Bastion-Cache: HIT-L1         # La réponse provient du cache exact (coût : 0 token !)
X-Bastion-Cache: HIT-L2         # La réponse provient du cache sémantique
X-Bastion-Cache: MISS           # L'appel a été relayé en direct au fournisseur LLM
X-Bastion-Routing-Decision: p2  # La requête a été routée vers le fournisseur secondaire 'p2' suite à une panne

IMPORTANT

Pour configurer vos routes et vos règles de failover localement, vous pouvez utiliser la console d'administration sur http://llmbastion-app.localhost.