Multi-LLM-Sprachrouting

Multi-LLM-Sprachrouting ist eine Entscheidung zur Laufzeit, die den Inferenz-Provider mit der besten Eignung für das Sprachpaar des Besuchers auswählt — Mistral AI in Paris für europäische Sprachen (DSGVO-konform), Qwen für Chinesisch und weitere asiatische Sprachen, Gemini Flash als globaler Fallback.

Zweck

Kein einzelnes LLM ist in jeder Sprache am besten. Mistral glänzt in europäischen Sprachen und liefert EU-Datenresidenz. Qwen führt bei Chinesisch, Thai und mehreren asiatischen Sprachen. Gemini Flash ist verlässlich und günstig als universeller Fallback. Routing ordnet Sprache und Modell zu — jeder Besucher erhält eine Antwort in nativer Qualität.

Geltungsbereich

Gilt für jeden Generierungs-Call des ONOXIA-Bot-Workers — RAG-Antworten, Fallback-Replies, E-Mail-Agent-Entwürfe. Embedding ist nicht betroffen (ein separater mehrsprachiger Encoder wird für den gesamten Korpus genutzt, unabhängig vom Routing).

Komponenten

Detection — die erste Nachricht des Besuchers bestimmt die Quellsprache.
Routing-Tabelle — Mapping (Quelle, Ziel) → Provider, gecached über LlmModel::Cache::remember.
Provider — Mistral, Qwen oder Gemini, jeweils mit eigenem API-Client, Retry-Policy und Rate-Limit-Budget.
Fallback — bei Provider-Fehler oder erschöpftem Kontingent wird der nächste Provider der Prioritätsliste aufgerufen.

Outputs

Eine sich nativ anfühlende Antwort in jeder der 28 unterstützten Bot-Sprachen.
Pro-Sprache-Token-Accounting, das in Token-FIFO-Pricing einfließt.
Eine Provider-Uptime-Sicht im Dashboard.

Beziehungen

Multi-LLM-Sprachrouting produziert Inferenz für RAG-Antworten und wird von Token-FIFO-Pricing abgerechnet.

Authority

Definiert von OCENOX LTD.

Version

1.0 — 2026-05-22