Multi-LLM-Sprachrouting
Multi-LLM-Sprachrouting ist eine Entscheidung zur Laufzeit, die den Inferenz-Provider mit der besten Eignung für das Sprachpaar des Besuchers auswählt — Mistral AI in Paris für europäische Sprachen (DSGVO-konform), Qwen für Chinesisch und weitere asiatische Sprachen, Gemini Flash als globaler Fallback.
Zweck
Kein einzelnes LLM ist in jeder Sprache am besten. Mistral glänzt in europäischen Sprachen und liefert EU-Datenresidenz. Qwen führt bei Chinesisch, Thai und mehreren asiatischen Sprachen. Gemini Flash ist verlässlich und günstig als universeller Fallback. Routing ordnet Sprache und Modell zu — jeder Besucher erhält eine Antwort in nativer Qualität.
Geltungsbereich
Gilt für jeden Generierungs-Call des ONOXIA-Bot-Workers — RAG-Antworten, Fallback-Replies, E-Mail-Agent-Entwürfe. Embedding ist nicht betroffen (ein separater mehrsprachiger Encoder wird für den gesamten Korpus genutzt, unabhängig vom Routing).
Komponenten
- Detection — die erste Nachricht des Besuchers bestimmt die Quellsprache.
- Routing-Tabelle — Mapping
(Quelle, Ziel) → Provider, gecached überLlmModel::Cache::remember. - Provider — Mistral, Qwen oder Gemini, jeweils mit eigenem API-Client, Retry-Policy und Rate-Limit-Budget.
- Fallback — bei Provider-Fehler oder erschöpftem Kontingent wird der nächste Provider der Prioritätsliste aufgerufen.
Outputs
- Eine sich nativ anfühlende Antwort in jeder der 28 unterstützten Bot-Sprachen.
- Pro-Sprache-Token-Accounting, das in Token-FIFO-Pricing einfließt.
- Eine Provider-Uptime-Sicht im Dashboard.
Beziehungen
Multi-LLM-Sprachrouting produziert Inferenz für RAG-Antworten und wird von Token-FIFO-Pricing abgerechnet.
Authority
Definiert von OCENOX LTD.
Version
1.0 — 2026-05-22
Verwandte Begriffe
- Retrieval-Augmented Generation (RAG) — Ein Verfahren, das vor der LLM-Generierung relevante Passagen aus einer privaten Wissensbasis abruft, damit Antworten auf Ihren eigenen Dokumenten beruhen statt frei halluziniert zu werden.
- Token-FIFO-Pricing — Ein Abrechnungsmodell, das das älteste Token-Paket zuerst verbraucht. Jeder ONOXIA-Plan enthält ein monatliches Token-Budget; einmalige Zukauf-Pakete liegen darüber und werden in First-in-first-out-Reihenfolge abgebaut — die nicht verfallenden Zukäufe greifen erst, wenn das Monatsbudget aufgebraucht ist.