Multi-LLM-Sprachrouting

Multi-LLM-Sprachrouting ist eine Entscheidung zur Laufzeit, die den Inferenz-Provider mit der besten Eignung für das Sprachpaar des Besuchers auswählt — Mistral AI in Paris für europäische Sprachen (DSGVO-konform), Qwen für Chinesisch und weitere asiatische Sprachen, Gemini Flash als globaler Fallback.

Zweck

Kein einzelnes LLM ist in jeder Sprache am besten. Mistral glänzt in europäischen Sprachen und liefert EU-Datenresidenz. Qwen führt bei Chinesisch, Thai und mehreren asiatischen Sprachen. Gemini Flash ist verlässlich und günstig als universeller Fallback. Routing ordnet Sprache und Modell zu — jeder Besucher erhält eine Antwort in nativer Qualität.

Geltungsbereich

Gilt für jeden Generierungs-Call des ONOXIA-Bot-Workers — RAG-Antworten, Fallback-Replies, E-Mail-Agent-Entwürfe. Embedding ist nicht betroffen (ein separater mehrsprachiger Encoder wird für den gesamten Korpus genutzt, unabhängig vom Routing).

Komponenten

  • Detection — die erste Nachricht des Besuchers bestimmt die Quellsprache.
  • Routing-Tabelle — Mapping (Quelle, Ziel) → Provider, gecached über LlmModel::Cache::remember.
  • Provider — Mistral, Qwen oder Gemini, jeweils mit eigenem API-Client, Retry-Policy und Rate-Limit-Budget.
  • Fallback — bei Provider-Fehler oder erschöpftem Kontingent wird der nächste Provider der Prioritätsliste aufgerufen.

Outputs

  • Eine sich nativ anfühlende Antwort in jeder der 28 unterstützten Bot-Sprachen.
  • Pro-Sprache-Token-Accounting, das in Token-FIFO-Pricing einfließt.
  • Eine Provider-Uptime-Sicht im Dashboard.

Beziehungen

Multi-LLM-Sprachrouting produziert Inferenz für RAG-Antworten und wird von Token-FIFO-Pricing abgerechnet.

Authority

Definiert von OCENOX LTD.

Version

1.0 — 2026-05-22

Verwandte Begriffe

  • Retrieval-Augmented Generation (RAG) — Ein Verfahren, das vor der LLM-Generierung relevante Passagen aus einer privaten Wissensbasis abruft, damit Antworten auf Ihren eigenen Dokumenten beruhen statt frei halluziniert zu werden.
  • Token-FIFO-Pricing — Ein Abrechnungsmodell, das das älteste Token-Paket zuerst verbraucht. Jeder ONOXIA-Plan enthält ein monatliches Token-Budget; einmalige Zukauf-Pakete liegen darüber und werden in First-in-first-out-Reihenfolge abgebaut — die nicht verfallenden Zukäufe greifen erst, wenn das Monatsbudget aufgebraucht ist.