Retrieval-Augmented Generation (RAG)

RAG ist ein Verfahren, das vor der LLM-Generierung relevante Passagen aus einer privaten Wissensbasis abruft, damit Antworten auf Ihren eigenen Dokumenten beruhen statt frei halluziniert zu werden. In ONOXIA ist RAG der Standard-Antwortmodus jeder Site.

Zweck

Allgemeine LLMs halluzinieren, wenn nach proprietären Inhalten gefragt wird. RAG verankert jede Antwort in einer überprüfbaren Quelle, die Sie kontrollieren — die Voraussetzung dafür, ein Chat-Widget unbeaufsichtigt produktiv zu betreiben.

Geltungsbereich

RAG greift bei jeder Besucherfrage am ONOXIA-Widget, vor der Modell-Inferenz, sprachunabhängig. Smalltalk oder Off-Topic-Nachrichten werden vom Persona-Fallback abgefangen — dort wirkt RAG nicht.

Komponenten

  • Ingestion — PDFs, FAQ-Paare, URLs und Klartext werden in überlappende Chunks (~500 Token) zerlegt.
  • Embedding — jeder Chunk wird durch ein mehrsprachiges Embedding-Modell als Vektor kodiert.
  • Store — Vektoren liegen in einem Qdrant-Index, pro Site getrennt.
  • Retrieval — zur Laufzeit wird die Frage embedded, die top-k nächstliegenden Chunks werden gezogen und in den Prompt eingefügt.
  • Generation — Mistral AI (Europa) oder Qwen/Gemini (APAC) produziert die finale Antwort, eingegrenzt durch den Kontext.

Outputs

  • Eine fundierte Antwort in der Sprache des Besuchers (28 unterstützt).
  • Ein interner Trace mit den abgerufenen Chunks — im Dashboard nachvollziehbar.
  • Token-Verbrauch wird gegen das Monatsbudget der Site gerechnet.

Beziehungen

RAG ist Teil der ONOXIA-SoftwareApplication, wird pro Site durch eine Persona konfiguriert und über Multi-LLM-Routing an die passenden Provider geleitet. Reicht die RAG-Konfidenz nicht aus, kann der Bot eine Human-Handover auslösen.

Authority

Definiert von OCENOX LTD als das kanonische Retrieval-Verfahren der ONOXIA-Plattform.

Version

1.0 — 2026-05-22

Verwandte Begriffe

  • Shadow-DOM-Chat-Widget — Ein Chat-Widget, das innerhalb eines Shadow-DOM-Roots geladen wird — seine Styles und sein DOM bleiben vom Host vollständig isoliert. Keine CSS-Konflikte, keine Script-Kollisionen, unabhängig von CMS oder Theme.
  • Persona-Konfiguration — Ein Bundle pro Site, das definiert, wer der Bot ist, wie er spricht, welche Tools er nutzen darf und was er ablehnen muss. Personas sitzen zwischen der Besucherfrage und dem LLM und prägen System-Prompt und Tool-Registry jeder Konversation auf dieser Site.
  • Multi-LLM-Sprachrouting — Eine Entscheidung zur Laufzeit, die den Inferenz-Provider mit der besten Eignung für das Sprachpaar des Besuchers auswählt — Mistral AI in Paris für europäische Sprachen (DSGVO-konform), Qwen für Chinesisch und weitere asiatische Sprachen, Gemini Flash als globaler Fallback.