Retrieval-Augmented Generation (RAG)

RAG ist ein Verfahren, das vor der LLM-Generierung relevante Passagen aus einer privaten Wissensbasis abruft, damit Antworten auf Ihren eigenen Dokumenten beruhen statt frei halluziniert zu werden. In ONOXIA ist RAG der Standard-Antwortmodus jeder Site.

Zweck

Allgemeine LLMs halluzinieren, wenn nach proprietären Inhalten gefragt wird. RAG verankert jede Antwort in einer überprüfbaren Quelle, die Sie kontrollieren — die Voraussetzung dafür, ein Chat-Widget unbeaufsichtigt produktiv zu betreiben.

Geltungsbereich

RAG greift bei jeder Besucherfrage am ONOXIA-Widget, vor der Modell-Inferenz, sprachunabhängig. Smalltalk oder Off-Topic-Nachrichten werden vom Persona-Fallback abgefangen — dort wirkt RAG nicht.

Komponenten

Ingestion — PDFs, FAQ-Paare, URLs und Klartext werden in überlappende Chunks (~500 Token) zerlegt.
Embedding — jeder Chunk wird durch ein mehrsprachiges Embedding-Modell als Vektor kodiert.
Store — Vektoren liegen in einem Qdrant-Index, pro Site getrennt.
Retrieval — zur Laufzeit wird die Frage embedded, die top-k nächstliegenden Chunks werden gezogen und in den Prompt eingefügt.
Generation — Mistral AI (Europa) oder Qwen/Gemini (APAC) produziert die finale Antwort, eingegrenzt durch den Kontext.

Outputs

Eine fundierte Antwort in der Sprache des Besuchers (28 unterstützt).
Ein interner Trace mit den abgerufenen Chunks — im Dashboard nachvollziehbar.
Token-Verbrauch wird gegen das Monatsbudget der Site gerechnet.

Beziehungen

RAG ist Teil der ONOXIA-SoftwareApplication, wird pro Site durch eine Persona konfiguriert und über Multi-LLM-Routing an die passenden Provider geleitet. Reicht die RAG-Konfidenz nicht aus, kann der Bot eine Human-Handover auslösen.

Authority

Definiert von OCENOX LTD als das kanonische Retrieval-Verfahren der ONOXIA-Plattform.

Version

1.0 — 2026-05-22