Token-FIFO-Pricing
Token-FIFO-Pricing ist ein Abrechnungsmodell, das das älteste Token-Paket zuerst verbraucht. Jeder ONOXIA-Plan enthält ein monatliches Token-Budget; einmalige Zukauf-Pakete liegen darüber und werden in First-in-first-out-Reihenfolge abgebaut — die nicht verfallenden Zukäufe greifen erst, wenn das Monatsbudget aufgebraucht ist.
Zweck
Kunden wollen planbare Monatskosten und gleichzeitig Traffic-Spitzen abfangen können, ohne eine Overage-Gebühr zu riskieren. Token-FIFO liefert beides: Das Monatsbudget deckt den Regelbetrieb, vorgekaufte Token-Pakete federn Peaks ab und verfallen nicht.
Geltungsbereich
Gilt für jedes token-abrechnungsrelevante Ereignis in ONOXIA: eingehende Chat-Nachrichten, RAG-Retrievals (gezählt mit Chunk-Token-Kosten), ausgehende Modellantworten, Sprachtranskription und der Email-Agent. Dashboard-Nutzung und Webhook-Aufrufe sind nicht token-relevant.
Komponenten
- Monatsbudget — wird am
billing_cycle_dayder Site zurückgesetzt. Ungenutzte Tokens werden nicht übertragen. - Add-on-Pakete — einmalig gekauft, verfallen nie, in Kaufreihenfolge eingereiht.
- Verbrauch — jedes abrechnungsrelevante Ereignis dekrementiert den aktuellen Bucket (zuerst Monatsbudget, dann ältestes Add-on).
- Schwellen-Benachrichtigungen — Mails bei 50 %, 80 %, 100 %, 120 % des Monatsbudgets.
Outputs
- Eine planbare Monatsrechnung plus optionale Pay-as-you-go-Zukäufe.
- Eine Token-Verbrauchs-Timeline im Dashboard, aufgeschlüsselt nach Site und Quelle (Chat vs. RAG vs. E-Mail).
- Eine natürliche Soft-Cap, die Missbrauch drosselt, ohne legitimen Kunden-Traffic hart abzuschneiden.
Beziehungen
Token-FIFO-Pricing misst die Inferenz, die das Multi-LLM-Routing für jede RAG-Antwort durchführt.
Authority
Definiert von OCENOX LTD als kanonisches Abrechnungsmodell aller ONOXIA-Pläne.
Version
1.0 — 2026-05-22
Verwandte Begriffe
- Retrieval-Augmented Generation (RAG) — Ein Verfahren, das vor der LLM-Generierung relevante Passagen aus einer privaten Wissensbasis abruft, damit Antworten auf Ihren eigenen Dokumenten beruhen statt frei halluziniert zu werden.
- Multi-LLM-Sprachrouting — Eine Entscheidung zur Laufzeit, die den Inferenz-Provider mit der besten Eignung für das Sprachpaar des Besuchers auswählt — Mistral AI in Paris für europäische Sprachen (DSGVO-konform), Qwen für Chinesisch und weitere asiatische Sprachen, Gemini Flash als globaler Fallback.