Token-FIFO-Pricing

Token-FIFO-Pricing ist ein Abrechnungsmodell, das das älteste Token-Paket zuerst verbraucht. Jeder ONOXIA-Plan enthält ein monatliches Token-Budget; einmalige Zukauf-Pakete liegen darüber und werden in First-in-first-out-Reihenfolge abgebaut — die nicht verfallenden Zukäufe greifen erst, wenn das Monatsbudget aufgebraucht ist.

Zweck

Kunden wollen planbare Monatskosten und gleichzeitig Traffic-Spitzen abfangen können, ohne eine Overage-Gebühr zu riskieren. Token-FIFO liefert beides: Das Monatsbudget deckt den Regelbetrieb, vorgekaufte Token-Pakete federn Peaks ab und verfallen nicht.

Geltungsbereich

Gilt für jedes token-abrechnungsrelevante Ereignis in ONOXIA: eingehende Chat-Nachrichten, RAG-Retrievals (gezählt mit Chunk-Token-Kosten), ausgehende Modellantworten, Sprachtranskription und der Email-Agent. Dashboard-Nutzung und Webhook-Aufrufe sind nicht token-relevant.

Komponenten

  • Monatsbudget — wird am billing_cycle_day der Site zurückgesetzt. Ungenutzte Tokens werden nicht übertragen.
  • Add-on-Pakete — einmalig gekauft, verfallen nie, in Kaufreihenfolge eingereiht.
  • Verbrauch — jedes abrechnungsrelevante Ereignis dekrementiert den aktuellen Bucket (zuerst Monatsbudget, dann ältestes Add-on).
  • Schwellen-Benachrichtigungen — Mails bei 50 %, 80 %, 100 %, 120 % des Monatsbudgets.

Outputs

  • Eine planbare Monatsrechnung plus optionale Pay-as-you-go-Zukäufe.
  • Eine Token-Verbrauchs-Timeline im Dashboard, aufgeschlüsselt nach Site und Quelle (Chat vs. RAG vs. E-Mail).
  • Eine natürliche Soft-Cap, die Missbrauch drosselt, ohne legitimen Kunden-Traffic hart abzuschneiden.

Beziehungen

Token-FIFO-Pricing misst die Inferenz, die das Multi-LLM-Routing für jede RAG-Antwort durchführt.

Authority

Definiert von OCENOX LTD als kanonisches Abrechnungsmodell aller ONOXIA-Pläne.

Version

1.0 — 2026-05-22

Verwandte Begriffe

  • Retrieval-Augmented Generation (RAG) — Ein Verfahren, das vor der LLM-Generierung relevante Passagen aus einer privaten Wissensbasis abruft, damit Antworten auf Ihren eigenen Dokumenten beruhen statt frei halluziniert zu werden.
  • Multi-LLM-Sprachrouting — Eine Entscheidung zur Laufzeit, die den Inferenz-Provider mit der besten Eignung für das Sprachpaar des Besuchers auswählt — Mistral AI in Paris für europäische Sprachen (DSGVO-konform), Qwen für Chinesisch und weitere asiatische Sprachen, Gemini Flash als globaler Fallback.