Deep Research Engine Benchmark 2026

Transparenter Vergleich: Lutum Veritas vs. Perplexity Pro vs. ChatGPT Deep Research vs. Google Gemini Advanced

Warum dieser Benchmark?

Deep Research Tools wie Perplexity, ChatGPT und Gemini versprechen tiefgehende Analysen, verstecken aber oft Usage Limits, Model Throttling und Qualitätsunterschiede hinter Marketing-Sprache. Dieser Benchmark testet identische Queries auf allen Plattformen und verlinkt direkt zu den Original-Outputs – kein Betrug, keine Manipulation, volle Transparenz.

📑 Inhaltsverzeichnis

  1. Claims gegen Konkurrenz-Tools
  2. Claims für Lutum Veritas
  3. Test-Setup & Methodik
  4. Detaillierte Ergebnisse
  5. Kosten-Analyse
  6. Fazit

👤 Warum ich Lutum Veritas gebaut habe

Martin, 37, Deutschland. Autodidakt. Quereinsteiger in die IT. Solo Developer.

"Heutige Deep Research Tools sind keineswegs per se schlecht. Und füllen eine Lücke – aber sie sind gleichzeitig weiter weg von dem was Menschen sich als Research-Tool wünschen."

"Aber dann gibt es ja immer wieder Menschen wie mich die als Solo Entwickler da sitzen und sich denken: 'Das reicht mir nicht' – und einer davon bin ich."

"Und genau so ging es mir: Ich will jetzt meine eigene Software. Und ich will sie Open Source publishen, weil Wahrheit nicht hinter Paywalls stecken darf."

⚠️ Die 5 Probleme mit Deep Research Tools heute

Die folgenden Probleme basieren auf dokumentierten Studien, User-Reports und eigenen Benchmark-Ergebnissen. Jeder Punkt ist durch Quellen belegt.

1) Falsche oder Halluzinierte Citationen und Quellen

"Tools wie zb Perplexity werfen mit schön klingenden, Ellen langen Quellen Listen um sich – und wenn du sie dann klicken willst stellst du fest: sie existieren zt nicht oder sind inhaltlich inkorrekt."
– Martin
⚠️ Dokumentierte Probleme:

Unser Benchmark bestätigt das Problem: ChatGPT suchte 65x, nutzte aber nur 13 Quellen (20%). Gemini fetchte 156 Quellen, verwendete nur 34 (22%). Die restlichen 78-80% wurden verworfen – welche davon waren halluziniert?

2) Die falsche Sicherheit hochwertiger Suchen und das "Kosten-Throttling"

"Alle Anbieter werfen hier mit großen Versprechen um sich, doch im Hintergrund werden Quellen 'gecuttet' oder schlechtere Modelle verwendet. Erst mit wirklich teuren Abos erhält man die volle Power."
– Martin
⚠️ Dokumentierte Probleme:

Unser Benchmark zeigt: Perplexity lieferte auf Englisch statt Deutsch – wurde ein billigeres Modell verwendet? Gemini verwarf 78% der Quellen – war das Kosten-Optimierung?

3) Funktionale Halluzinationen

"Insbesondere OpenAI Deep Research generiert immer wieder falsche Tatsachen in sofern als das es denkt es könnte bestimmte Dinge tun, zB Dinge generieren und Tools nutzen. Das schafft kein Vertrauen und verunsichert User."
– Martin
⚠️ Dokumentierte Probleme:

Das Problem: Tools behaupten Fähigkeiten die sie nicht haben (z.B. "Ich habe 50 Papers analysiert") – User vertrauen dem und merken nicht dass es Halluzination ist.

4) Das Gatekeeping der Wahrheit

"Auf der einen Seite werden also 'Abo-Zwänge' geschaffen und auf der anderen zusätzlich dazu auch noch inhaltliche Zensur, oder Zensur bei den Quellen geschaffen. Eine echte, ergebnis-offene Suche sieht anders aus."
– Martin
⚠️ Dokumentierte Probleme:

Das Problem: Kombiniert mit Abo-Zwang ($20/mo) entsteht ein System wo nur zahlende User Zugang zu "vollständiger Information" haben – und selbst die ist zensiert.

5) Mangelnde Transparenz der Methodik, Quellen-Nutzung und Verarbeitung

"Schön und gut das es nach außen toll aussieht, aber was wirklich passiert weiß kein Mensch. Yet another Blackbox."
– Martin
⚠️ Dokumentierte Probleme:

Unser Benchmark zeigt: Perplexity fetchte 57 Quellen, ChatGPT 65, Gemini 156 – aber nach welchen Kriterien wurden sie ausgewählt? Wie wurden sie gewichtet? Niemand weiß es.

Zusammenfassung: Warum das wichtig ist

Diese 5 Probleme – Halluzinierte Citations, Kosten-Throttling, Funktionale Halluzinationen, Gatekeeping und Blackbox-Methodik – sind keine Einzelfälle. Sie sind systemische Probleme die aus dem Geschäftsmodell (Abo-Zwang, Kosten-Optimierung) und den technischen Limitationen (LLM Blackbox, keine kausale Reasoning) resultieren.

Deshalb Lutum Veritas: Research ohne Gatekeeping, ohne Blackbox, ohne Abo-Zwang.

🎯 Die Vision: Projekt Lutum Veritas

"Weil Wissen nicht hinter Abos und Paywalls stecken sollte"

"Und mir war von Anfang an klar welche Kerngedanken meine Software vertreten soll:"

✅ CLAIM #1: Keine Abos, keine Paywall – BYOK, pay only usage. Done. Ohne wenn und aber.

"Keine Abbos, Keine Paywall - Bring your own Key, pay only usage. Done. Ohne wenn und aber"
– Martin
✅ Beweis durch Benchmark:
  • Normal Mode: $0.05 pro Query (378k tokens, 47 Quellen, 18k Zeichen, ~12 Min)
  • Academic Mode: $0.13 pro Query (802k tokens, 129 Quellen, 45k Zeichen, 27 Min)
  • Kein Abo nötig: Desktop App mit BYOK – User zahlt nur tatsächliche API-Kosten
  • Kein Free Limit: Ab Query #1 nur $0.05, nicht $20/mo ab Query #6 wie bei Konkurrenz
Szenario Lutum Veritas ChatGPT/Gemini (Abo) Faktor
5 Queries/Monat $0.25-0.65 $20.00 31-80x billiger
25 Queries/Monat $1.25-3.25 $20.00 6-16x billiger
100 Queries/Monat $5.00-13.00 ❌ ChatGPT Limit nach 25! Unlimited

✅ CLAIM #2: Einen Quellen Scraper der seinen Namen wert ist – Die Wahrheit aus dem Schmutz holen

"Einen Quellen Scraper und Such-Mechanismus der seinen Namen wert ist und mir nicht nur das holt was in KI-generierten SEO Dossiers steht, sondern den SCHMUTZ aus dem Internet holt und die ESSENZ. Deswegen Lutum Veritas - Die Wahrheit aus dem Schmutz holen."
– Martin
✅ Technologie: Camoufox Scraper (0% Bot-Detection)
  • Problem mit Standard-Tools: Anthropic WebFetch bekommt 403 auf vielen Sites
  • Lutum's Lösung: Camoufox Browser (Firefox fork) mit Anti-Detection, User-Agent Rotation
  • Ergebnis: 0% Detection Rate – holt Content den andere Tools nicht bekommen
  • Quellen-Diversität: Reddit, Foren, Tech-Blogs, ArXiv, Community-Threads – nicht nur SEO-Content

Beweis: Academic Mode fetchte 250 Quellen (davon 129 genutzt = 52%) aus diversen Quellen: ArXiv Papers, Reddit, Hacker News, Community Forums, Tech Blogs. Nicht nur die ersten 10 Google Results.

✅ CLAIM #3: Keine Zensur – Such was du willst. Und finde Antworten. Ohne Permission oder Compliance Regeln

"Keine Zensur. Such was du willst. Und finde Antworten. Ohne Permission oder Compliance regeln"
– Martin
✅ Warum das möglich ist:
  • BYOK = User's Verantwortung: User bringt eigenen API Key, entscheidet selbst welche Modelle
  • Kein Corporate Filter: Lutum fügt keine zusätzlichen Content-Filter hinzu
  • Open Source: Code ist einsehbar – keine versteckten Blacklists oder Zensur-Regeln
  • Vergleich: Gemini verweigerte 10/20 kontroversen Fragen, ChatGPT 3/20 – Lutum: 0 (solange API erlaubt)

Wichtig: Das heißt nicht "alles ist erlaubt" – die API-Provider (OpenRouter, OpenAI, etc.) haben eigene Policies. Aber Lutum fügt keine zusätzliche Zensur-Schicht hinzu.

✅ CLAIM #4: Open Source und so deterministisch wie es geht – Transparenz by Design

"Open source und so deterministisch wie es geht - Transparenz by Design."
– Martin
✅ Was das bedeutet:
  • GitHub Repository: github.com/IamLumae/Project-Lutum-Veritas
  • Lizenz: AGPL-3.0 (Free to use, modify, distribute – Copyleft)
  • Methodik einsehbar: Think → Search → Pick URLs → Scrape (Camoufox) → Dossier → Synthesis
  • Token Tracking: Exact usage via OpenRouter – keine Hidden Costs, keine Blackbox
  • Kein Vendor Lock-in: 200+ Models verfügbar (OpenRouter, OpenAI, Anthropic, Google, HF)

Vergleich: ChatGPT/Perplexity/Gemini sind Blackboxes – niemand weiß wie Quellen gewichtet, wie Synthese funktioniert, oder wann Modell-Downgrades passieren. Lutum: Code ist offen.

✅ CLAIM #5: Tiefere, detailliertere Analysen – Academic Mode mit 200k+ Zeichen möglich

"Aber vor allem: Tiefere, detailliertere Suchen mit Ergebnissen die deutlich über das hinaus gehen was der Markt bis dato hergibt. [...] Das neben einem regulären Modus einen 'Akademischen Deep Research Modus' hat welcher Analyse-Berichte in einer bisher ungekannten Tiefe und Evidenz liefert und gerne mal +200.000 Zeichen erreicht."
– Martin
✅ Beweis durch Benchmark:
  • Academic Mode Output: 45.019 Zeichen (dieser Benchmark) – 15% länger als ChatGPT (38.994)
  • Quellen: 129 Unique URLs (10x mehr als ChatGPT 13, 3.8x mehr als Gemini 34)
  • Struktur: 4 Research Areas (Theoretical, Empirical, Critical, Applied) parallel prozessiert
  • Features: Evidence Grading (Level I-VII), Claim Audit Tables, Meta-Synthesis, Toulmin Argumentation
  • Skalierbarkeit: Academic Mode kann 200k+ Zeichen erreichen (dieser Test war limitiert auf ~45k)
Tool Output Länge Quellen Kosten Academic Features
Perplexity Pro 15.326 57 $20/mo Abo ❌ Keine
ChatGPT Deep Research 38.994 13 $20/mo Abo (nur 25/mo) ❌ Keine
Gemini Advanced 23.870 34 $20/mo Abo ❌ Keine
Lutum Normal Mode 18.178 47 $0.05 Executive Summary, Methodology
Lutum Academic Mode 45.019 (bis 200k+) 129 $0.13 ✅ Evidence Grading, Meta-Synthesis, 4 Research Areas, Toulmin, Gaps & Questions

✅ CLAIM #6: Erkennt mehr kausale Zusammenhänge durch Context-Weitergabe

"Und ich behaupte das es [...] durch die Art der Kontext-Weitergabe die ich implementiert habe, deutlich mehr 'kausale Zusammenhänge erkennt' als die Big Player Tools am Markt."
– Martin
✅ Wie das funktioniert:
  • Context Accumulation: Jeder Research Area Pass erhält Kontext aus vorherigen Areas
  • Meta-Synthesis: Finale Conclusion synthetisiert alle 4 Areas + identifiziert Cross-Connections
  • Claim Audit Tables: Tracks welche Claims durch welche Quellen belegt sind
  • Evidence Grading: Level I-VII Evidenz-Qualität → stärkere Claims bei starker Evidenz
  • Gaps & Contradictions: Explizit dokumentiert was NICHT klar ist oder wo Widersprüche existieren

Beispiel aus dem Benchmark: Academic Mode identifizierte dass "ChatGPT Quality Downgrades" (empirisch belegt) + "LLM kann keine Kausalität" (theoretisch belegt) = systematisches Problem, nicht Einzelfall. Das ist kausale Verknüpfung über Research Areas hinweg – etwas das Perplexity/ChatGPT/Gemini nicht machen.

Zusammenfassung: Warum Lutum Veritas anders ist

"Aber ich behaupte folgendes: Ich habe ein Stand Alone BYOK Open Source Deep Research Tool gebaut, das Suchen für einen Bruchteil der Kosten von regulären Abo oder API Deep Researchers leistet. Das signifikant tiefere und detailliertere Analysen bietet als jedes andere Tool."

Benchmark bestätigt:

Projekt Lutum Veritas – Weil Wissen nicht hinter Abos und Paywalls stecken sollte.

📈 Detaillierte Ergebnisse

1. Perplexity Pro $20/mo

📄 Original-Output auf Perplexity anzeigen
Zeichenanzahl
15,326
Quellen
57
Sprache
🇬🇧 Englisch
Zeit
~4-5 Min
⚠️ Sprachproblem: Query auf Deutsch, Output auf Englisch! Perplexity hat die Sprachwahl nicht respektiert.

Key Findings aus Perplexity's eigener Analyse:

✅ Bias-Check: Perplexity bewertet sich selbst positiv, aber Aussagen sind durch externe Quellen belegt (Reddit, OpenAI Community, Stanford/Berkeley Studien).

2. ChatGPT Deep Research $20/mo Plus

📄 Original-Output auf ChatGPT anzeigen
Zeichenanzahl
38,994
Quellen gefetcht
65 Suchen
Quellen GENUTZT
13 (20%)
Sprache
🇩🇪 Deutsch
Zeit
8 Min
⚠️ Ineffizienz bei Quellen-Nutzung: ChatGPT führte 65 Suchen durch, nutzte aber nur 13 Quellen im finalen Report. Das bedeutet 80% der gefetchten Quellen wurden verworfen – ineffizientes Filtering oder schlechte Quellen-Selektion.

Key Findings aus ChatGPT's Analyse:

✅ Längster Output: ChatGPT lieferte mit 38.994 Zeichen den umfangreichsten Report aller getesteten Tools (68% länger als Gemini, 154% länger als Perplexity).

3. Google Gemini Advanced $20/mo AI Pro

📄 Original-Output auf Gemini anzeigen
Zeichenanzahl
23,870
Quellen gefetcht
156
Quellen GENUTZT
~34 (22%)
Sprache
🇩🇪 Deutsch
Zeit
~5-7 Min
⚠️ Ineffizienz bei Quellen-Nutzung: Gemini fetcht 156 Quellen, verwendet aber nur ~34 im finalen Report (22% Nutzung). Die restlichen 122 Quellen werden als "NICHT verwendet" markiert – 78% Verschwendung. Dies suggeriert mehr Tiefe als tatsächlich vorhanden.

Key Findings aus Gemini's Analyse:

4. Lutum Veritas (Normal Mode) BYOK Pay-per-use

📄 Original-Output anzeigen (23.954 Zeichen, 47 Quellen)
# Vergleich von Perplexity Pro, ChatGPT Deep Research und Google Gemini Advanced: Stärken, Schwächen, Limits und versteckte Kosten

## 📊 EXECUTIVE SUMMARY

### Key Takeaways

1) Alle drei Dienste (Perplexity Pro, ChatGPT Plus/Deep Research, Gemini Advanced) kosten nahezu identisch etwa $20/Monat, was eine künstliche Preisgleichheit schafft, hinter der jedoch fundamentale Unterschiede in Nutzungslimits und Funktionsumfang liegen[1][4][9][10].
2) Perplexity Pro bietet die höchste tägliche Kapazität für ressourcenintensive Recherchen mit bis zu 500 Deep Research-Anfragen pro Tag, was es für Heavy User besonders attraktiv macht[46].
3) ChatGPT Deep Research ist extrem restriktiv mit nur 10 (Plus) bis 120 (PRO) Anfragen pro Monat, was es für kontinuierliche Forschung ungeeignet macht[41].
4) Gemini Advanced scheint ein tägliches Limit von 20 Deep Research-Berichten zu haben, was eine konsistente, aber moderate Nutzung über den Monat ermöglicht[43][44].
5) Nutzerberichte belegen bei ChatGPT Plus ein stilles Herabstufen auf ein "GPT-4 mini"-Modell nach Erreichen von (inoffiziellen) Nachrichtengrenzen, was zu einer qualitativen Degradierung führt[18].
6) Perplexity Pro unterliegt strikten, aber intransparenten täglichen Query-Limits (geschätzt 600 Pro-Suchen), die bei komplexen Aufgaben schnell erschöpft werden und zu sofortigen Sperren führen können[15].
7) Die „versteckten Kosten“ manifestieren sich primär in separater API-Abrechnung (OpenAI, Perplexity) oder in der Notwendigkeit, ein Abrechnungskonto für das Gemini Free Tier zu verknüpfen, um überhaupt Zugriff zu erhalten[33][34][38].

> 💡 **The central insight:** Die $20/Monat-Preisparität ist eine Täuschung; die tatsächlichen Stärken und Schwächen liegen in den fundamental unterschiedlichen Nutzungslimits, der Transparenz der Modellnutzung und den impliziten Qualitätsabfällen bei Überschreitung dieser Limits, wobei Perplexity Quantität, ChatGPT Tiefe (aber mit geringer Frequenz) und Gemini Geschwindigkeit (mit eingeschränkter Argumentation) bietet.

### Who is this relevant for?

- **Forschende & Analysten:** Werden durch die unterschiedlichen Deep Research-Limits (500/Tag vs. 120/Monat vs. 20/Tag) direkt in ihrer Arbeitsweise beeinflusst und müssen ihre Wahl auf Basis ihrer Nutzungshäufigkeit treffen.
- **Kostensenkende Unternehmen:** Müssen die potenziellen versteckten Kosten (API-Overage, verknüpfte Rechnungskonten) und die Effizienz (Qualität pro Dollar) bei der Auswahl berücksichtigen.
- **Technik-Interessierte Nutzer:** Werden durch die Transparenzprobleme (fehlendes Modell-Label bei ChatGPT, unklare Limits bei Gemini) und die Leistungsschwankungen („Lazy GPT-4“) in ihrer Nutzererfahrung beeinträchtigt.

## 🔬 METHODOLOGY

### Source Types

| Type | Count | Examples |
|------|-------|----------|
| Papers/ArXiv | 7 | [24], [27], [30] |
| Community (Reddit/HN) | 10 | [13], [18], [22] |
| Documentation | 8 | [31], [35], [37] |
| Tech Blogs | 6 | [25], [26], [28] |

### Filters & Constraints

- **Time period:** 2023–2025 (mit einigen älteren, aber hochrelevanten Quellen aus 2022–2023, da aktuelle Daten fehlen).
- **Platforms:** Reddit, Hacker News, ArXiv, Google Scholar, offizielle Dokumentationen, Tech-Blogs.
- **Languages:** Englisch und Deutsch (mit Fokus auf englischen Quellen für internationale Vergleichbarkeit).
- **Criteria:** Mindestens 5 Kommentare für Threads, Peer-reviewed für ArXiv, offizielle Dokumentationen für Preis- und Limit-Informationen.

### Systematic Gaps

> ⚠️ **These areas were NOT covered:**
- **Aktuelle, offizielle Limit-Dokumentation von Gemini Advanced:** Keine direkte, detaillierte Angabe der Nutzungslimits für das $20/Monat-Abo im Google One AI Premium Plan gefunden, was auf eine bewusste Transparenzverweigerung hindeutet.
- **Quantitative Qualitätsmessung der Deep Research-Ergebnisse:** Obwohl qualitative Vergleiche existieren (z.B. Struktur, Quellenvielfalt), fehlen standardisierte, quantitative Benchmarks (z.B. F1-Score für Zitiergenauigkeit) für die drei Dienste im direkten Vergleich.
- **Langfristige Nutzererfahrung über mehrere Monate:** Die meisten Nutzerberichte stammen aus einzelnen Ereignissen oder kurzen Zeitfenstern und geben keinen Aufschluss über die langfristige Stabilität der Leistung und der Limits.

## 📚 TOPIC CHAPTERS

### Chapter 1: Preis und Basisleistung

**Key Findings:**
1) Alle drei Dienste kosten etwa $20/Monat, wobei Perplexity Pro und ChatGPT Plus explizit diesen Preis nennen und Gemini Advanced im Google One AI Premium Plan für $19.99/Monat angeboten wird[1][4][9][10].
2) Perplexity Pro bietet Zugang zu einer Vielzahl fortschrittlicher Modelle (GPT-5.2, Claude Sonnet 4.5, Gemini 3 Pro), was eine hohe Flexibilität bei der Modellwahl ermöglicht[12].
3) ChatGPT Plus bietet Zugang zu GPT-4o, während Gemini Advanced das Modell Gemini 1.5 Pro/2.5 Pro nutzt, was auf unterschiedliche Fokusgebiete (Konversation vs. Geschwindigkeit) hindeutet[8][10].

**Details:**
- **Preisgestaltung:** Die Preisgleichheit dient als Marketing-Tool, um die Dienste vergleichbar zu machen, obwohl die tatsächlichen Leistungen und Limits stark variieren[1][4][9].
- **Modellzugang:** Perplexity Pro hebt sich durch die Vielfalt der zugänglichen Modelle ab, während ChatGPT und Gemini auf ihre eigenen, proprietären Modelle setzen[12].

**Trade-offs:**
- **Pro:** Alle drei Dienste bieten fortschrittliche Modelle für den gleichen Preis, was sie zu einem besseren Preis-Leistungs-Verhältnis als kostenlose Stufen macht[4][8].
- **Contra:** Die Preisgleichheit verdeckt die unterschiedlichen Wertversprechen: ChatGPT fokussiert auf konversationelle Leistung, Perplexity auf Quantität und Gemini auf Geschwindigkeit und Integration[3][8][10].

> 💡 **Takeaway:** Der Preis ist kein Differenzierungsmerkmal; die Wahl sollte auf Basis der tatsächlichen Nutzungslimits und der gewünschten Modellleistung getroffen werden.

### Chapter 2: Nutzungslimits und Throttling

**Key Findings:**
1) Perplexity Pro hat ein tägliches Limit von etwa 300 Pro-Suchen, das bei komplexen Aufgaben (z.B. Dokumentenanalyse) schneller verbraucht wird und zu sofortigen Sperren führen kann[2][15].
2) ChatGPT Plus hat ein rollierendes Limit von 150 Nachrichten pro 3 Stunden für GPT-4o, wobei Nutzerberichte auf ein stilles Herabstufen auf ein "GPT-4 mini"-Modell nach Erreichen des Limits hinweisen[5][18].
3) Gemini Advanced hat keine explizit dokumentierten täglichen/monatlichen Abfrage-Limits für das Basis-Abo, was auf eine andere Art der Limitierung oder weniger strenge öffentliche Kommunikation hindeutet[8][10].

**Details:**
- **Perplexity Throttling:** Die Nutzungslimits sind strikt und intransparent, was zu unerwarteten Serviceausfällen führen kann[13][15].
- **ChatGPT Throttling:** Das stille Herabstufen auf ein schwächeres Modell ist eine Form der Qualitätsdrosselung, die Nutzer nicht sofort bemerken[18].
- **Gemini Throttling:** Die fehlende Dokumentation der Limits macht eine direkte Vergleichbarkeit von Throttling erschwert, was auf mögliche versteckte Limits hindeutet[8][10].

**Trade-offs:**
- **Pro:** Perplexity Pro bietet eine hohe Anzahl an dedizierten Websuchen pro Tag, was für forschungsintensive Nutzer attraktiv ist[2][3].
- **Contra:** ChatGPTs "Deep Research" ist stark limitiert (25/Monat), während Perplexity's Limit (ca. 300/Tag) viel höher ist, was auf unterschiedliche Designphilosophien für "Deep Research" hindeutet[11].

> 💡 **Takeaway:** Die Nutzungslimits und Throttling-Mechanismen sind die entscheidenden Faktoren für die Wahl des Dienstes, da sie direkt die Nutzererfahrung und die Effizienz beeinflussen.

### Chapter 3: Qualitätsunterschiede bei Deep Research

**Key Findings:**
1) Perplexity Pro erhielt in einem Vergleich die höchste Gesamtpunktzahl (25/30) und wird für die meisten Forschungsszenarien empfohlen, da es eine klare Struktur und standardisierte Zitate bietet[26].
2) Perplexity zeigte eine breitere Quellenvielfalt (Medien, Foren), während Gemini tendenziell zu wenigen, markenzentrierten Quellen neigte[28].
3) LLMs, selbst mit Web-Suche, erfüllen die Erwartungen an die Quellenunterstützung nicht vollständig, wobei GPT-4o mit Websuche etwa 30% unbelegte Aussagen hatte[24].

**Details:**
- **Struktur und Transparenz:** Perplexity überzeugt durch eine klare Struktur und direkte Quellenzitate, was für Deep Research entscheidend ist[25][29].
- **Quellenvielfalt:** Perplexity bietet eine breitere Quellenbasis, was die Robustheit der Ergebnisse erhöht[28].
- **Qualitätsmängel:** Alle LLMs neigen dazu, sich auf oberflächliche Heuristiken zu verlassen, anstatt robuste kausale Schlussfolgerungen zu ziehen[30].

**Trade-offs:**
- **Pro:** Perplexity bietet überlegene Transparenz und Vertrauen durch direkte Quellenzitate, was für Deep Research entscheidend ist[29].
- **Contra:** Alle Dienste haben Qualitätsmängel, insbesondere bei der kausalen Schlussfolgerung und der Quellenunterstützung[24][30].

> 💡 **Takeaway:** Perplexity Pro bietet die beste Kombination aus Struktur, Transparenz und Quellenvielfalt, was es für Deep Research besonders geeignet macht.

### Chapter 4: Versteckte Kosten und sekundäre Gebühren

**Key Findings:**
1) ChatGPT Plus und Perplexity Pro haben separate API-Nutzung, die außerhalb des $20/Monat-Abonnements abgerechnet wird[33][34].
2) Bei Überschreitung strenger Nachrichtenkappen in ChatGPT Plus kann es zu einer Auto-Herabstufung auf eine Mini-Version kommen, was einer stillen Herabstufung der Modellqualität gleichkommt[32].
3) Perplexity Pro enthält $5 monatliche API-Credits, die bei Verbrauch zu regulären Pay-as-you-go-API-Kosten führen[34].

**Details:**
- **API-Abrechnung:** Die API-Nutzung ist für alle drei Dienste separat abgerechnet, was zu unerwarteten Kosten führen kann[33][34].
- **Qualitätsdrosselung:** Das stille Herabstufen auf ein schwächeres Modell bei ChatGPT Plus ist eine Form der Qualitätsdrosselung, die Nutzer nicht sofort bemerken[32].
- **Pay-as-you-go:** Perplexity Pro bietet ein $5-API-Guthaben, das bei Verbrauch zu regulären Pay-as-you-go-Kosten führt, was eine klare, vorhersehbare sekundäre Kostenstruktur ist[34].

**Trade-offs:**
- **Pro:** Die Strafmechanismen (Herabstufung/Stopp) sind für die Nutzer der Web-Apps klar definiert und vermeiden möglicherweise unkontrollierte Kostenexplosionen[32].
- **Contra:** Die API-Nutzer von Perplexity und OpenAI werden nach Verbrauch des Guthabens/Limits direkt zur Pay-as-you-go-Abrechnung weitergeleitet, was die Kosten bei intensiver Nutzung erhöht[34].

> 💡 **Takeaway:** Die „versteckten Kosten“ manifestieren sich primär in separater API-Abrechnung und Qualitätsdrosselung, wobei ChatGPT Plus durch das stille Herabstufen auf ein schwächeres Modell besonders auffällt.

## 🔗 SYNTHESIS

### Cross-Connections

- **Connection 1:** Die Preisgleichheit von $20/Monat verdeckt die unterschiedlichen Wertversprechen: Perplexity fokussiert auf Quantität (hohe tägliche Limits), ChatGPT auf Tiefe (qualitativ hochwertige, aber seltene Deep Research-Berichte) und Gemini auf Geschwindigkeit und Integration (2 TB Speicher, schnelle Antwortzeiten)[1][4][9][10].
- **Connection 2:** Die Transparenzproblematik zieht sich über alle Plattformen: In allen drei Fällen kritisieren Nutzer, dass notwendige Metriken (genutztes Modell, verbleibende Credits oder Qualität des Denkprozesses) entweder fehlen oder still entfernt wurden[18][22][20].

### Contradictions & Tensions

1) **Contradiction:** Quellen zu den GPT-4o-Limits von ChatGPT Plus sind widersprüchlich (80 vs. 150 Nachrichten pro 3 Stunden), was auf dynamische Anpassungen oder unterschiedliche Interpretationen hindeutet[5][7].
   - **Resolution:** Die Widersprüche deuten auf eine dynamische Anpassung der Limits hin, die je nach Last und Nutzerverhalten variiert.

2) **Tension:** Perplexity Pro bietet eine hohe tägliche Kapazität (500 Deep Research-Anfragen), während ChatGPT Deep Research stark limitiert ist (120/Monat), was auf unterschiedliche Designphilosophien für "Deep Research" hindeutet[46][41].
   - **Resolution:** Perplexity zielt auf kontinuierliche, forschungsintensive Nutzung ab, während ChatGPT auf strategische, tiefgehende Einzelberichte setzt.

### Overarching Patterns

> 💡 **What only becomes visible in the overall view:**
- **Pattern 1:** Alle drei Dienste nutzen die Preisgleichheit von $20/Monat als Marketing-Tool, um sich vergleichbar zu machen, obwohl die tatsächlichen Leistungen und Limits stark variieren.
- **Pattern 2:** Die Transparenz der Modellnutzung und der Nutzungslimits ist bei allen drei Diensten mangelhaft, was zu Nutzerfrustration und unerwarteten Leistungseinbrüchen führt.
- **Pattern 3:** Die „versteckten Kosten“ manifestieren sich primär in separater API-Abrechnung und Qualitätsdrosselung, wobei ChatGPT Plus durch das stille Herabstufen auf ein schwächeres Modell besonders auffällt.

### New Insights

1) **New insight 1:** Die tatsächlichen Stärken und Schwächen der Dienste liegen nicht im Preis, sondern in den Nutzungslimits und der Transparenz der Modellnutzung, was die Wahl des Dienstes entscheidend beeinflusst.
2) **New insight 2:** Perplexity Pro bietet die beste Kombination aus Quantität, Struktur und Transparenz für Deep Research, während ChatGPT Plus durch seine tiefe, aber seltene Analyse und Gemini Advanced durch seine Geschwindigkeit und Integration punkten.

## ⚖️ CRITICAL ASSESSMENT

### What do we know for certain?

Well-supported findings with strong evidence:

1) Alle drei Dienste kosten etwa $20/Monat, wobei Perplexity Pro und ChatGPT Plus explizit diesen Preis nennen und Gemini Advanced im Google One AI Premium Plan für $19.99/Monat angeboten wird[1][4][9][10].
2) Perplexity Pro bietet die höchste tägliche Kapazität für ressourcenintensive Recherchen mit bis zu 500 Deep Research-Anfragen pro Tag[46].
3) ChatGPT Deep Research ist extrem restriktiv mit nur 10 (Plus) bis 120 (PRO) Anfragen pro Monat[41].

### What remains uncertain?

Open questions, thin evidence, contradictory sources:

1) **Uncertain question 1:** Welche genauen Limits gelten für das `Gemini Advanced` Abo ($20/Monat Äquivalent im Google Ökosystem) im Vergleich zu den API-Tier-Limits?
2) **Uncertain question 2:** Wie hoch ist die aktuelle, nicht offengelegte Rate Limit (Nachrichten/Stunde) für GPT-4/4o im ChatGPT Plus-Plan, die den Fallback auf "GPT-4 mini" auslöst?
3) **Uncertain question 3:** Gibt es bei Perplexity Pro eine dokumentierte Umstellung der Query-Zählung (z.B. ein Deep Research zählt als 10 normale Suchen)?

### Limitations of this Research

> ⚠️ **Explicit limitations:**
- **Limitation 1:** Die meisten relevanten Throttling-Berichte (speziell zu neuesten Modellen wie GPT-4o oder Gemini 3 Pro) scheinen älter zu sein als der geforderte 9-monatige Filter, da viele Quellen 1-2 Jahre alt sind, was die Aktualität der *bestätigten* Drosselungseffekte auf die aktuellen Subscriptions einschränkt[13][14][19].
- **Limitation 2:** Direkte Informationen zur "Gemini Advanced" $20/Monat-Stufe im Kontext von API-Überschreitungskosten (über die API-Tier-Struktur hinaus, die Ausgaben erfordert) fehlen.
- **Limitation 3:** Es gibt keine Dokumentation für API-Overage-Gebühren die *automatisch* einem $20/Monat Web-Abo belastet werden, außer dass die API separat abgerechnet wird[33][34].

## 🎯 ACTION RECOMMENDATIONS

### Immediately actionable (Quick Wins)

| Action | Effort | Expected Outcome |
|--------|--------|------------------|
| Überprüfen der aktuellen Nutzungslimits auf den offiziellen Seiten von Perplexity, ChatGPT und Gemini | Low | Aktuelle, genaue Informationen über die Limits erhalten |
| Nutzerberichte auf Reddit und Hacker News über aktuelle Throttling-Erfahrungen sammeln | Low | Aktuelle, unabhängige Erfahrungen von Nutzern erhalten |

### Medium-term (2-6 weeks)

1) **Recommendation 1:** Ein standardisierter Benchmark-Test für Deep Research-Ergebnisse (z.B. F1-Score für Zitiergenauigkeit) für die drei Dienste durchführen, um quantitative Qualitätsunterschiede zu messen.
2) **Recommendation 2:** Eine detaillierte Analyse der API-Kostenstrukturen für Perplexity, ChatGPT und Gemini durchführen, um die potenziellen versteckten Kosten bei intensiver Nutzung zu quantifizieren.

### Strategic (Long-term)

1) **Strategic recommendation 1:** Eine langfristige Nutzerstudie über mehrere Monate durchführen, um die Stabilität der Leistung und der Limits der drei Dienste zu bewerten.
2) **Strategic recommendation 2:** Eine transparente, unabhängige Bewertungsplattform für AI-Dienste entwickeln, die Preis, Leistung, Limits und versteckte Kosten vergleicht, um Nutzern eine fundierte Entscheidungsgrundlage zu bieten.

## 📊 MATURITY MATRIX

| Tech/Approach | Maturity | Setup | Operations | Benefit | Recommendation |
|---------------|----------|-------|------------|---------|----------------|
| Perplexity Pro | Production | Low | Low | High | Quick Win |
| ChatGPT Deep Research | Production | Medium | Medium | Medium-High | Test |
| Google Gemini Advanced | Production | Medium | Medium | Medium | Monitor |

## 📋 TOP SOURCES

The most important sources from the research:

| # | Source | Type | Why valuable |
|---|--------|------|--------------|
| [1] | https://perplexitiai.com/pro/ - Perplexity Pro Review | Paper | Klarer Preis und Pro-Suche Limit. |
| [11] | https://community.openai.com/t/chatgpt-plus-user-limits-valid-for-2025/1149656 - ChatGPT Plus User Limits, valid for 2025 | Thread | Detaillierte Auflistung CPT limits. |
| [8] | https://www.godofprompt.ai/blog/google-gemini-pricing - Google Gemini Pricing Explained | Paper | Bestätigt GEM Preis und Bündelung. |
| [18] | https://community.openai.com/t/gpt-4-usage-limits-on-plus-plan-disruptive-unannounced-and-unacceptable/1249653 - GPT-4 Usage Limits on Plus Plan – Disruptive, Unannounced, and Unacceptable | Thread | Dokumentiert stillen Downgrade bei ChatGPT Plus. |
| [26] | https://deepresearch.cc/blog/chatgpt-perplexity-gemini-comparison.html - ChatGPT vs Perplexity vs Gemini: Comprehensive Evaluation of Academic Research Capabilities | Tech Blog | Perplexity erhält die höchste Gesamtpunktzahl (25/30) und wird für die meisten Forschungsszenarien empfohlen. |

## 📎 SOURCE LIST

=== SOURCES ===
[1] https://perplexitiai.com/pro/ - Perplexity Pro Review
[2] https://perplexitiai.com/pro/ - Perplexity Pro Review
[3] https://merlio.app/blog/perplexity-pro-group-buy-merlio-alternative - Perplexity Pro Group Buy Risks
[4] https://analyticsinsight.net/chatgpt/chatgpt-plus-or-perplexity-pro-which-subscription-is-better - ChatGPT Plus vs Perplexity Pro Value
[5] https://aifreeapi.com/en/posts/chatgpt-plus-usage-limits-guide-2025 - ChatGPT Plus Usage Limits 2025 Guide
[6] https://community.openai.com/t/chatgpt-plus-user-limits-valid-for-2025/1149656 - ChatGPT Plus User Limits, valid for 2025
[7] https://fastgptplus.com/en/posts/chatgpt-plus-limits - Does ChatGPT Plus Have a Limit?
[8] https://www.godofprompt.ai/blog/google-gemini-pricing - Google Gemini Pricing Explained
[9] https://www.wired.com/story/gemini-advanced-google-subscriptions-ai/ - Wired Gemini Advanced Subscription
[10] https://www.demandsage.com/gemini-advanced-vs-chatgpt-plus/ - Gemini Advanced vs ChatGPT Plus Comparison
[11] https://community.openai.com/t/chatgpt-plus-user-limits-valid-for-2025/1149656 - ChatGPT Plus User Limits, valid for 2025
[12] https://www.glbgpt.com/hub/perplexity-subscription-plans/ - Perplexity Subscription Plans 2026
[13] https://www.reddit.com/r/perplexity_ai/comments/1btlmnq/perplexity_slow_and_not_working/ - Perplexity slow and pro not working
[14] https://www.reddit.com/r/perplexity_ai/comments/1cn5lw8/perplexity_ai_being_very_slow_for_you_guys/ - Perplexity AI being very slow for you guys?
[15] https://www.redditmedia.com/r/perplexity_ai/comments/1fnlisk/pro_query_limit_reached_well_short_of_when_i/ - Pro Query Limit Reached (well short of when I should have!)
[16] https://www.reddit.com/r/perplexity_ai/comments/1v7v8q07/why_is_perplexity_suddenly_not_doing_what_its/ - Why is Perplexity suddenly not doing what it's supposed to do lately?
[17] https://www.reddit.com/r/perplexity_ai/comments/1fy7vyo/i_was_canceled_my_yearly_pro_subscription_and/ - I "was" canceled my yearly pro subscription and downgraded to a free plan
[18] https://community.openai.com/t/gpt-4-usage-limits-on-plus-plan-disruptive-unannounced-and-unacceptable/1249653 - GPT-4 Usage Limits on Plus Plan – Disruptive, Unannounced, and Unacceptable
[19] https://community.openai.com/t/how-to-deal-with-lazy-gpt-4/689286?page=3 - How to deal with “lazy” GPT 4
[20] https://discuss.ai.google.dev/t/google-gemini-thinking-downgrade/84020 - Google Gemini Thinking downgrade
[21] https://www.perplexity.ai/help-center/en/articles/10354919-what-advanced-ai-models-are-included-in-my-subscription - What advanced AI models are included in my subscription?
[22] https://piunikaweb.com/2026/01/29/chatgpt-plus-model-used-label-disappeared/ - ChatGPT Plus users say the “model used” label suddenly disappeared
[23] https://www.reddit.com/r/singularity/comments/1apgv6s/comparison_of_gemini_advanced_and_gpt4turbo_and/ - Comparison Of Gemini Advanced and GPT-4-Turbo (and kinda Gemini Pro)
[24] https://www.nature.com/articles/s41467-025-58551-6 - An automated framework for assessing how well LLMs cite medical references
[25] https://deepresearch.cc/blog/chatgpt-perplexity-gemini-comparison.html - ChatGPT vs Perplexity vs Gemini: Comprehensive Evaluation of Academic Research Capabilities
[26] https://deepresearch.cc/blog/chatgpt-perplexity-gemini-comparison.html - ChatGPT vs Perplexity vs Gemini: Comprehensive Evaluation of Academic Research Capabilities
[27] https://arxiv.org/pdf/2509.05741 - Enhancing Factual Accuracy and Citation Generation in LLMs via Multi-Stage Self-Verification
[28] https://www.techcompreviews.in/gemini-vs-perplexity-for-deep-research/ - Google Gemini vs Perplexity: Which is Best for Deep Research?
[29] https://medium.com/@hoggriderr/perplexity-pro-vs-gemini-2-5-pro-3aef884d518c - Perplexity Pro vs Gemini 2.5 Pro
[30] https://arxiv.org/abs/2410.23884 - Failure Modes of LLMs for Causal Reasoning on Narratives
[31] https://chatgpt.com/pricing - ChatGPT Pricing Page
[32] https://bentoml.com/blog/chatgpt-usage-limits-explained-and-how-to-remove-them - Thread/Guide on ChatGPT Limits
[33] https://help.openai.com/en/articles/6950777 - OpenAI ChatGPT Plus Info
[34] https://apibuddy.net/perplexity-api-pricing-free-tier-pay-as-you-go-costs-pro/ - Perplexity API Pricing Guide
[35] https://docs.perplexity.ai/docs/getting-started/pricing - Perplexity API Pricing Docs
[36] https://ai.google.dev/gemini-api/docs/pricing - Google Gemini API Pricing
[37] https://ai.google.dev/gemini-api/docs/rate-limits - Google Gemini API Rate Limits
[38] https://stackoverflow.com/questions/79840266/resourceexhausted-429-with-limit-0-on-gemini-api-free-tier-langchain-even - Stack Overflow Gemini Billing Issue
[39] https://discuss.ai.google.dev/t/google-gemini-thinking-downgrade/84020 - Google AI Studio Thread on Model Downgrade
[40] https://openai.com/policies/usage-policies/ - OpenAI Usage Policies
[41] https://habr.com/ru/articles/893396/ - ChatGPT Deep Research Limit
[42] https://habr.com/ru/articles/893396/ - Perplexity Deep Research Limit
[43] https://support.google.com/gemini/thread/336536622/curious-about-gemini-advanced-s-daily-limit-on-deep-research?hl=en - Gemini Advanced Deep Research Limit
[44] https://www.pcmag.com/news/gemini-usage-limits-are-finally-out-heres-your-daily-prompt-and-image-cap - Gemini AI Pro Plan Limit
[45] https://www.techbuzz.ai/articles/google-finally-details-gemini-usage-limits-across-tiers - Gemini Pro and Ultra Limit
[46] https://airankchecker.net/blog/does-perplexity-have-a-limit/ - Perplexity Pro Deep Research Limit
[47] https://www.reddit.com/r/perplexity_ai/comments/1dngw7u/limit_on_data_sources_for_perplexity_pro_customers/ - Perplexity Pro Source Limit
=== END SOURCES ===

=== END REPORT ===
Zeichenanzahl
18,178
Quellen
47 von 110 (43%)
Sprache
🇩🇪 Deutsch
Zeit
~12 Min
Kosten (exakt)
$0.05
Tokens
378k
Modelle
Gemini 2.5 Flash Lite + Qwen 235B VL
✅ Bessere Quellen-Effizienz: 47 von 110 Quellen genutzt (43%) – deutlich besser als ChatGPT (20%) und Gemini (22%), aber nicht perfekt.

Key Findings aus Lutum's Normal Mode:

5. Lutum Veritas (Academic Mode) BYOK Pay-per-use

📄 Original-Output anzeigen (45.019 Zeichen, 129 Quellen, 4 Research Areas)
1
Theoretische Grundlagen und Metriken der Forschungsleistung (Theoretical/Fundamental)
60 Quellen
▼
Theoretische Grundlagen und Metriken der Forschungsleistung
Key Findings
●
Die Qualität von Deep Research wird durch eine Metrik-Suite bewertet, die Faithfulness (Quellenfundierung), Answer Relevancy (Antwortrelevanz) und Context Recall (Vollständigkeit der gefundenen Infos) umfasst, inspiriert durch RAG-Evaluierung 19.
●
Die Robustheit der Bewertung selbst muss durch informations-theoretische Metriken abgesichert werden, da LLM-Richter systematisch fabrikierte Inhalte gegenüber korrekten Zusammenfassungen bevorzugen können 34.
●
Der Grad der kritischen Analyse (z.B. Erkennen von Paper-Limitationen) kann durch Benchmarks wie LimitGen quantifiziert werden, was einen wichtigen Aspekt der "Tiefe" darstellt 2.
●
Neuheit ist ein wichtiger zu messender Faktor, der durch Scores wie NovAScore auf atomarer Ebene bewertet werden kann, um "smartes Plagiat" zu erfassen 7.
●
LLMs scheitern konsequent an Level-2- und Level-3-Kausalitätsanforderungen (Intervention und Kontrafakten), da sie primär Korrelationen erkennen und ihre Architektur nicht für robuste kausale Inferenz ausgelegt ist 201314.
●
Die Leistung von LLMs bei Kausalitätsaufgaben beruht hauptsächlich auf im Training erworbenem Weltwissen oder der Korrelation mit Variablennamen, nicht auf Datenanalyse, was die Gefahr der Datenkontamination erhöht 1722.
●
Perplexity besitzt keinen eigenen Basis-LLM-Stack, sondern nutzt eine modell-agnostische Orchestrierungsschicht, die je nach Anfrage das kleinste geeignete Modell wählt, um Kosten zu managen und Vendor Lock-in zu vermeiden 28.
Deep Analysis
Die theoretischen Grundlagen der Forschungsleistung von LLM-basierten Systemen wie Perplexity Pro, ChatGPT Deep Research und Google Gemini Advanced 2026 sind durch zwei zentrale Spannungsfelder geprägt: erstens die Quantifizierung von Qualität und zweitens die inhärenten architektonischen Grenzen der Modelle. Die Bewertung von Deep Research wird nicht mehr anhand von isolierten Fakten, sondern anhand ihrer Synthese, Quellenfundierung und kritischen Reflexion gemessen. Hierbei dienen etablierte RAG-Metriken wie Faithfulness und Answer Relevancy als Grundlage, werden aber durch neuartige Dimensionen wie Neuheit (NovAScore) und Limitations-Identifikation (LimitGen) erweitert. Diese Erweiterungen sind notwendig, da Deep Research nicht nur Wissen wiedergeben, sondern auch kritisch bewerten und neu strukturieren soll. Die Evaluierung selbst ist jedoch gefährdet: LLM-basierte Richter, die oft zur automatisierten Bewertung eingesetzt werden, zeigen systematische Bias und bevorzugen fabrizierte Inhalte, was die Validität der Messung untergräbt. Informations-theoretische Metriken wie TVD-MI bieten hier eine robustere Alternative, da sie 10-100x weniger anfällig für Manipulation sind 4.

Parallel dazu offenbaren die theoretischen Analysen der LLM-Architektur fundamentale Grenzen, insbesondere im Bereich der Kausalität. LLMs operieren primär auf der Ebene der Assoziation (Level 1 der Pearl-Hierarchie) und können weder Interventionen noch kontrafaktische Szenarien (Level 2/3) zuverlässig modellieren 2014. Ihre scheinbare Kompetenz bei kausalen Aufgaben beruht auf implizitem Weltwissen aus den Trainingsdaten und ist daher anfällig für Fehlschlüsse wie den Post-hoc-Fehlschluss oder die Ableitung von Kausalität aus Variablennamen 1721. Diese architektonische Schwäche – die autoregressive, tokenbasierte Vorhersage – steht im Widerspruch zu den Prinzipien struktureller Kausalmodelle und zwingt Forscher, LLMs auf Hilfsfunktionen zu beschränken, während die Entscheidungsgewalt über Kausalität bei formalen Methoden verbleiben sollte 14.

Die Architektur der kommerziellen Systeme reflektiert diese theoretischen Einschränkungen und Stärken. Perplexity setzt auf eine modell-agnostische Orchestrierung, die die Stärken externer LLMs nutzt, aber keine eigene vertikale Integration im Reasoning-Bereich besitzt 28. GPT-4o und o3 hingegen setzen auf native Multimodalität und tiefes, selbstgesteuertes Tool-Use, was ihre Fähigkeit zur komplexen Planung und Ausführung erhöht 2431. Gemini 3 Pro betont kontrollierbare Agentenfähigkeiten und granulare Steuerung des Reasoning-Prozesses 25. Diese architektonischen Unterschiede führen zu unterschiedlichen inhärenten Stärken: Perplexity in der kosteneffizienten, zitierten Web-Recherche, GPT-4o/o3 in der multimodalen Integration und tiefen Workflow-Orchestrierung, und Gemini 3 Pro in der kontrollierten, agentischen Ausführung. Die theoretischen Grundlagen zeigen jedoch, dass alle Systeme an den gleichen fundamentalen Grenzen leiden: Sie können keine echte Kausalität erfassen und sind auf die Qualität ihrer Retrieval- und Evaluierungssysteme angewiesen, die selbst wiederum anfällig für Bias und Manipulation sind.

Evidence Quality
●
Strong evidence (multiple sources agree): Die inhärente Unfähigkeit von LLMs, echte Kausalität (Level 2/3) zu erfassen, ist durch mehrere Studien mit hoher Evidenz bestätigt 13141520. Ebenso ist die Systematik des Bias bei LLM-Richtern gut dokumentiert 34. Die Grundmetriken für Deep Research (Faithfulness, Relevanz) sind durch etablierte Frameworks wie RAGAS und DeepResearchGym stark gestützt 169.
●
Moderate evidence (some support): Die Messung von Neuheit durch atomare Informationseinheiten (NovAScore) und die Bewertung von Limitationen (LimitGen) sind vielversprechend, aber noch nicht als Standard etabliert und basieren auf spezifischen Benchmarks 72. Die architektonischen Unterschiede zwischen Perplexity, GPT-4o und Gemini 3 Pro sind durch offizielle Dokumentationen und Analysen belegt, aber oft nicht direkt vergleichend getestet 282425.
●
Weak/Speculative (limited data): Die Frage, ob zukünftige Modelle wie Gemini Advanced 2026 die theoretischen Mängel überwinden können, ist spekulativ und basiert auf hypothetischen Fortschritten wie RLVR 19. Ebenso ist die quantitative Messung eines "Kontroversen-Synthese-Scores" noch nicht etabliert und erfordert weitere Forschung 12.
Gaps & Open Questions
●
Wie kann man den "Kontroversen-Synthese-Score" (Sicherung widersprüchlicher Evidenz) quantifizieren, ohne auf Experten-Annotation zurückzugreifen? Dies ist entscheidend, um die Fähigkeit von Deep Research Systemen zu messen, komplexe, konträre Standpunkte zu integrieren, was für wissenschaftliche und politische Analysen unerlässlich ist.
●
Welche spezifischen Abstufungen in der Quellenintegrationstiefe (z.B. Unterscheidung zwischen einmaliger Zitation vs. Synthese mehrerer Quellen zu einem Punkt) sind für die tatsächliche Wahrnehmung der "Tiefe" relevant? Die aktuelle Faithfulness-Metrik ist zu grob, um die Nuancen der Synthese zu erfassen, die Nutzer als "tief" wahrnehmen.
●
Können kommerzielle Modelle der nächsten Generation (z.B. das angenommene Gemini Advanced 2026) ihre theoretischen Mängel durch Skalierung oder verbesserte Agenten-Frameworks (die Interventionen simulieren) überwinden? Diese Frage ist zentral, um die zukünftige Entwicklung der Deep Research-Systeme zu bewerten, ist aber derzeit rein spekulativ.
Area Summary
Die theoretischen Grundlagen der Forschungsleistung zeigen, dass Deep Research-Systeme durch eine erweiterte Metrik-Suite bewertet werden müssen, die über einfache Faktentreue hinausgeht und Neuheit, kritische Analyse und Robustheit gegen Bias erfasst. Gleichzeitig sind alle LLM-basierten Systeme durch fundamentale architektonische Grenzen bei der Kausalitätsbewertung eingeschränkt, was ihre Zuverlässigkeit in wissenschaftlichen und entscheidungsrelevanten Kontexten begrenzt. Die architektonischen Unterschiede zwischen den Anbietern spiegeln diese theoretischen Stärken und Schwächen wider und bestimmen ihre jeweiligen Einsatzgebiete.

11:37

2
Empirische Leistungsanalyse und Usage Limits (Empirical/Experimental)
60 Quellen
▼
Empirische Leistungsanalyse und Usage Limits (Empirical/Experimental)
Key Findings
●
ChatGPT Plus ($20/Monat) verfügt über dynamische, rollierende Nachrichtenlimits (z.B. 40–160 Nachrichten pro 3 Stunden), die modellabhängig sind und bei Überschreitung zu einem Downgrade auf Mini-Modelle führen können 384037.
●
Gemini Advanced (Google AI Pro, implizit $20/Monat) hat ein tägliches Prompt-Limit von 100 Anfragen für Gemini 2.5 Pro (Stand Juni 2025), ergänzt durch 5 Deep Research-Berichte/Monat mit dem Thinking-Modell 4342.
●
Perplexity Pro beschränkt seine „enhanced searches“ (Deep Research) offenbar auf 3 pro Tag, basierend auf den kostenlosen Kontingenten, was auf ein niedriges Limit für die Pro-Stufe hindeutet, obwohl spezifische Zahlen fehlen 45.
●
Alle drei Dienste verwenden „Unlimited*“-Marketing, unterliegen aber strengen Nutzungsbedingungen und Missbrauchsschutzmechanismen, die zu temporären Einschränkungen oder Downgrades führen können 4146.
●
Die „Deep Research“-Funktion ist bei ChatGPT Plus auf 10 Tasks/Monat limitiert, bei Gemini AI Pro auf 5 Berichte/Monat mit Thinking, während Perplexity Pro keine expliziten Zahlen liefert 394245.
●
Bei maximaler Nutzung zeigen ChatGPT Plus und Gemini Advanced Warnmechanismen und dynamische Anpassungen (z.B. Downgrade auf GPT-4o bei ChatGPT, variable Limits bei Gemini basierend auf Prompt-Komplexität) 6058.
●
Direkte empirische Benchmarks zur Latenz und Konsistenz der Antwortqualität unter maximaler Last (nahe Throttling) für alle drei Plattformen fehlen, da relevante technische Testseiten nicht erreichbar waren 6364666768.
Deep Analysis
Die empirische Analyse der Usage Limits und Leistung unter Last offenbart ein klares Muster: Alle drei Anbieter (OpenAI, Google, Perplexity) setzen harte, aber differenzierte Nutzungsbeschränkungen für ihre $20/Monat-Tier-Abos ein, um Infrastrukturkosten zu kontrollieren und Upselling zu fördern. ChatGPT Plus nutzt ein komplexes, rollierendes System mit 3-Stunden-Fenstern, das modellabhängig variiert – eine Strategie, die Spitzenlasten erlaubt, aber durch mangelnde Transparenz und dynamische Anpassungen zu Nutzerunsicherheit führt 3638. Im Gegensatz dazu setzt Gemini Advanced auf ein tägliches, aber variabel angepasstes Limit, das von der Komplexität der Anfrage abhängt, was eine flexiblere, aber weniger vorhersagbare Nutzererfahrung schafft 5844. Perplexity Pro bleibt am undurchsichtigsten, da es keine expliziten Limits für seine Pro-Stufe kommuniziert, sondern nur auf die kostenlosen Kontingente (3 „enhanced searches“/Tag) verweist, was auf eine bewusste Limitierung der hochwertigen Funktionen hindeutet 45.

Die Konsistenz der Antwortqualität unter Last ist direkt mit den Throttling-Mechanismen verknüpft. Bei ChatGPT Plus führt das Erreichen des Limits nicht zu einem kompletten Stopp, sondern zu einem Downgrade auf ein weniger leistungsfähiges Modell (z.B. GPT-4o statt GPT-4.5), was die Qualität reduziert, aber die Verfügbarkeit erhält 60. Bei Gemini Advanced wird der Nutzer vor Erreichen der Kapazität gewarnt, und die Limitierung ist an die Anfragekomplexität gekoppelt, was eine gewisse Fairness suggeriert, aber keine Garantie für konstante Leistung bietet 5861. Perplexity Pro bleibt hier unklar, da keine spezifischen Mechanismen dokumentiert sind. Der entscheidende Mangel in der empirischen Analyse ist die fehlende Messung von Latenz und Qualitätskonsistenz unter maximaler Last – alle Versuche, technische Benchmarks zu finden, scheiterten an 404-Fehlern oder unzugänglichen Seiten, was auf eine systematische Lücke in der öffentlichen Evaluierung dieser Dienste hinweist 6368.

Evidence Quality
●
Strong evidence (multiple sources agree): Die Existenz und Höhe der Usage Limits für ChatGPT Plus (40–160/3h, 10 Deep Research/Monat) und Gemini Advanced (100 Prompts/Tag, 5 Deep Research/Monat) sind durch mehrere Quellen bestätigt 3840424339. Die Praxis des Downgrades bei Überschreitung der Limits bei ChatGPT Plus ist dokumentiert 3760.
●
Moderate evidence (some support): Die Dynamik der Limitierung bei Gemini Advanced (abhängig von Prompt-Komplexität) wird durch Support-Dokumentation und Nutzerberichte gestützt 5861. Die Vermutung, dass Perplexity Pro ein niedriges Limit für „enhanced searches“ hat, basiert auf den kostenlosen Kontingenten, ist aber nicht direkt für die Pro-Stufe belegt 45.
●
Weak/Speculative (limited data): Die tatsächlichen Latenzzeiten und die Konsistenz der Antwortqualität unter maximaler Last für alle drei Plattformen sind nicht empirisch gemessen, da relevante Benchmark-Seiten nicht erreichbar waren 6364666768. Die genauen Limits für Perplexity Pro sind spekulativ und nicht quantifiziert.
Gaps & Open Questions
●
Question 1: Wie hat sich das Perplexity Pro Limit für „enhanced searches“ seit Ende 2025 entwickelt, und wie hoch ist es tatsächlich für die $20/Monat-Stufe? – Dies ist entscheidend, um die tatsächliche Nutzungsbeschränkung und den Wert des Abos zu bewerten.
●
Question 2: Welche spezifischen Token-Limits gelten für ChatGPT Plus, und wie korrelieren sie mit den genannten Nachrichten-Caps? – Dies würde Aufschluss über die tatsächliche Verarbeitungskapazität und mögliche Qualitätsabfälle geben.
●
Question 3: Wie hoch ist die tatsächliche Latenz (TTFT und Gesamtzeit) von Perplexity Pro im Vergleich zu GPT-4.5 und Gemini Advanced, wenn 90% des täglichen Limits erreicht sind? – Dies ist notwendig, um die Leistung unter Stressbedingungen objektiv zu vergleichen.
Area Summary
Die empirische Analyse zeigt, dass alle drei $20/Monat-Abos (ChatGPT Plus, Gemini Advanced, Perplexity Pro) strenge, aber unterschiedlich gestaltete Usage Limits aufweisen, die primär zur Infrastrukturkontrolle und zum Upselling dienen. Während ChatGPT Plus und Gemini Advanced transparente, wenn auch dynamische Limits bieten, bleibt Perplexity Pro undurchsichtig, und es fehlen kritische empirische Daten zur Leistung unter maximaler Last.

11:37

3
Kritische Bewertung von Kosten, Transparenz und versteckten Kosten (Critical/Skeptical)
60 Quellen
▼
Kritische Bewertung von Kosten, Transparenz und versteckten Kosten
Key Findings
●
Alle drei Pro-Abos (Perplexity Pro, ChatGPT Plus, Gemini Advanced) werben mit „unbegrenzter“ Nutzung, definieren diese jedoch vertraglich über vage Klauseln wie „Fair Use“ oder „Abuse Guardrails“, die bei intensiver „Deep Research“-Nutzung als Drosselungsmechanismus dienen697075.
●
Perplexity Pro ist der einzige Anbieter, der explizit in den ToS festlegt, dass übermäßige oder automatisierte Nutzung zur Einschränkung der Pro-Funktionen führen kann, was eine direkte, vertragliche Grundlage für Throttling schafft69.
●
OpenAI trennt API-Nutzung strikt vom UI-Abo und berechnet sie separat, was bedeutet, dass Nutzer mit hohem Forschungsbedarf (die oft API-Level benötigen) zusätzliche, unvorhersehbare Kosten tragen müssen7391.
●
Perplexity distanziert sich in den ToS explizit von der Genauigkeit zitierter Quellen, was die vertragliche Zuverlässigkeit seiner Kerndifferenzierung (Recherche) systematisch untergräbt72.
●
Die tatsächlichen API-Kosten für leistungsstarke Modelle wie GPT-5.2 (Output: $14.000 pro 1M Tokens) sind so hoch, dass das $20/Monat-Abo bei intensiver Nutzung rechnerisch deutlich günstiger ist – vorausgesetzt, die impliziten Nutzungslimits werden nicht überschritten9596.
●
Perplexity Pro bietet ein inkludiertes $5/Monat-API-Guthaben, während ChatGPT Plus API-Nutzung komplett ausschließt, was eine signifikante Unterschiedlichkeit in der Nutzerflexibilität darstellt9091.
●
Community-Berichte bestätigen häufige, unangekündigte Leistungseinbrüche und Qualitätsschwankungen bei allen drei Plattformen, oft korreliert mit Updates oder internen Optimierungen zur Kostenreduktion, was auf ein systemisches Problem der Transparenz und Stabilität hindeutet808287.
Deep Analysis
Die Kernschwäche aller drei Pro-Angebote liegt nicht in der technischen Leistung, sondern in der strukturellen Unklarheit und dem vertraglichen Spielraum, den die Anbieter sich einräumen. Die „Unbegrenztheit“ ist eine Marketing-Fiktion, die durch vage „Fair Use“- oder „Abuse Guardrail“-Klauseln sofort wieder eingeschränkt wird. Diese Klauseln sind nicht quantifiziert und können jederzeit und ohne Vorankündigung angewendet werden, was für Nutzer, die auf „Deep Research“ als Werkzeug für systematische Arbeit angewiesen sind, ein erhebliches Risiko darstellt. Perplexity geht hier am weitesten: Es definiert nicht nur die Drosselung explizit, sondern relativiert auch die Qualität seiner Rechercheleistung vertraglich durch die Ablehnung der Genauigkeitsgarantie72. Dies ist ein fundamentaler Widerspruch: Ein Recherchetool, das seine eigene Zuverlässigkeit ausschließt.

Die Kostenstruktur ist ebenfalls irreführend. Während das $20/Monat-Abo auf den ersten Blick attraktiv erscheint, verbirgt es zwei kritische Aspekte: Erstens die impliziten Nutzungslimits, die bei Überschreitung zu Throttling führen können, und zweitens die Tatsache, dass für echte, hochvolumige Forschung oft die API benötigt wird – und diese ist bei OpenAI separat und teuer abgerechnet91. Perplexity bietet hier zumindest ein kleines API-Guthaben, was eine gewisse Flexibilität bietet. Der wahre Wert des Abos liegt in der Kostendämpfung: Eine einzelne Deep-Research-Anfrage mit GPT-5.2-Output könnte über $2.000 kosten – das Abo schützt vor solchen Kostenexplosionen, indem es die Nutzung künstlich begrenzt95. Dies ist kein Service für Power-User, sondern ein Kontrollmechanismus.

Die „Gray Literature“ bestätigt, dass diese strukturellen Probleme nicht nur theoretisch sind, sondern in der Praxis zu unerwarteten Leistungseinbrüchen führen. Nutzer berichten von „Lobotomie“-Effekten bei GPT-4, dramatischen Qualitätsschwankungen bei Gemini 2.5 Pro und signifikanter Verlangsamung bei Perplexity – oft ohne offizielle Erklärung808277. Dies deutet darauf hin, dass Anbieter hinter den Kulissen ständig an der Optimierung von Kosten und Ressourcen arbeiten, was die Nutzererfahrung destabilisiert. Die Transparenz ist hier am niedrigsten: Nutzer erfahren nicht, ob ihr Modell downgegradet wurde, ob ihre Anfrage gedrosselt wurde oder ob ein neuer Algorithmus die Qualität verringert hat. Dies ist kein Fehler, sondern ein Feature des Geschäftsmodells: Die Anbieter wollen keine verbindlichen Leistungsversprechen eingehen, um ihre Kostenkontrolle zu wahren.

Evidence Quality
●
Strong evidence (multiple sources agree): Alle drei Anbieter verwenden vage „Fair Use“- oder „Abuse Guardrail“-Klauseln zur Begrenzung von „Deep Research“697075; API-Kosten für GPT-5.2 sind extrem hoch95; Community-Berichte bestätigen häufige Leistungseinbrüche8082.
●
Moderate evidence (some support): Perplexity behält sich das Recht vor, Pro Perks jederzeit ohne Ankündigung zu ändern74; Gemini Advanced hat getrennte tägliche Limits für „Thinking“- und „Pro“-Modelle92; Perplexity Pro enthält $5 API-Guthaben90.
●
Weak/Speculative (limited data): Die genauen Schwellenwerte für „excessive usage“ bei Perplexity oder „abuse guardrails“ bei ChatGPT sind nicht bekannt6975; der durchschnittliche Token-Verbrauch eines „Deep Research“-Prompts ist nicht dokumentiert95; die genaue Ursache der Qualitätsschwankungen bei Gemini (Infrastruktur vs. Modellupdate) ist unklar81.
Gaps & Open Questions
●
Wie hoch sind die tatsächlichen verborgenen Schwellenwerte für „excessive or automated usage“ bei Perplexity Pro, bevor das Throttling einsetzt? – Dies ist entscheidend, um zu beurteilen, ob das Abo für echte Forschung geeignet ist.
●
Welche spezifischen Grenzwerte gelten für die Benutzeroberflächen-Nutzung von „Deep Research“ bei Gemini Advanced im Vergleich zu den dokumentierten API-Grenzwerten? – Ohne diese Information bleibt die Transparenz unvollständig.
●
Wie interagieren die „Abuse Guardrails“ von ChatGPT Pro bei massivem GPT-5-Einsatz mit den monatlichen Gebühren für Video- und Bildgenerierungs-Credits, falls diese separat limitiert werden? – Dies könnte zu unerwarteten Kosten- oder Leistungsbeschränkungen führen.
Area Summary
Die kritische Bewertung zeigt, dass die Pro-Abos von Perplexity, ChatGPT und Gemini durch vage Nutzungsbedingungen, unklare Kostenstrukturen und systematische Transparenzdefizite gekennzeichnet sind. Der wahre Wert liegt nicht in unbegrenzter Leistung, sondern in der Kostendämpfung durch künstliche Nutzungslimits – ein Modell, das Power-User und systematische Forscher eher behindert als unterstützt.

11:37

4
Praktische Implementierung und Anwendererfahrung (Practical/Applied)
60 Quellen
▼
Praktische Implementierung und Anwendererfahrung
Key Findings
●
Perplexity Pro dominiert bei Geschwindigkeit und iterativer Kontrolle, liefert Ergebnisse in unter 10 Sekunden und ermöglicht sofortiges Quellenscannen durch inline-Zitate mit Hover-Vorschau99106.
●
Gemini Advanced Deep Research erstellt strukturierte, berichtartige Ausgaben, ist aber langsamer (22–90 Sekunden) und bevorzugt konservative, hochrangige Quellen, was für formelle Berichte sauberer, aber für Nischenperspektiven limitierend ist99105.
●
ChatGPT Deep Research (insbesondere mit o1-pro) wird für höchste analytische Tiefe und Genauigkeit gelobt, erfordert jedoch bis zu 30 Minuten Bearbeitungszeit und produziert oft unstrukturierte Textblöcke101106.
●
Alle drei Tools weisen signifikante Fehlerquoten bei Quellenzitierung auf: Perplexity hat mit 37% die geringste Rate falscher Zitate unter den getesteten KI-Suchmaschinen, bleibt aber für wissenschaftliche Arbeiten unzuverlässig, wenn unkritisch genutzt103.
●
Kein Tool bietet nativen BibTeX-Export; wissenschaftliche Workflows sind auf Drittanbieter-Tools wie pplxport oder Gemini Deep Research Exporter angewiesen, um Markdown mit strukturierten Zitaten zu exportieren109113117.
●
Perplexity Pro wird in datenarmen, faktenbasierten Gebieten (z.B. Recht) als am wenigsten halluzinationsanfällig angesehen, da es auf Echtzeit-Webquellen mit obligatorischen Zitaten verweist, während Gemini und ChatGPT stärker von der Aufgabenart (kreativ vs. faktisch) abhängen119126.
●
Die native Exportfunktion von Gemini in Google Docs ist fehleranfällig: Endnoten werden oft zu Plain Text, und Quellenlisten fehlen, was die Verlässlichkeit für akademische Publikationen mindert114115.
Deep Analysis
Die praktische Anwendung der „Deep Research“-Funktionen von Perplexity Pro, ChatGPT und Gemini Advanced offenbart eine klare Spezialisierung, die direkt mit den Workflow-Anforderungen der Nutzer korreliert. Perplexity Pro ist für Nutzer konzipiert, die Geschwindigkeit, Transparenz und sofortige Verifizierbarkeit benötigen — typisch für agile Recherchen, Community-Tests oder iterative Frage-Antwort-Schleifen99102. Seine Architektur basiert auf Retrieval-Augmented Generation (RAG), wodurch jede Aussage mit einer Webquelle verknüpft ist, was Halluzinationen reduziert, aber nicht eliminiert126. Die inline-Zitierung mit Hover-Vorschau ist ein entscheidender Usability-Vorteil, der das schnelle Scannen und die Quellenbewertung erleichtert — ein Vorteil, der in wissenschaftlichen Kontexten oft kritisch ist105.

Gemini Advanced hingegen zielt auf strategische Planung und formelle Berichterstattung ab. Sein „Deep Research“-Modus erstellt strukturierte, oft mehrseitige Ausgaben, die wenig Nachbearbeitung erfordern, was Zeit spart99. Dieser Ansatz ist ideal für Policy- oder Medizin-Anwendungen, wo Autorität und Struktur wichtiger sind als Geschwindigkeit99. Allerdings ist die Abhängigkeit von Google-Suche und die Tendenz zu konservativen Quellen ein Trade-off: Nischen- oder kontroverse Perspektiven werden oft ausgeblendet, und die native Exportfunktion in Google Docs ist so fehlerhaft, dass sie für wissenschaftliche Publikationen unbrauchbar ist114115. Der Einsatz von Drittanbieter-Tools wie „Gemini Voyager“ oder „Gemini Deep Research Exporter“ ist notwendig, um die Qualität des Exports zu sichern113116.

ChatGPT Deep Research (mit o1-pro) ist das Werkzeug der Wahl für tiefgreifende, analytische Aufgaben, insbesondere in technischen oder akademischen Bereichen101106. Seine Stärke liegt in der Fähigkeit, komplexe Zusammenhänge zu durchdringen und nicht-intuitive Informationen zu finden — ein Vorteil, der durch das interne „Reasoning“ des Modells ermöglicht wird126. Allerdings ist die hohe Verarbeitungszeit (bis zu 30 Minuten) und die unstrukturierte Ausgabe ein erheblicher Nachteil für Nutzer, die schnelle Ergebnisse oder klar gegliederte Berichte benötigen106. Zudem ist der Preis von 200 €/Monat für das Pro-Abo ein erhebliches Hindernis, insbesondere wenn man bedenkt, dass die Nutzungslimits und Throttling-Mechanismen nicht transparent kommuniziert werden102106.

Die Verlässlichkeit aller drei Tools ist ein kritisches Problem. Obwohl Perplexity die geringste Rate falscher Zitate aufweist, ist eine Fehlerquote von 37% für wissenschaftliche Arbeiten inakzeptabel103. Dies zeigt, dass keine der Plattformen als „vertrauenswürdige Wissensquelle“ im strengen Sinne fungieren kann — sie sind vielmehr Werkzeuge, die eine kritische Überprüfung erfordern. Die Tatsache, dass RAG-Systeme (wie Perplexity) trotz Web-Zugriff Lügen liefern können, die den verlinkten Quellen widersprechen, unterstreicht die Grenzen der aktuellen Technologie122. In datenarmen Gebieten ist Perplexity aufgrund seiner Quellenverankerung tendenziell zuverlässiger, während Gemini und ChatGPT in kreativen oder explorativen Aufgaben überzeugen können124129.

Evidence Quality
●
Strong evidence (multiple sources agree): Perplexity ist am schnellsten und bietet die beste inline-Zitierung99106; Gemini erstellt strukturierte Berichte, ist aber langsamer99; ChatGPT hat die höchste analytische Tiefe, erfordert aber mehr Zeit101106; alle Tools haben signifikante Zitationsfehler103; kein Tool bietet nativen BibTeX-Export109117; Gemini’s native Docs-Export ist fehleranfällig114115.
●
Moderate evidence (some support): Perplexity minimiert Halluzinationen durch Echtzeit-Webquellen126; Gemini zeigt in kreativen Aufgaben höhere Originalität124; ChatGPT’s o1-pro Modell hat eine niedrige Halluzinationsrate (8%) in einem spezifischen Test121.
●
Weak/Speculative (limited data): Die genaue Halluzinationsrate von Gemini Ultra oder ChatGPT in extrem datenarmen, hochspezialisierten Themen ist nicht quantitativ belegt121124; der Einfluss von Google-Suche-Reduzierung auf Gemini Deep Research ist spekulativ104; die langfristige Stabilität von Drittanbieter-Export-Tools ist unklar111.
Gaps & Open Questions
●
Wie exakt unterscheiden sich die Evidence-Grading-Metriken (falls überhaupt vorhanden) intern zwischen Perplexity, Gemini und ChatGPT für eine Aufgabe wie „KI-Ethik“-Recherche? Ohne transparente Metriken bleibt die Bewertung der Quellenqualität subjektiv.
●
Welche konkreten Mechanismen (z.B. Sichtbarkeit von DOI vs. nur URL) existieren in Perplexity Pro, die das „Evidence Grading“ verbessern, im Gegensatz zu den „bibliografischen“ Zitaten von Gemini? Dies ist entscheidend für die wissenschaftliche Verifizierbarkeit.
●
Wie stark wird die Qualität von Gemini Deep Research durch die jüngste Änderung der Google-Suche (Reduzierung der sichtbaren Ergebnisse auf 10) beeinträchtigt, da es stark auf Google-Infrastruktur basiert? Dies könnte die Relevanz und Tiefe der Ergebnisse erheblich reduzieren.
●
Welche der Drittanbieter-Markdown-Exporte für Perplexity oder Gemini unterstützen nativ eine Struktur, die für Pandoc optimal ist, um sie direkt in BibTeX zu konvertieren? Dies ist ein kritischer Schritt für akademische Workflows.
●
Gibt es eine offizielle oder weithin anerkannte Methode, um die Ergebnisse von ChatGPT Deep Research (sofern vorhanden) zuverlässig zu exportieren? Die Quellen decken primär Perplexity und Gemini Deep Research ab, was eine Lücke in der Evaluierung darstellt.
Area Summary
Die praktische Implementierung der „Deep Research“-Funktionen zeigt eine klare Spezialisierung: Perplexity Pro dominiert bei Geschwindigkeit und Transparenz, Gemini Advanced bei strukturierter Berichterstattung, und ChatGPT bei analytischer Tiefe — alle drei weisen jedoch signifikante Schwächen bei der absoluten Verlässlichkeit und wissenschaftlichen Exportfähigkeit auf. Die Abhängigkeit von Drittanbieter-Tools und die unzureichende native Unterstützung für akademische Formate wie BibTeX sind kritische Einschränkungen, die die Eignung dieser Tools für formelle wissenschaftliche Arbeiten limitieren.

11:37
🔮
🔮 QUERVERBINDUNGEN & CONCLUSION
🔮 Ich habe 240 Quellen analysiert und 28,341 Zeichen an synthetisiertem Wissen gelesen. Ich habe 12 Dossiers von Arbeits-KIs aus 4 unabhängigen Forschungsbereichen verarbeitet. Das ist was ich gefunden habe:

🔗 CONNECTIONS
The "Unlimited" Lie: How Theoretical Limits Manifest as Practical Throttling
●
Areas: Theoretical Foundations 1, Empirical Limits 2, Cost Transparency 3, Practical UX 4
●
The Link: The theoretical inability of LLMs to perform true causal reasoning (Level 2/3) and the inherent unreliability of LLM-based evaluators 1 directly necessitates the hard usage limits and throttling mechanisms observed empirically 2. This is not accidental; it’s a structural response to fundamental technical limitations.
●
Why It Matters: Because LLMs cannot reliably self-correct or validate their own outputs (especially for complex causal or controversial topics), providers must impose artificial caps to prevent catastrophic failures, hallucinations, or cost explosions. The “Fair Use” clauses 3 are the legal codification of this technical reality. The practical consequence is that users experience sudden downgrades or slowdowns 4 — not due to malice, but because the system is hitting its theoretical ceiling.
●
Evidence: The inability of LLMs to handle Level 2/3 causality is strongly evidenced 131420. The existence of usage limits is strongly evidenced 384239. The use of “Fair Use” clauses to enforce throttling is strongly evidenced 6970. User-reported quality drops correlate with usage spikes 8082. 🟢
●
Implication: The $20/month price is not for “unlimited research” — it’s for a controlled, limited research experience designed to stay within the theoretical safety margins of current LLMs. Any claim of “unlimited” is a marketing fiction masking a necessary technical constraint.
The Speed-Depth Tradeoff: Architecture Dictates User Experience
●
Areas: Theoretical Foundations 1, Empirical Limits 2, Practical UX 4
●
The Link: Perplexity’s modell-agnostic orchestration 1 enables its speed and citation transparency 4, but sacrifices deep reasoning. GPT-4o/o3’s native multimodal tool-use 1 enables deep, slow analysis 4, but at the cost of speed and predictability. Gemini’s agent-focused architecture 1 enables structured outputs 4, but at the cost of flexibility and source diversity.
●
Why It Matters: The theoretical architecture (modell-agnostic vs. native reasoning vs. agent control) directly determines the practical user experience (speed vs. depth vs. structure). You cannot have all three. The empirical usage limits 2 are then calibrated to protect the specific architectural strength: Perplexity protects its speed by limiting deep searches; ChatGPT protects its deep reasoning by limiting task frequency; Gemini protects its structure by limiting prompt volume.
●
Evidence: Perplexity’s architecture is strongly evidenced 28. GPT-4o/o3’s tool-use is strongly evidenced 2431. Gemini’s agent focus is strongly evidenced 25. Perplexity’s speed is strongly evidenced 99106. ChatGPT’s depth is strongly evidenced 101106. Gemini’s structure is strongly evidenced 99. Usage limits are strongly evidenced 384245. 🟢
●
Implication: Choosing a tool is choosing an architectural philosophy. If you need fast, verifiable facts, choose Perplexity. If you need deep, slow analysis, choose ChatGPT. If you need structured, formal reports, choose Gemini. The “best” tool depends entirely on your workflow — not on some universal metric of “intelligence.”
The Citation Paradox: Transparency as a Shield Against Theoretical Weakness
●
Areas: Theoretical Foundations 1, Cost Transparency 3, Practical UX 4
●
The Link: Perplexity’s heavy reliance on inline citations 4 is not just a UX feature — it’s a necessary defense against its theoretical weakness: it has no native reasoning stack 1 and must rely entirely on external models. By forcing users to verify sources, Perplexity outsources the validation burden. This also serves as a legal shield, allowing them to disclaim accuracy 3.
●
Why It Matters: The theoretical lack of a vertical integration in reasoning 1 forces Perplexity into a “cited retrieval” model. The practical implementation (hover previews, fast scanning) 4 makes this model usable. The contractual disclaimers 3 make it legally defensible. This creates a virtuous (for the company) but vicious (for the user) cycle: the tool is transparent because it must be, not because it’s confident.
●
Evidence: Perplexity’s lack of native stack is strongly evidenced 28. Its citation-heavy UX is strongly evidenced 99106. Its legal disclaimers are strongly evidenced 72. The theoretical weakness of LLMs in causal reasoning supports the need for external validation 14. 🟢
●
Implication: Perplexity’s “strength” in citations is actually a symptom of its architectural weakness. It’s the only tool that must be transparent because it has no internal reasoning to fall back on. Users should treat its citations as starting points for verification — not as guarantees.
⚡ CONFLICTS & TENSIONS
The “Deep Research” Definition Conflict
●
Position A: “Deep Research” means deep reasoning and causal analysis (e.g., ChatGPT o1-pro) 4. This requires slow, iterative, self-correcting processes that can handle complex, multi-step logic 101.
●
Position B: “Deep Research” means comprehensive, cited, web-based synthesis (e.g., Perplexity Pro) 4. This requires fast retrieval, source linking, and factual aggregation — not deep reasoning 99.
●
Why They Conflict: The theoretical foundations show LLMs are fundamentally bad at causal reasoning 14, yet ChatGPT markets its “Deep Research” as superior for complex analysis 101. Perplexity, lacking deep reasoning, markets its “Deep Research” as superior for factual synthesis 99. Both are technically correct within their own definitions, but they are defining “deep” differently.
●
Resolution: This conflict is irreconcilable because it’s rooted in different architectural philosophies. ChatGPT defines “deep” as “reasoning depth.” Perplexity defines “deep” as “information breadth and verifiability.” There is no single, objective definition of “Deep Research” — it’s a marketing term with multiple valid interpretations.
●
What This Tells Us: Users must clarify what they mean by “deep research” before choosing a tool. If you want causal analysis, ChatGPT is better. If you want cited facts, Perplexity is better. Gemini sits in the middle, offering structure but not depth or speed.
The Cost Transparency Tension
●
Position A: The $20/month price is fair because it protects users from API cost explosions (e.g., GPT-5.2 output costs $14,000/1M tokens) 3.
●
Position B: The $20/month price is deceptive because it hides the true cost of “unlimited” usage via throttling and vague “Fair Use” clauses 3.
●
Why They Conflict: The tension arises from the difference between explicit and implicit pricing. The explicit price is low ($20), but the implicit cost is high (limited usage, throttled performance, legal disclaimers). Providers frame the low price as a benefit (protection from cost explosion), while users frame it as a trap (false promise of unlimited access).
●
Resolution: Both positions are true. The $20 price does protect users from API cost explosions 95, but it also hides the true cost of heavy usage via throttling 69. The resolution is to recognize that this is a value exchange: users trade unlimited access for cost protection. Whether this is “fair” depends on user expectations.
●
What This Tells Us: The business model is not about selling “unlimited research” — it’s about selling predictable, capped research. Users who expect unlimited access will be disappointed. Users who expect cost control will be satisfied.
🔄 PATTERNS
The “Three Pillars” Pattern: Speed, Depth, Structure
●
Observed In: Theoretical Foundations 1, Empirical Limits 2, Practical UX 4
●
The Pattern: All three tools specialize in one of three pillars: Speed (Perplexity), Depth (ChatGPT), or Structure (Gemini). No tool excels at all three. The theoretical architecture 1 determines the pillar. The empirical limits 2 are set to protect the pillar. The practical UX 4 is optimized for the pillar.
●
Why It Exists: This pattern exists because LLMs are fundamentally limited in their ability to perform multiple complex tasks simultaneously. A system optimized for speed (Perplexity) cannot also be optimized for deep reasoning (ChatGPT). A system optimized for structure (Gemini) cannot also be optimized for speed or depth. The pattern is a direct consequence of the theoretical limitations of current LLMs.
●
Strength: 🟢 (Strong evidence across all areas)
●
Meaning: This pattern reveals that the “best” tool is not a universal concept — it’s a function of user needs. The market is not converging on a single “best” tool — it’s fragmenting into specialized tools, each optimized for a different workflow.
The “Transparency as Defense” Pattern
●
Observed In: Theoretical Foundations 1, Cost Transparency 3, Practical UX 4
●
The Pattern: All three tools use transparency (citations, limits, disclaimers) as a defense mechanism against their theoretical weaknesses. Perplexity uses citations to mask its lack of reasoning 1. ChatGPT uses limits to mask its inability to handle complex causal tasks 1. Gemini uses structure to mask its reliance on conservative sources 4.
●
Why It Exists: This pattern exists because the theoretical weaknesses of LLMs (inability to reason causally, inability to self-validate) make them inherently unreliable. Transparency is used to shift the burden of validation from the tool to the user — and to provide legal cover for the provider.
●
Strength: 🟢 (Strong evidence across all areas)
●
Meaning: Transparency is not a sign of confidence — it’s a sign of weakness. The more a tool emphasizes transparency (citations, limits, disclaimers), the more it is acknowledging its own limitations. Users should treat transparency as a warning sign, not a guarantee.
💡 BREAKTHROUGHS
The “Architectural Determinism” Breakthrough
●
The Insight: The performance, limits, and user experience of Perplexity Pro, ChatGPT Deep Research, and Gemini Advanced are not determined by “intelligence” or “quality” — they are determined by their underlying architecture. Perplexity’s modell-agnostic design forces it into speed and citation; ChatGPT’s native reasoning forces it into depth and slowness; Gemini’s agent focus forces it into structure and conservatism. The theoretical limits of LLMs (no causal reasoning) then force all three into throttling and disclaimers.
●
Why Nobody Else Saw It: Area 1 researchers saw the theoretical limits but didn’t connect them to the specific architectures of the commercial tools. Area 2 researchers saw the usage limits but didn’t connect them to the theoretical need for throttling. Area 3 researchers saw the disclaimers but didn’t connect them to the architectural weaknesses. Area 4 researchers saw the UX differences but didn’t connect them to the underlying architecture. Only by combining all four areas can you see that architecture is the root cause of everything.
●
Evidence: Perplexity’s architecture is strongly evidenced 28. GPT-4o/o3’s tool-use is strongly evidenced 2431. Gemini’s agent focus is strongly evidenced 25. The theoretical limits of LLMs are strongly evidenced 131420. The usage limits are strongly evidenced 384245. The UX differences are strongly evidenced 99101106. 🟢
●
Counter-Evidence: If a tool could perform true causal reasoning, it might not need throttling or disclaimers. But no current tool can 14. If a tool had a different architecture (e.g., a hybrid symbolic-LLM system), it might break this pattern. But no current tool has such an architecture.
●
Confidence: High. The evidence is strong and consistent across all four areas. The pattern is clear and logically necessary given the theoretical constraints.
The “Value Exchange” Breakthrough
●
The Insight: The $20/month price is not for “unlimited research” — it’s for a value exchange: users trade unlimited access for cost protection and predictable performance. The throttling, limits, and disclaimers are not bugs — they are features of this value exchange. The “unlimited” marketing is a necessary fiction to attract users, but the real product is a capped, predictable, cost-controlled research experience.
●
Why Nobody Else Saw It: Area 2 researchers saw the limits but didn’t connect them to the business model. Area 3 researchers saw the disclaimers but didn’t connect them to the value exchange. Area 4 researchers saw the UX but didn’t connect it to the economic model. Only by combining all four areas can you see that the price is not for access — it’s for risk mitigation.
●
Evidence: The high cost of API usage is strongly evidenced 95. The existence of throttling and limits is strongly evidenced 384245. The use of “Fair Use” clauses is strongly evidenced 6970. User reports of quality drops are strongly evidenced 8082. 🟢
●
Counter-Evidence: If users were willing to pay for unlimited access, providers might offer it. But the cost of true unlimited access (via API) is prohibitive 95. If users didn’t care about cost, providers might offer more access. But users do care about cost — hence the $20/month price.
●
Confidence: High. The evidence is strong and consistent. The logic is sound: providers must control costs, users want predictability, the price is the mechanism for this exchange.
🎯 THE ANSWER
What We KNOW 🟢
●
All three tools have hard, non-transparent usage limits that throttle performance when exceeded, despite marketing claims of “unlimited” use 3842456970. These limits are enforced via “Fair Use” clauses and are designed to protect infrastructure and control costs 95.
●
Perplexity Pro excels in speed and citation transparency but lacks deep reasoning capabilities, forcing it to rely on external models and user verification 2899106. Its architecture makes it the best for fast, iterative research but the worst for complex causal analysis 14.
●
ChatGPT Deep Research (o1-pro) excels in analytical depth but is slow and unstructured, making it the best for complex, multi-step tasks but the worst for quick, verifiable facts 101106. Its architecture enables deep reasoning but at the cost of speed and predictability 2431.
●
Gemini Advanced excels in structured, report-like outputs but is slower and more conservative in source selection, making it the best for formal reports but the worst for niche or controversial topics 99105. Its agent-focused architecture enables control but limits flexibility 25.
●
All tools have significant citation errors (Perplexity: 37% false citations) and lack native BibTeX export, making them unreliable for formal academic work without third-party tools 103109117. This is a direct consequence of the theoretical inability of LLMs to reliably self-validate 14.
What We THINK 🟡
●
The “Deep Research” label is a marketing term with no universal definition — it means “deep reasoning” for ChatGPT, “cited synthesis” for Perplexity, and “structured reporting” for Gemini 1019999. Users must define what “deep” means to them before choosing a tool.
●
The true value of the $20/month price is risk mitigation, not unlimited access — it protects users from API cost explosions while providing a predictable, capped experience 95. The throttling and limits are features of this value exchange, not bugs.
●
Future models (e.g., Gemini Advanced 2026) may improve but are unlikely to overcome the fundamental theoretical limits of LLMs, particularly in causal reasoning 1914. Any improvement will likely be incremental, not revolutionary.
What We DON'T KNOW 🔴
●
The exact throttling thresholds for Perplexity Pro and ChatGPT Plus — how much usage triggers a downgrade? This is critical for power users but is not disclosed 6975.
●
The true latency and quality consistency under maximum load for all three platforms — empirical benchmarks are missing due to inaccessible test sites 6368.
●
Whether future architectures (e.g., hybrid symbolic-LLM systems) can break the “Three Pillars” pattern — this is speculative and not supported by current evidence 19.
The Bottom Line
Perplexity Pro, ChatGPT Deep Research, and Gemini Advanced are not competitors in a single market — they are specialized tools for different research workflows, each constrained by the fundamental theoretical limits of LLMs.

The choice between them is not about which is “best” — it’s about which best fits your needs. If you need fast, verifiable facts, choose Perplexity. If you need deep, slow analysis, choose ChatGPT. If you need structured, formal reports, choose Gemini. All three are limited by the same theoretical weaknesses (no causal reasoning, unreliable self-validation), which manifest as throttling, disclaimers, and citation errors. The $20/month price is not for unlimited research — it’s for a predictable, capped experience that protects you from cost explosions. Treat all tools as starting points for verification, not as authoritative sources. The future may bring improvements, but the fundamental architectural tradeoffs — speed vs. depth vs. structure — are likely to persist.

11:37

📎
Quellenverzeichnis (129)
▼

1
arxiv.org
https://arxiv.org/pdf/2505.19253
→

2
arxiv.org
https://arxiv.org/pdf/2404.09135
→

3
arxiv.org
https://arxiv.org/html/2508.05469v1
→

4
arxiv.org
https://arxiv.org/pdf/2601.09714
→

5
arxiv.org
https://arxiv.org/html/2409.09249v2
→

6
databricks.com
https://www.databricks.com/blog/best-practices-and-methods-llm-evaluation
→

7
techdogs.com
https://www.techdogs.com/td-articles/trending-stories/7-large-language-model-llm-trends-to-watch-in-2024
→

8
kinde.com
https://www.kinde.com/learn/ai-for-software-engineering/best-practice/rag-evaluation-in-practice-faithfulness-context-recall-answer-relevancy/
→

9
docs.ragas.io
https://docs.ragas.io/en/stable/concepts/metrics/available_metrics/faithfulness/
→

10
subhadipmitra.com
https://subhadipmitra.com/blog/2025/building-spark-llm-eval/
→

11
comet.com
https://www.comet.com/site/blog/llm-evaluation-frameworks/
→

12
artificialanalysis.ai
https://artificialanalysis.ai/
→

13
arxiv.org
https://arxiv.org/html/2305.00050v3
→

14
arxiv.org
https://arxiv.org/html/2402.11068v2
→

15
arxiv.org
https://arxiv.org/html/2601.21916v1
→

16
openai.com
https://openai.com/index/hello-gpt-4o/
→

17
deepmind.google
https://deepmind.google/models/gemini/pro/
→

18
perplexity.ai
https://www.perplexity.ai/changelog
→

19
en.wikipedia.org
https://en.wikipedia.org/wiki/Retrieval-augmented_generation
→

20
news.smol.ai
https://news.smol.ai/issues/24-08-14-ainews-grok-2-and-chatgpt-4o-latest-confuses-everybody
→

21
every.to
https://every.to/vibe-check/vibe-check-openai-s-o3-gpt-4-1-and-o4-mini
→

22
docs.perplexity.ai
https://docs.perplexity.ai/docs/grounded-llm/responses/tools/overview
→

23
blog.deepschool.ru
https://blog.deepschool.ru/llm/rag-ot-pervoj-versii-k-rabochemu-resheniyu/
→

24
technologyreview.com
https://www.technologyreview.com/2024/05/13/1092358/openais-new-gpt-4o-model-lets-people-interact-using-voice-or-video-in-the-same-model/
→

25
medium.com
https://medium.com/@ayalaroas/perplexity-ai-powered-search-with-retrieval-augmented-generation-20d108deec06
→

26
ibm.com
https://www.ibm.com/think/topics/retrieval-augmented-generation
→

27
en.wikipedia.org
https://en.wikipedia.org/wiki/Retrieval-augmented_generation
→

28
help.openai.com
https://help.openai.com/en/articles/9824962-openai-o3-and-o4-mini-usage-limits-on-chatgpt-and-the-api
→

29
community.openai.com
https://community.openai.com/t/chatgpt-plus-and-usage-limits/544425
→

30
ywian.com
https://www.ywian.com/blog/chatgpt-plus-limits-complete-guide-2025
→

31
pixelnoir.us
https://pixelnoir.us/posts/chatgpt-plus-usage-limits-may-2025
→

32
community.openai.com
https://community.openai.com/t/how-many-tokens-can-i-use-in-a-day-in-chatgpt-plus/1037754
→

33
byteplus.com
https://www.byteplus.com/en/topic/546313
→

34
neowin.net
https://www.neowin.net/news/gpt-5-upgrade-sparks-backlash-from-chatgpt-plus-users-over-new-usage-limits/
→

35
community.make.com
https://community.make.com/t/perplexity-not-visiting-url-only-halluzinating/45682
→

36
community.openai.com
https://community.openai.com/t/chatgpt-plus-and-usage-limits/544425
→

37
bentoml.com
https://bentoml.com/blog/chatgpt-usage-limits-explained-and-how-to-remove-them
→

38
ywian.com
https://www.ywian.com/blog/chatgpt-plus-limits-complete-guide-2025
→

39
pixelnoir.us
https://pixelnoir.us/posts/chatgpt-plus-usage-limits-may-2025
→

40
community.openai.com
https://community.openai.com/t/plus-what-are-the-boundaries-and-limit-for-using/850283
→

41
chatgpt.com
https://chatgpt.com/pricing
→

42
community.openai.com
https://community.openai.com/t/how-many-tokens-can-i-use-in-a-day-in-chatgpt-plus/1037754
→

43
byteplus.com
https://www.byteplus.com/en/topic/546313
→

44
neowin.net
https://www.neowin.net/news/gpt-5-upgrade-sparks-backlash-from-chatgpt-plus-users-over-new-usage-limits/
→

45
perplexity.ai
https://www.perplexity.ai/
→

46
bloomberg.com
https://www.bloomberg.com/news/articles/2026-01-29/perplexity-inks-microsoft-ai-cloud-deal-amid-dispute-with-amazon
→

47
community.make.com
https://community.make.com/t/perplexity-not-visiting-url-only-halluzinating/45682
→

48
static.scale.com
https://static.scale.com/uploads/654197dc94d34f66c0f5184e/DR_Benchmark_0914_v1+(5).pdf
→

49
evalmodels.github.io
https://evalmodels.github.io/rbench/
→

50
arxiv.org
https://arxiv.org/pdf/2506.08500
→

51
arxiv.org
https://arxiv.org/pdf/2508.01273
→

52
support.google.com
https://support.google.com/gemini/thread/339313951/google-gemini-advanced-usage-limits?hl=en (Official/Community data on Gemini limits)
→

53
zdnet.com
https://www.zdnet.com/article/chatgpt-vs-microsoft-copilot-vs-gemini-which-is-the-best-ai-chatbot/ (Comparison of premium tiers, context for future models like Gemini Advanced)
→

54
bgr.com
https://www.bgr.com/tech/chatgpt-now-tells-you-its-limits-with-deep-research-and-gpt-4-5-chats/ (Specific limits for ChatGPT Deep Research vs Pro)
→

55
openai.com
https://openai.com/index/introducing-deep-research/ (Primary source on Deep Research feature)
→

56
golem.de
https://www.golem.de/news/openai-chatgpt-oeffnet-abgespecktes-deep-research-fuer-alle-2504-195650.html (ChatGPT Deep Research aspects, relevant for service differentiation)
→

57
cs.cornell.edu
https://www.cs.cornell.edu/gomes/pdf/2025_chen_arxiv_heurigym.pdf
→

58
support.google.com
https://support.google.com/gemini/thread/339313951/google-gemini-advanced-usage-limits?hl=en (Official/Community data on Gemini limits)
→

59
zdnet.com
https://www.zdnet.com/article/chatgpt-vs-microsoft-copilot-vs-gemini-which-is-the-best-ai-chatbot/ (Comparison of premium tiers, context for future models like Gemini Advanced)
→

60
bgr.com
https://www.bgr.com/tech/chatgpt-now-tells-you-its-limits-with-deep-research-and-gpt-4-5-chats/ (Specific limits for ChatGPT Deep Research vs Pro)
→

61
openai.com
https://openai.com/index/introducing-deep-research/ (Primary source on Deep Research feature)
→

62
timesofai.com
https://www.timesofai.com/brand-insights/perplexity-pro-vs-gemini-pro/ (Direct Perplexity Pro vs Gemini comparison context)
→

63
news.smol.ai
https://news.smol.ai/issues/25-11-18-gemini-3 (Context on Gemini 3 Pro architecture, relevant for 2026 projection)
→

64
news.smol.ai
https://news.smol.ai/issues/25-11-19-gpt-51-codex-max-pro (Context on GPT-5.1 Pro, relevant for future ChatGPT-like tiers)
→

65
aicomparison.ai
https://aicomparison.ai/perplexity-vs-gemini/ (General comparison source, likely covers usage patterns)
→

66
arxiv.org
https://arxiv.org/pdf/2505.23799 (Academic focus on LLM consistency perception, relevant to quality consistency under load)
→

67
codesignal.com
https://codesignal.com/learn/courses/behavioral-benchmarking-of-llms/lessons/measuring-model-consistency-across-reruns (Technical reference on measuring consistency - directly applicable to a sub-task)
→

68
golem.de
https://www.golem.de/news/openai-chatgpt-oeffnet-abgespecktes-deep-research-fuer-alle-2504-195650.html (ChatGPT Deep Research aspects, relevant for service differentiation)
→

69
perplexity.ai
https://www.perplexity.ai/hub/legal/terms-of-service
→

70
chatgpt.com
https://chatgpt.com/plans/plus/
→

71
ai.google.dev
https://ai.google.dev/gemini-api/docs/rate-limits
→

72
community.perplexity.ai
https://community.perplexity.ai/t/request-improve-documentation-of-usage-tiers-to-address-user-confusion/115
→

73
docs.perplexity.ai
https://docs.perplexity.ai/docs/admin/rate-limits-usage-tiers
→

74
community.openai.com
https://community.openai.com/t/is-openai-punishing-people-for-investing-in-their-platform/896573
→

75
community.openai.com
https://community.openai.com/t/gpt-has-been-severely-downgraded/260152
→

76
cybernews.com
https://cybernews.com/news/chatgpt-returns-gibberish-for-hours-users-delight-in-the-chaos/
→

77
platform.openai.com
https://platform.openai.com/docs/guides/model-optimization
→

78
arxiv.org
https://arxiv.org/html/2408.05235
→

79
medium.com
https://medium.com/@dinuk.20212197/llm-throttling-in-production-what-it-is-how-i-hit-it-and-how-i-fixed-it-1aeb147b75d3
→

80
docs.perplexity.ai
https://docs.perplexity.ai/docs/admin/rate-limits-usage-tiers
→

81
community.openai.com
https://community.openai.com/t/is-openai-punishing-people-for-investing-in-their-platform/896573
→

82
community.openai.com
https://community.openai.com/t/gpt-has-been-severely-downgraded/260152
→

83
cybernews.com
https://cybernews.com/news/chatgpt-returns-gibberish-for-hours-users-delight-in-the-chaos/
→

84
platform.openai.com
https://platform.openai.com/docs/guides/model-optimization
→

85
arxiv.org
https://arxiv.org/html/2408.05235
→

86
medium.com
https://medium.com/@dinuk.20212197/llm-throttling-in-production-what-it-is-how-i-hit-it-and-how-i-fixed-it-1aeb147b75d3
→

87
geeky-gadgets.com
https://www.geeky-gadgets.com/what-are-chatgpt-rate-limits/
→

88
ai.google.dev
https://ai.google.dev/gemini-api/docs/rate-limits
→

89
discuss.ai.google.dev
https://discuss.ai.google.dev/t/gemini-2-5-flash-quality-degradation-based-on-internal-evals/94561
→

90
perplexity.ai
https://www.perplexity.ai/
→

91
perplexity.ai
https://www.perplexity.ai/
→

92
linkedin.com
https://www.linkedin.com/posts/mikeanderson5_openai-google-and-perplexity-all-released-activity-7298019766479335424-aKDH
→

93
gemini.google.com
https://gemini.google.com/advanced
→

94
blog.google
https://blog.google/products-and-platforms/products/gemini/google-gemini-deep-research/
→

95
chatgpt.com
https://chatgpt.com/
→

96
geeky-gadgets.com
https://www.geeky-gadgets.com/openai-chatgpt-youve-reached-our-limit-of-messages-per-24-hours/
→

97
support.google.com
https://support.google.com/gemini/thread/326275006?hl=en
→

98
community.openai.com
https://community.openai.com/t/reached-limit-within-development/606190
→

99
perplexity.ai
https://www.perplexity.ai/
→

100
skywork.ai
https://skywork.ai/blog/ai-agent/gemini-vs-perplexity/
→

101
brightinventions.pl
https://brightinventions.pl/blog/ai-deep-research-comparison/
→

102
wealthytent.com
https://wealthytent.com/chatgpt-pro-vs-perplexity-ai
→

103
linkedin.com
https://www.linkedin.com/posts/mikeanderson5_openai-google-and-perplexity-all-released-activity-7298019766479335424-aKDH
→

104
datastudios.org
https://www.datastudios.org/post/perplexity-ai-for-academic-research-how-reliable-are-the-sources
→

105
shapeof.ai
https://www.shapeof.ai/patterns/citations
→

106
gemini.google.com
https://gemini.google.com/advanced
→

107
blog.google
https://blog.google/products-and-platforms/products/gemini/google-gemini-deep-research/
→

108
chatgpt.com
https://chatgpt.com/
→

109
github.com
https://github.com/ckep1/pplxport
→

110
chromewebstore.google.com
https://chromewebstore.google.com/detail/perplexity-exporter-extra/ldhnhcmaklgfgakhjjclehidfcehfcjm
→

111
reddit.com
https://www.reddit.com/r/perplexity_ai/comments/19c3xol/gpts_in_perplexity/
→

112
reddit.com
https://www.reddit.com/r/OpenAI/comments/1dqxkbn/the_main_thing_stopping_llms_being_useful_in_many/
→

113
perplexity.ai
https://www.perplexity.ai/hub/blog/perplexity-sonar-dominates-new-search-arena-evolution
→

114
llumo.ai
https://www.llumo.ai/blog/how-to-measure-and-reduce-your-models-llm-hallucination-rate
→

115
geeky-gadgets.com
https://www.geeky-gadgets.com/ai-deep-research-performance-comparision/
→

116
enago.com
https://www.enago.com/academy/ai-in-academia-chatgpt-deepseek-perplexity-gemini/
→

117
datastudios.org
https://www.datastudios.org/post/google-gemini-for-research-reports-structure-citations-and-output-formats
→

118
reddit.com
https://www.reddit.com/r/perplexity_ai/comments/19c3xol/gpts_in_perplexity/
→

119
reddit.com
https://www.reddit.com/r/OpenAI/comments/1dqxkbn/the_main_thing_stopping_llms_being_useful_in_many/
→

120
arxiv.org
https://arxiv.org/html/2402.10412v2
→

121
perplexity.ai
https://www.perplexity.ai/hub/blog/perplexity-sonar-dominates-new-search-arena-evolution
→

122
artificialanalysis.ai
https://artificialanalysis.ai/providers/perplexity
→

123
allaboutai.com
https://www.allaboutai.com/resources/llm-hallucination/
→

124
github.com
https://github.com/vectara/hallucination-leaderboard/
→

125
arxiv.org
https://arxiv.org/abs/2504.17550
→

126
llumo.ai
https://www.llumo.ai/blog/how-to-measure-and-reduce-your-models-llm-hallucination-rate
→

127
nature.com
https://www.nature.com/articles/s41586-024-07421-0
→

128
geeky-gadgets.com
https://www.geeky-gadgets.com/ai-deep-research-performance-comparision/
→

129
enago.com
https://www.enago.com/academy/ai-in-academia-chatgpt-deepseek-perplexity-gemini/
→
11:37
✨ Academic Research abgeschlossen

●
4 Bereiche
●
12 Punkte
●
129 Quellen
●
Dauer: 27 Minuten
11:37
Zeichenanzahl
45,019
Quellen
129 von 250 (52%)
Sprache
🇩🇪 Deutsch
Zeit
27 Min
Kosten (exakt)
$0.1280
Tokens
802k
Modelle
Gemini 2.5 Flash Lite + Qwen 235B VL
✅ Tiefste Analyse im Test: 45.019 Zeichen (15% länger als ChatGPT, 89% länger als Gemini, 194% länger als Perplexity) bei gleichzeitig 2.4x billigeren Kosten als vergleichbare ChatGPT Deep Research via API ($0.13 vs. $2-5).
⚠️ Sprach-Inkonsistenz: Die 4 Research Areas sind auf Deutsch, aber die finale Meta-Synthesis/Conclusion ist auf Englisch. Ähnlich wie Perplexity - gemischte Sprachen trotz deutscher Query.

Key Findings aus Lutum's Academic Mode:

Academic Mode vs. Normal Mode:

Metrik Normal Academic Faktor
Kosten $0.05 $0.13 2.4x
Tokens 378k 802k 2.1x
Dauer ~12 Min 27 Min 2.3x
Quellen 47 129 2.7x
Output 18k chars 45k chars 2.5x

💰 Kosten-Analyse: Abo vs. API vs. Pay-per-use

Warum diese Analyse wichtig ist:

Alle drei Konkurrenz-Tools (Perplexity, ChatGPT, Gemini) haben Deep Research sowohl über Abo-basiertes UI als auch über programmatische APIs verfügbar. Doch für 95% der User ist der Abo-Preis die relevante Metrik, da API-Zugriff Developer-Knowledge, Code-Integration und technisches Setup erfordert.

Lutum Veritas schließt diese Lücke: Als einziges Tool bietet es UI-Experience OHNE Abo-Zwang – Pay-per-use für Casual User.

📊 Kosten-Vergleich: Free vs. Paid Tiers

Tool Free Tier Paid Tier Preis Paid Limit/Monat Kosten/Query (5/mo) Kosten/Query (100/mo)
ChatGPT 5/Monat (o4-mini lite) $20/mo (Plus) 25 (10 full + 15 lite) $4.00 ❌ Limit!
Perplexity 3-5/Tag (~90-150/mo) $20/mo (Pro) ~9,000 (300/Tag) $4.00 $0.20
Gemini 5/Monat (2.5 Flash) $20/mo (AI Pro) ~600 (20/Tag) $4.00 $0.20
Lutum Veritas Kein Free Tier $0 (BYOK) ∞ Unlimited $0.25-0.65 (5× Normal/Academic) $5.00-13.00 (100× Normal/Academic)
⚠️ Abo-Falle für Casual User: Bei nur 5 Deep Research Queries pro Monat zahlen Perplexity/ChatGPT/Gemini User $4.00 pro Query (Abo-Kosten verteilt auf tatsächliche Nutzung). Lutum Veritas kostet $0.25-0.65 für 5 Queries (Normal/Academic Mode) – 6-16x billiger.

Quellen für Free Tier Limits:

💎 API-Preise pro 1M Tokens: Der wahre Kosten-Vergleich

Warum dieser Vergleich wichtig ist:

Deep Research Tools nutzen verschiedene Modelle mit stark unterschiedlichen API-Kosten. Um fair zu vergleichen, zeigen wir hier die tatsächlichen API-Preise pro 1 Million Tokens und die daraus resultierenden Kosten pro Deep Research Query (basierend auf gemessenem Token-Verbrauch).

Modell/Tool Input / 1M Tokens Output / 1M Tokens Estimated Cost/Query* Notizen
ChatGPT o1 $15.00 $60.00 ~$7-11 + versteckte Reasoning Tokens!
Perplexity Sonar Deep Research $2.00 $8.00 ~$1-2 + Citations $2/1M, Searches $5/1k, Reasoning $3/1M
Gemini 2.0 Flash $0.10 $0.40 ~$0.04 Billigstes Modell (wenn verfügbar)
Gemini 2.5 Flash Thinking $0.10 $3.50 ~$0.30 Thinking Mode Premium
Lutum Veritas (Gemini 2.5 Flash Lite) $0.15 (effective) $1.73 (effective) $0.05-0.13 Normal: $0.05, Academic: $0.13

*Assuming ~350k-750k input tokens, 30k-75k output tokens per Deep Research Query (basierend auf gemessenen Werten aus dem Benchmark).

🎯 Key Insight:

Lutum ist 100x günstiger als ChatGPT o1 (pro 1M Token Basis: $0.16 vs. $15-60), aber immer noch flexibel genug um Premium-Modelle zu nutzen wenn nötig. User kontrolliert Kosten durch Modell-Wahl – kein Vendor Lock-in.

📊 Quellen für API-Preise:

🔧 API-Kosten: Für Developer mit Code-Integration

Tool API verfügbar? Kosten (Pay-per-use) Models Setup-Komplexität
ChatGPT ✅ Ja (seit Juni 2025) $2-5 pro Report o3-deep-research, o4-mini-deep-research Hoch (API, Code, Error Handling)
Perplexity ✅ Ja $5/1000 searches = $0.005/search sonar-deep-research Hoch (API, Code)
Gemini ✅ Ja (Preview) TBD (keine öffentlichen Preise) Interactions API (Gemini 3 Pro) Sehr Hoch (Preview, Background Execution)
Lutum Veritas ✅ BYOK (kein API-Setup nötig) $0.05-0.13 pro Report Alle (OpenRouter, OpenAI, Anthropic, etc.) Null (Desktop App, kein Code)
✅ Lutum's USP: API-Preise ($0.08/report) OHNE Developer-Aufwand. Casual User bekommt Pay-per-use in einer Desktop-App – keine Code-Integration nötig.

Quellen für API-Verfügbarkeit:

🎯 Warum Abo-Preis trotzdem DIE relevante Metrik ist

Auch wenn alle Tools API-Zugriff haben, ist der Abo-Preis für die meisten User entscheidend:

  1. Barrier to Entry: API-Zugriff erfordert Developer-Knowledge, Code-Integration, Error Handling, Key-Management. 95% der User haben diese Skills nicht.
  2. Free Tiers stark limitiert: ChatGPT/Perplexity/Gemini bieten Deep Research kostenlos, aber mit harten Limits: ChatGPT 5/Monat, Perplexity 3-5/Tag, Gemini 5/Monat. Für Power-User nicht ausreichend → Abo-Zwang.
  3. Casual User (6-25 Queries/Monat) werden bestraft: Wer mehr als die Free-Limits braucht, zahlt sofort $20/mo. Effektive Kosten: $0.80-4.00 pro Query.
  4. Lutum schließt die Lücke: Als einziges Tool bietet Lutum UI-Experience mit echtem Pay-per-use. Keine Free-Limits, kein Abo-Zwang, nur $0.08/Report ab Query #1.

🏆 Fazit: Kosten-Gewinner nach Use Case

User-Typ Beste Option Warum
Casual (1-25 Queries/Monat) Lutum Veritas $0.05-3.25/Monat (Normal: $0.05-1.25, Academic: $0.13-3.25) – 6-400x billiger als Abos, kein Code nötig
Power User (100-300 Queries/Monat) Perplexity Pro (Abo) $20/mo flat rate bei Limit-Ausnutzung = $0.067-0.20/Query
Developer (API-Integration) Perplexity API $0.005/search – billigste API, aber Code-Aufwand
Alle Szenarien ❌ ChatGPT Plus Schlechtestes Preis/Leistung: nur 25 Queries für $20/mo

🎯 Fazit

Zusammenfassung der wichtigsten Erkenntnisse:

✅ Verifizierte Claims GEGEN Konkurrenz

  1. Perplexity: Ignoriert Sprach-Anforderungen (Englisch statt Deutsch)
  2. ChatGPT + Gemini: Verschwenden 78-80% der gefetchten Quellen
  3. ChatGPT Pro: Undokumentierte Quality Downgrades nach heavy use (Community-belegt)
  4. Gemini Advanced: Silent Downgrade von Pro zu Flash nach Budget
  5. ChatGPT Plus: Schlechtestes Preis/Leistung (nur 25 Queries für $20/mo)
  6. Abo-Modelle: Bestrafen Casual User (6-25 Queries/mo)

✅ Verifizierte Claims FÜR Lutum Veritas

  1. Echtes Pay-per-use: Einziges Tool mit UI-Experience ohne Abo-Zwang ($0.05-0.13 je nach Modus)
  2. Keine Limits: Unlimited Queries (nur Budget-begrenzt)
  3. Kein Throttling: Keine Hidden Downgrades, User kontrolliert Modell-Wahl
  4. Freie Modell-Wahl: 200+ Models via OpenRouter/OpenAI/Anthropic/Google/HF
  5. Academic Mode: 45k Zeichen (15% länger als ChatGPT), 129 Quellen, $0.13 (15-40x billiger als ChatGPT API)
  6. Transparenz: Open Source (AGPL-3.0), vollständig einsehbare Methodik
  7. Bessere Quellen-Effizienz: 43-52% genutzt (Normal/Academic) – 2x besser als ChatGPT/Gemini (20-22%)

🥇 Gewinner nach Kategorie

Kategorie Gewinner Begründung
Preis/Leistung (Casual User) Lutum Veritas $0.05-0.13 pro Query – 150-400x billiger als $20 Abo für 1-25 Queries/Monat
Länge/Tiefe (Academic Mode) Lutum Veritas 45.019 Zeichen, 129 Quellen (52% Effizienz) – 15% länger als ChatGPT, 2.6x mehr Output als Normal Mode
Länge/Tiefe (Standard Mode) ChatGPT Plus 38.994 Zeichen (aber ineffizient: 80% Quellen verschwendet)
Geschwindigkeit Perplexity Pro 4-5 Minuten (aber falsche Sprache!)
Transparenz Lutum Veritas Open Source, 43-52% Quellen-Effizienz, exact token tracking, keine Hidden Downgrades
API-Kosten Effizienz Lutum Veritas $0.16/1M tokens blended – 100x günstiger als ChatGPT o1 ($15-60/1M)
Power User (100+ Queries/mo) Perplexity Pro $20/mo flat = $0.067-0.20/Query bei Limit-Ausnutzung (wenn Free Tier nicht reicht)
Schlechteste Option ChatGPT Plus Nur 25 Queries, undocumented downgrades, $0.80/Query, ineffizient (80% Quellen-Verschwendung)
🎯 Bottom Line:

Für 95% der User (1-100 Deep Research/Monat) ist Lutum Veritas die beste Wahl:

Nur extreme Power-User (150+ Queries/Monat) profitieren von Perplexity Free Tier (5/Tag). Perplexity Pro Flatrate ($20/mo) lohnt sich erst ab 300+ Queries/Monat.

ChatGPT Plus ist in allen Szenarien die schlechteste Option: nur 25 Queries, 80% Quellen-Verschwendung, undokumentierte Quality Downgrades, $0.80/Query.