Chatbot Arena Update: Claude Opus 4.7 übernimmt Spitze, GPT-5-Pro rückt nach

release · 24. April 2026 · LMSYS

Zuletzt geprüft 24. April 2026

Das LMSYS Chatbot Arena Leaderboard - der wichtigste Community- basierte Benchmark für LLMs - hat heute den April-Update veröffentlicht. Claude Opus 4.7 (Anthropic, Release 22. April) hat sich in der Kategorie „Hard Prompts” auf Platz 1 gesetzt. GPT-5-Pro (OpenAI) folgt mit knappem Abstand und hält in der Kategorie „Coding” die Führung.

Nach Anbieter-Angaben von LMSYS basiert das Ranking auf über 2 Millionen anonymer Vergleichsbewertungen, die Nutzer direkt vergeben. Das macht Arena zu einem der wenigen Benchmarks, die sich nicht gaming lassen - weder durch spezielle Training-Data noch durch Test-Set-Kontamination.

Was für Lakis-Leser relevant ist: Die Benchmark-Unterschiede zwischen den Top-Modellen sind klein und aufgabenspezifisch. Claude Opus 4.7 glänzt bei langen Dokumenten und mehrstufigen Überlegungen; GPT-5 bei Code-Aufgaben und strukturierten Workflows; Gemini 2.5 Pro in multimodalen Szenarien und bei Google-Workspace-nahen Aufgaben. Die Wahl des „besten Modells” ist 2026 mehr denn je eine Frage des konkreten Use-Cases.

Einschränkung: Arena-Rankings sind ein Indikator, aber keine vollständige Entscheidungsbasis. Sie messen, wie Nutzer in einem kurzen Side-by-Side-Test entscheiden - das korreliert nicht zwangsläufig mit produktiver Nutzung über Wochen. Für Enterprise-Deployments bleibt der Benchmark-Datensatz nur einer von mehreren Inputs - Latenz, Kosten, DSGVO-Konformität und Support- Qualität sind oft entscheidender als 15 Punkte Arena-ELO-Differenz.

Chatbot Arena Update: Claude Opus 4.7 übernimmt Spitze, GPT-5-Pro rückt nach

Dazu passend

Anthropic Docs: MCP-Skills als eigenständiger Primitiv dokumentiert

Anthropic veröffentlicht Claude 4.7 - 1M-Kontext für Opus-Tier

Artificial Analysis Report: Modell-Kosten im April 2026

Suche nicht nur nach Seiten. Suche nach einer Entscheidung.