Katalog

Modelle

32 Modelle im Vergleich. Preise beziehen sich auf die Standard-API-Tarife der Anbieter (Stand: wie angegeben).

32 Modelle gefunden

Claude Opus 4.7
Anthropic

Flagship-Modell von Anthropic. Stärken bei tiefem Reasoning, langen Kontexten und agentischen Workflows. Veröffentlicht am 16. April 2026.

Kontext

1M

In $/MT

5

Out $/MT

25

DSGVO: teilweise
GPT-5
OpenAI

Basis-Modell der GPT-5-Familie von OpenAI. 2026 sind die weiter- entwickelten Varianten GPT-5.1, GPT-5.2 und GPT-5.4 über die API verfügbar - GPT-5 selbst dient als Einstiegspunkt der Familie.

Kontext

-

In $/MT

-

Out $/MT

-

DSGVO: teilweise
Llama 4 Scout
Meta

Kompakte Variante der Llama-4-Familie, am 5. April 2025 öffentlich gestartet. Nativ multimodal (Text + Bild), MoE-Architektur mit 17B aktiven Parametern aus 109B Total und 16 Experts. Branchenführend beim Kontextfenster mit 10 Mio. Tokens - der Sprung von 128K (Llama 3) ist die markanteste Neuerung. Passt damit auf eine einzelne H100 mit ausreichend RAM und ist auf 12 Sprachen multilingual trainiert. Trainingskorpus rund 40 Billionen Tokens.

Kontext

10M

In $/MT

0.18

Out $/MT

0.59

DSGVO: teilweise
Gemini 2.5 Pro
Google

Googles Frontier-Modell der 2.5-Familie mit nativem 2M-Token-Kontext, Reasoning-Mode und multimodalem Input - Text, Bild, Audio, Video.

Kontext

2M

In $/MT

1.25

Out $/MT

10

DSGVO: teilweise
Gemini 1.5 Flash-8B
Google

Kompaktes 8-Milliarden-Parameter-Modell der Flash-Serie, seit 3. Oktober 2024 produktiv verfügbar. Behält das 1-Million-Token- Kontextfenster aus der 1.5-Familie und ist mit 0,0375 / 0,15 USD pro Million Tokens das günstigste mainstream-Modell am Markt. Optimiert für hohes Volumen, Low-Latency und multimodale Workloads wie Chat, Transkription, Übersetzung und Zusammenfassung. Im Gemini-2.5-Zyklus (ab 2026) wurde kein dediziertes 8B-Flash nachgezogen - Flash-Lite deckt die Rolle heute ab.

Kontext

1.0M

In $/MT

0.0375

Out $/MT

0.15

DSGVO: teilweise
GPT-4.1 nano
OpenAI

Kleinste und schnellste Variante der GPT-4.1-Familie, ebenfalls am 14. April 2025 gestartet. Trotz kleinster Größe behält GPT-4.1 nano das 1M-Token-Kontextfenster und übertrifft GPT-4o mini auf MMLU (80,1 %) sowie bei Coding (Aider polyglot 9,8 %). Bei 0,10 / 0,40 USD pro Million Tokens ist es das günstigste OpenAI-Modell im API. Positioniert für Autocomplete, Klassifikation und Extraktion aus langen Dokumenten - nicht für Reasoning oder kreatives Schreiben.

Kontext

1.0M

In $/MT

0.1

Out $/MT

0.4

DSGVO: teilweise
Claude Sonnet 4
Anthropic

Mittleres Modell der Claude-4-Familie, am 22. Mai 2025 gestartet. Im August 2025 brachte Anthropic mit Sonnet 4 das erste 1-Million-Token-Kontextfenster in die Claude-Produktion. Preislich liegt Sonnet 4 bei 3 / 15 USD pro Million Tokens und damit deutlich unter Opus. Starke Wahl für Produktivcode, Agent-Schleifen und lange Dokument-Analysen, ohne den Opus-Aufpreis. Ersetzt bei den meisten Workloads das frühere Claude 3.5 Sonnet ohne spürbaren Qualitätsverlust.

Kontext

1M

In $/MT

3

Out $/MT

15

DSGVO: teilweise
Gemini 2.5 Flash
Google

Schnelle Variante der Gemini-2.5-Familie. Sehr niedriger Preis, hohe Throughput-Kapazität, eingeschränktes Reasoning.

Kontext

1M

In $/MT

0.3

Out $/MT

2.5

DSGVO: teilweise
GPT-4.1
OpenAI

OpenAIs Update der 4er-Familie mit erweiterten Kontextfenstern (1M Tokens) und besserer Instruction-Following. Zwischenschritt zu GPT-5.

Kontext

1M

In $/MT

2

Out $/MT

8

DSGVO: teilweise
GPT-4.1 mini
OpenAI

Mittlere Variante der GPT-4.1-Familie, am 14. April 2025 gestartet. Das 1-Million-Token-Kontextfenster aus dem Flagship steht hier zum Bruchteil des Preises bereit: 0,40 / 1,60 USD pro Million Tokens. In OpenAIs internen Evals erreicht GPT-4.1 mini die Qualität von GPT-4o bei rund 50 % der Latenz und 83 % geringeren Kosten. Damit ist es das Default-Arbeitspferd für die meisten Produktiv-Workloads ohne Reasoning-Anforderung.

Kontext

1M

In $/MT

0.4

Out $/MT

1.6

DSGVO: teilweise
Llama 4 Maverick
Meta

Metas Open-Weight-Flaggschiff der 4er-Familie. Mixture-of-Experts-Architektur, auch für Self-Hosting geeignet. Lizenz mit Einschränkungen.

Kontext

1M

In $/MT

-

Out $/MT

-

DSGVO: ja
Qwen 3
Alibaba

Qwen-3-Modellfamilie von Alibaba Cloud, am 28./29. April 2025 veröffentlicht. Deckt dichte Modelle (0,6B / 1,7B / 4B / 8B / 14B / 32B) und MoE-Varianten (30B-A3B, 235B-A22B) ab - alle unter Apache 2.0. Hybrider Reasoning-Modus mit bis zu 38K Thinking-Tokens. Qwen3 Max (Cloud-Flagship) bietet 262K Kontext zu 0,78 / 3,90 USD pro Million Tokens; die spätere 2507-Variante kann sogar 1 Mio. Tokens verarbeiten. Stärkste offen-lizenzierte Familie aus China Anfang 2026.

Kontext

262K

In $/MT

0.78

Out $/MT

3.9

DSGVO: teilweise
Codestral
Mistral AI

Mistrals Code-Spezialist, erstmals am 29. Mai 2024 gestartet und mit Version 25.01 sowie Codestral 2508 (August 2025) deutlich weiterentwickelt. Trainiert auf über 80 Programmiersprachen, heute mit 256K Kontextfenster - genug, um größere Codebases im Prompt zu verarbeiten. Preislich bei 0,30 / 0,90 USD pro Million Tokens und damit deutlich günstiger als Claude Sonnet 4 oder GPT-4.1. Seit 2025 auch in Azure AI Foundry verfügbar.

Kontext

256K

In $/MT

0.3

Out $/MT

0.9

DSGVO: ja
Jamba 1.5 Large
AI21 Labs

Hybrid-Architektur-Modell von AI21 Labs, am 22. August 2024 veröffentlicht. Verbindet Transformer mit Mamba-State-Space-Layern und Mixture-of-Experts - 398B Total / 94B aktiv pro Token. 256K Kontext, der laut RULER-Benchmark auch tatsächlich nutzbar bleibt (kein Quality-Drop in den hinteren Bereichen). Bei 2 / 8 USD pro Million Tokens preislich auf Niveau von o3, dafür aber mit dem in der Praxis am längsten validierten Kontextfenster.

Kontext

256K

In $/MT

2

Out $/MT

8

DSGVO: teilweise
Claude Haiku 4.5
Anthropic

Schnellstes und günstigstes Claude-4-Modell. Für Latenz-kritische oder High-Volume-Workflows - Zusammenfassungen, Klassifikation, schnelle Antworten.

Kontext

200K

In $/MT

1

Out $/MT

5

DSGVO: teilweise
Claude Sonnet 4.6
Anthropic

Mittlere Stufe der Claude-4-Familie: starke Allround-Qualität zu deutlich niedrigeren Kosten als Opus. Arbeitstier für Chat- und Code-Workflows.

Kontext

200K

In $/MT

3

Out $/MT

15

DSGVO: teilweise
o3
OpenAI

OpenAIs Reasoning-Flagship der o-Serie, am 16. April 2025 allgemein verfügbar geworden. Nutzt interne "Thinking-Tokens" und chain-of- thought-Reasoning, um komplexe Aufgaben in Code, Mathematik, Wissen- schaft und visueller Analyse zu lösen. Im Juni 2025 hat OpenAI die API-Preise um 80 % gesenkt, damit liegt o3 jetzt bei 2 / 8 USD pro Million Tokens - mit Cached-Input-Rabatt auf 0,50 USD. Für produktive Reasoning-Workloads und Agent-Schleifen, bei denen Tiefe wichtiger ist als Geschwindigkeit.

Kontext

200K

In $/MT

2

Out $/MT

8

DSGVO: teilweise
o4-mini
OpenAI

Kompakte Reasoning-Variante der o-Serie, gleichzeitig mit o3 am 16. April 2025 gestartet. Behält das 200K-Kontextfenster und den Chain-of-Thought-Modus, ist aber schneller und günstiger als o3 (1,10 / 4,40 USD vs. 2 / 8 USD pro Million Tokens). Besonders stark bei Coding-Aufgaben mit visuellem Input wie Screenshot- basierte UI-Analysen. Damit ist o4-mini das Mittelklasse-Reasoning- Modell für Agent-Workloads, bei denen pro Iteration gerechnet wird.

Kontext

200K

In $/MT

1.1

Out $/MT

4.4

DSGVO: teilweise
DeepSeek V3 0324
DeepSeek

Mixture-of-Experts-Allzweckmodell von DeepSeek, am 24. März 2025 als „minor update" angekündigt - und im Vergleich zu V3 (Dezember 2024) bei Coding, Mathematik und Reasoning deutlich verbessert. 685B Gesamtparameter, 37B aktiv pro Token, 131K Kontext. Preis liegt bei rund 0,27 / 1,10 USD pro Million Tokens (DeepSeek-API), über OpenRouter teils noch günstiger. Bleibt das stärkste offene Allzweck-Chat-Modell Anfang 2026, vor Llama 4 und Qwen 3.

Kontext

131K

In $/MT

0.27

Out $/MT

1.1

DSGVO: nein
Mistral Medium 3
Mistral AI

Europäisches Mittelklasse-Modell von Mistral AI, am 7. Mai 2025 gestartet und mit 3.1 am 12. August 2025 auf Multimodalität erweitert. 131K Kontextfenster, Text- und Bildeingabe, 0,40 / 2,00 USD pro Million Tokens. Preislich ähnelt es GPT-4.1 mini, kommt aber aus einer EU-Firma mit europäischer Infrastruktur - für DSGVO-sensible Produkte oft die pragmatischste Alternative zu OpenAI oder Anthropic.

Kontext

131K

In $/MT

0.4

Out $/MT

2

DSGVO: ja
Qwen 2.5 Coder 32B
Alibaba

Code-Spezialist der Qwen-2.5-Familie, am 11. November 2024 veröffentlicht. 32 Milliarden Parameter, trainiert auf 5,5 Billionen Code-Tokens über 92 Programmiersprachen. 128K Kontext (bei einigen Hostern bis 131K), Apache-2.0-Lizenz auf den Gewichten. Auf Aiders Code-Editing-Benchmark Platz 4 (73,7 %) - direkt hinter Claude 3.5 Sonnet zur Release-Zeit. Bleibt 2026 das stärkste Open-Weight-Code- Modell unter 70B Parametern.

Kontext

131K

In $/MT

0.66

Out $/MT

0.8

DSGVO: teilweise
Command R+
Cohere

Enterprise-Sprachmodell von Cohere, am 4. April 2024 vorgestellt und mit der Aktualisierung Command R+ 08-2024 (30. August 2024) spürbar schneller. 104B Parameter, 128K Kontext, fokussiert auf Retrieval-Augmented Generation (RAG), Tool-Use und Multilingualität. Bei 2,50 / 10 USD pro Million Tokens deutlich teurer als die Mainstream-Open-Source-Alternativen, dafür aber mit dokumentierter Enterprise-Compliance und EU-Datenresidenz über Cohere-Cloud.

Kontext

128K

In $/MT

2.5

Out $/MT

10

DSGVO: ja
DeepSeek V3
DeepSeek

Chinesisches Open-Weight-Modell mit Mixture-of-Experts-Architektur. Hohe Benchmark-Werte bei Bruchteil der Frontier-Preise - mit DSGVO-Problemen bei gehostetem Dienst.

Kontext

128K

In $/MT

0.27

Out $/MT

1.1

DSGVO: nein
GPT-4o
OpenAI

Multimodales Flaggschiffmodell von OpenAI: Text, Bild, Audio nativ. Gute Balance aus Geschwindigkeit, Qualität und Preis.

Kontext

128K

In $/MT

2.5

Out $/MT

10

DSGVO: teilweise
GPT-4o mini
OpenAI

Multimodales Kostenmodell von OpenAI, im Juli 2024 veröffentlicht. Verarbeitet Text und Bild im API, mit 128K Kontext und bis zu 16K Output-Tokens pro Request. Mit 0,15 USD pro Million Input-Tokens liegt der Preis um Faktor 60 unter GPT-4o, bei vergleichbarer Qualität für einfache Klassifizierung, Zusammenfassung und Chat. Bleibt 2026 das Standard-Kostenmodell, ist aber bei Coding und langen Kontexten von GPT-4.1 mini abgehängt worden.

Kontext

128K

In $/MT

0.15

Out $/MT

0.6

DSGVO: teilweise
Grok 3
xAI

xAIs Frontier-Modell der 3er-Familie. Realtime-Zugriff auf X-Posts, ordentliche Reasoning-Benchmarks, weniger restriktive Content-Policies.

Kontext

128K

In $/MT

3

Out $/MT

15

DSGVO: teilweise
Mistral Large
Mistral AI

Mistral AIs Top-Tier-Modell - europäisches Flaggschiff mit API-Zugang und starker Performance in europäischen Sprachen.

Kontext

128K

In $/MT

2

Out $/MT

6

DSGVO: ja
DeepSeek R1
DeepSeek

Reasoning-Modell von DeepSeek, am 20. Januar 2025 veröffentlicht und als erstes chinesisches Open-Weight-Modell mit echter o1-Klasse- Performance bekannt geworden. 671B Parameter im Mixture-of-Experts- Aufbau, davon 37B aktiv pro Token. 64K Kontext, bis 32K Reasoning-Tokens. Preislich bei 0,55 / 2,19 USD pro Million Tokens - rund 27× günstiger als OpenAI o1 zum Release. Verfügbar als gewichts-freies Modell (MIT-Lizenz auf Code, freie Gewichte) und über die DeepSeek-API.

Kontext

64K

In $/MT

0.55

Out $/MT

2.19

DSGVO: nein
Mistral Small 3
Mistral AI

24-Milliarden-Parameter-Modell unter Apache-2.0-Lizenz, am 30. Januar 2025 veröffentlicht. Optimiert für Latenz und lokalen Betrieb, 32K Kontext, 0,10 / 0,30 USD pro Million Tokens via Mistral-API. Da es unter Apache 2.0 steht, kann Mistral Small 3 auch vollständig on-prem betrieben werden - ein Alleinstellungsmerkmal im Vergleich zu OpenAI, Anthropic oder Google. Damit deckt es zwei Szenarien ab: günstige Cloud-API und souveräne Eigenbetriebs-Installationen.

Kontext

33K

In $/MT

0.1

Out $/MT

0.3

DSGVO: ja
Phi-4
Microsoft

Microsofts Small-Language-Model der Phi-Reihe, im Dezember 2024 veröffentlicht. 14 Milliarden Parameter, fokussiert auf komplexes Reasoning bei Mathematik, Wissenschaft und Code - trainiert überwiegend auf hochqualitativen synthetischen Daten. Phi-4 übertrifft bei MATH und GPQA deutlich größere Modelle und ist über Azure AI Foundry sowie Hugging Face verfügbar (MIT-Lizenz). Bei 0,13 / 0,50 USD pro Million Tokens eines der günstigsten Reasoning-Modelle westlicher Anbieter.

Kontext

16K

In $/MT

0.13

Out $/MT

0.5

DSGVO: ja
DALL·E 3
OpenAI

Text-zu-Bild-Modell von OpenAI, im Oktober 2023 öffentlich gestartet. Deutlich besseres Prompt-Verständnis als DALL·E 2 - vor allem bei längeren Anweisungen, Text in Bildern und schwierigen Details wie Händen. Tief integriert in ChatGPT (Plus, Team, Enterprise) und über die Bilder-API verfügbar. Nicht token-, sondern bild-basiert abgerechnet (0,04 USD pro Standard-1024², 0,08 USD HD oder größer). Lehnt automatisch Bilder ab, die lebende Personen oder lebende Künstler nachahmen.

Kontext

-

In $/MT

0

Out $/MT

0

DSGVO: teilweise
Stable Diffusion 3.5
Stability AI

Open-Weight-Bildmodell-Familie von Stability AI, am 22. Oktober 2024 veröffentlicht (Large + Large Turbo, Medium am 29. Oktober 2024). MMDiT-X-Architektur mit verbessertem Text-Rendering und besserer Prompt-Treue gegenüber SD 3. Drei Varianten: Large (8,1 Mrd. Parameter) für höchste Qualität, Large Turbo (4 Schritte) für Geschwindigkeit und Medium (2,5 Mrd. Parameter) für Consumer-Hardware. Lizenzkosten- frei bis 1 Mio. USD Jahresumsatz, darüber Enterprise-Lizenz von Stability AI nötig.

Kontext

-

In $/MT

0

Out $/MT

0

DSGVO: ja