Gemini 1.5 Flash-8B

Google · Gemini 1.5

Zuletzt geprüft 23. April 2026

Kompaktes 8-Milliarden-Parameter-Modell der Flash-Serie, seit 3. Oktober 2024 produktiv verfügbar. Behält das 1-Million-Token- Kontextfenster aus der 1.5-Familie und ist mit 0,0375 / 0,15 USD pro Million Tokens das günstigste mainstream-Modell am Markt. Optimiert für hohes Volumen, Low-Latency und multimodale Workloads wie Chat, Transkription, Übersetzung und Zusammenfassung. Im Gemini-2.5-Zyklus (ab 2026) wurde kein dediziertes 8B-Flash nachgezogen - Flash-Lite deckt die Rolle heute ab.

Verfügbar über Vertex AI mit EU-Regionen (Frankfurt u. a.). Die AI-Studio-Direktzugriffe laufen über Google-Cloud-US-Ressourcen.

Stärken

Branchentiefpreis 0,0375 / 0,15 USD pro Mio. Tokens
1M-Token-Kontext trotz 8B-Parametern
Cached-Prompt-Preis 0,01 USD pro Mio. Tokens
Nativ multimodal (Text, Bild, Audio) über Gemini-Plattform

Schwächen

Deutlich schwächer als Flash 1.5 (30B+) bei komplexem Reasoning
Keine 2.5-Nachfolgegeneration im 8B-Segment mehr gepflegt
Output-Länge begrenzt, für lange Analyse-Texte ungeeignet

Flash-8B ist Googles Antwort auf GPT-4.1 nano: ein Kleinstmodell mit 1M-Kontext und Tiefstpreis. Gegenüber GPT-4.1 nano (0,10 / 0,40 USD) ist Flash-8B rund 2,5× günstiger, hat ein leicht größeres Kontextfenster und ist nativ multimodal. Für Embedding-ähnliche Massen-Klassifikation oder Low-Latency-Chat ist es 2026 immer noch eine rationale Wahl - allerdings pflegt Google die Linie seit dem 2.5-Launch nicht mehr aktiv, Flash-Lite 2.5 ist der strategische Nachfolger.

Ctrl K

Frag Lakis.ai

Suche nicht nur nach Seiten. Suche nach einer Entscheidung.

Suche über Tools, Modelle, Tutorials, News, MCP und Vergleiche hinweg. Die Lakis.ai Suche ist jetzt der Einstieg in den Navigator.