Gemini 1.5 Flash-8B

Google · Gemini 1.5

Zuletzt geprüft 23. April 2026

Kompaktes 8-Milliarden-Parameter-Modell der Flash-Serie, seit 3. Oktober 2024 produktiv verfügbar. Behält das 1-Million-Token- Kontextfenster aus der 1.5-Familie und ist mit 0,0375 / 0,15 USD pro Million Tokens das günstigste mainstream-Modell am Markt. Optimiert für hohes Volumen, Low-Latency und multimodale Workloads wie Chat, Transkription, Übersetzung und Zusammenfassung. Im Gemini-2.5-Zyklus (ab 2026) wurde kein dediziertes 8B-Flash nachgezogen - Flash-Lite deckt die Rolle heute ab.

Verfügbar über Vertex AI mit EU-Regionen (Frankfurt u. a.). Die AI-Studio-Direktzugriffe laufen über Google-Cloud-US-Ressourcen.

Stärken

  • Branchentiefpreis 0,0375 / 0,15 USD pro Mio. Tokens
  • 1M-Token-Kontext trotz 8B-Parametern
  • Cached-Prompt-Preis 0,01 USD pro Mio. Tokens
  • Nativ multimodal (Text, Bild, Audio) über Gemini-Plattform

Schwächen

  • Deutlich schwächer als Flash 1.5 (30B+) bei komplexem Reasoning
  • Keine 2.5-Nachfolgegeneration im 8B-Segment mehr gepflegt
  • Output-Länge begrenzt, für lange Analyse-Texte ungeeignet

Flash-8B ist Googles Antwort auf GPT-4.1 nano: ein Kleinstmodell mit 1M-Kontext und Tiefstpreis. Gegenüber GPT-4.1 nano (0,10 / 0,40 USD) ist Flash-8B rund 2,5× günstiger, hat ein leicht größeres Kontextfenster und ist nativ multimodal. Für Embedding-ähnliche Massen-Klassifikation oder Low-Latency-Chat ist es 2026 immer noch eine rationale Wahl - allerdings pflegt Google die Linie seit dem 2.5-Launch nicht mehr aktiv, Flash-Lite 2.5 ist der strategische Nachfolger.