RTX 3090 für lokale KI: Warum eine 5 Jahre alte Grafikkarte der ungeschlagene Preis-Leistungs-König ist

Du willst KI lokal betreiben — ohne Cloud-Abo, ohne Datenschutz-Sorgen, ohne monatliche Rechnung. Die Frage ist: Welche Grafikkarte? Die Antwort überrascht: Es ist keine brandneue RTX 5090 für 2.800 EUR, sondern eine fünf Jahre alte NVIDIA RTX 3090 für rund 1.000 EUR gebraucht. 24 GB VRAM, 131 Tokens pro Sekunde bei 8B-Modellen, und sie lädt 70B-Modelle in quantisierter Form. Hier ist der komplette Guide mit echten Benchmarks, konkreten Modell-Empfehlungen und Gebraucht-Kauftipps.

Warum die RTX 3090 im Jahr 2026 noch relevant ist

Bei lokaler KI-Inferenz zählt genau eine Sache: VRAM. Video-RAM bestimmt, welche Modelle auf deine Grafikkarte passen. Ein 7B-Modell braucht etwa 4-6 GB, ein 32B-Modell 18-22 GB, ein 70B-Modell 35-40 GB. Die RTX 3090 bietet 24 GB GDDR6X — genau der Sweet Spot, in dem die spannendsten Modelle leben.

Die aktuelle RTX 5090 hat zwar 32 GB und ist deutlich schneller, kostet aber 2.800 EUR neu. Die RTX 4090 hat identische 24 GB, ist doppelt so schnell, kostet aber 2.000 EUR gebraucht. Die RTX 3090? Rund 1.000 EUR auf eBay Kleinanzeigen — und sie liefert 80% der Ergebnisse zum halben Preis.

Echte Benchmarks: Was leistet die RTX 3090?

Keine Marketing-Versprechen, sondern gemessene Werte mit Ollama und llama.cpp auf einer Standard-RTX-3090 mit 350W TDP:

Sprachmodelle (Chat, Coding, Reasoning)

Modell	Größe	Quantisierung	Tokens/Sek	VRAM	Einsatz
Qwen 3 8B	8B	Q4_K_M	131 tok/s	~6,5 GB	Allround-Chat, schnelle Antworten
Qwen 3 30B-A3B MoE	30B (3B aktiv)	Q4_K_M	196 tok/s	~18 GB	Bestes Tempo bei großem Modell!
Phi-4 14B	14B	Q4_K_M	69 tok/s	~11 GB	Mathe, Logik, Coding
Mistral Nemo 12B	12B	Q4_K_M	62 tok/s	~9,5 GB	Bester EU-Allrounder
DeepSeek-R1 14B	14B	Q4_K_M	59 tok/s	~11 GB	Reasoning, Schritt-für-Schritt
Qwen 3 32B	32B	Q4_K_M	34 tok/s	~22 GB	Bestes 32B für Consumer-GPU
DeepSeek-R1 32B	32B	Q4_K_M	34 tok/s	~22 GB	Reasoning-Champion
Gemma 4 26B MoE	26B (3,8B aktiv)	Q4_K_M	64-119 tok/s	~18 GB	Multimodal + Deutsch + schnell
Gemma 4 31B	31B	Q4_K_M	30-38 tok/s	~20 GB	Platz 3 weltweit unter Open Source

Zum Vergleich: ChatGPT generiert etwa 30-80 Tokens pro Sekunde. Die RTX 3090 liefert bei 8B-Modellen 131 tok/s — schneller als die meisten Cloud-Dienste, komplett offline und kostenlos.

Bildgenerierung

Modell	Auflösung	Zeit pro Bild	Einsatz
Stable Diffusion 3.5	1024×1024	~8,6 Sek (FP8)	Fotorealistische Bilder
SDXL	1024×1024	~5 Sek	Schnelle Bildgenerierung
FLUX.1 DEV	1024×1024	~25 Sek (FP8)	Höchste Bildqualität

Ein Bild in 5-25 Sekunden, komplett lokal — ohne Midjourney-Abo für 10 EUR/Monat. Bei 100 Bildern pro Monat amortisiert sich die GPU allein durch gesparte Abo-Kosten.

Sprache-zu-Text (Transkription)

Modell	Geschwindigkeit	Einsatz
Whisper Large V3	14,6× Echtzeit	1 Stunde Audio in ~4 Minuten
Faster-Whisper	~20× Echtzeit	Optimierte Version, noch schneller

Eine einstündige Meeting-Aufnahme wird in vier Minuten transkribiert — auf Deutsch, Englisch und 95 weiteren Sprachen. Kostenlos, offline, DSGVO-konform.

Was passt auf 24 GB VRAM — und was nicht?

Die goldene Regel: VRAM bestimmt die maximale Modellgröße. Hier die Realität für 24 GB:

Passt komfortabel	Passt gerade so	Passt NICHT
Alle 7B-14B Modelle (FP16 oder Q4-Q8) Gemma 4 26B MoE (nur 3,8B aktiv) Qwen 3 30B-A3B MoE Stable Diffusion 3.5, FLUX.1 Whisper Large V3 Piper TTS, XTTS V2	32B-Modelle in Q4 (~22 GB) Gemma 4 31B Dense 70B in Q2/Q3 (mit CPU-Offloading, langsam)	70B in Q4+ (braucht ~40 GB) Llama 4 Scout 109B DeepSeek V3 671B Jedes Modell >35B in FP16

Konkrete Empfehlung: Die besten Modelle für die RTX 3090

Du hast eine RTX 3090 — welche Modelle solltest du installieren? Hier ist unser Setup-Vorschlag:

Das Starter-Setup (alle mit `ollama run`)

1. Alltagschat: ollama run gemma4:26b — Googles Gemma 4 26B MoE. Multimodal (Text + Bild), 64-119 tok/s, Deutsch nativ, ~18 GB VRAM. Details →

2. Coding-Assistent: ollama run qwen2.5-coder:32b — Alibabas Code-Spezialist. Python, JavaScript, Rust, Go. 34 tok/s, füllt die 24 GB gut aus. Details →

3. Reasoning/Mathe: ollama run deepseek-r1:14b — Denkt Schritt für Schritt. 59 tok/s, ideal für komplexe Probleme. Details →

4. Bildgenerierung: Stable Diffusion 3.5 über ComfyUI oder Automatic1111. Ein Bild in 8,6 Sekunden. Details →

5. Transkription: whisper --model large-v3 — 1 Stunde Audio in 4 Minuten. Details →

Gebraucht-Kauftipps: So findest du eine gute RTX 3090

Wo kaufen?

eBay Kleinanzeigen / kleinanzeigen.de — Größte Auswahl, Preise 900-1.100 EUR. Abholung möglich (Karte vorher testen!)
eBay mit Käuferschutz — Etwas teurer, aber sicherer bei Versand
Hardwareluxx-Forum / computerbase.de Marktplatz — Enthusiasten-Community, oft faire Preise
refurbed.de — Refurbished mit Garantie, aber selten RTX 3090 verfügbar

Worauf achten?

Mining-Historie: Viele 3090er kommen aus Krypto-Mining. Das ist nicht automatisch schlecht — Mining belastet die GPU gleichmäßig (besser als Gaming-Zyklen). ABER: Die Thermal Pads sind oft verbraucht.
Thermal Pads: GDDR6X wird heiß (bis 110°C). Nach Mining unbedingt Pads tauschen — kostet ~15 EUR für Thermalright Odyssey 12,8 W/mK, bringt 20-25°C Verbesserung bei VRAM-Temperaturen.
3-Lüfter-Modelle bevorzugen: EVGA FTW3, MSI Suprim X, ASUS ROG Strix sind top. Blower-Designs (Founders Edition) sind lauter und heißer.
GPU-Z laufen lassen: Frag den Verkäufer nach einem Screenshot mit Betriebsstunden und Seriennummer.
Netzteil: Mindestens 850W empfohlen. Die 3090 zieht unter Last bis zu 350W.

Pad-Dicke nach Modell

Kartenmodell	VRAM-Pads	VRM-Pads
Founders Edition	1,5 mm	1,5 mm
ASUS ROG Strix	2,0 mm	2,5 mm
EVGA FTW3	1,5 mm	2,0 mm
MSI Suprim X	1,5-2,0 mm	2,0-2,5 mm

RTX 3090 vs. RTX 4090 vs. RTX 5090: Der ehrliche Vergleich

Eigenschaft	RTX 3090	RTX 4090	RTX 5090
VRAM	24 GB GDDR6X	24 GB GDDR6X	32 GB GDDR7
Bandbreite	936 GB/s	1.008 GB/s	~1.792 GB/s
Qwen 3 8B Q4 tok/s	~131	~160	~250
TDP	350W	450W	~575W
Preis (gebraucht/neu)	~1.000 EUR	~2.000 EUR	~2.800 EUR
Preis pro tok/s	7,63 EUR	12,50 EUR	11,20 EUR
70B-Modelle möglich?	Q2/Q3 (langsam)	Q2/Q3 (langsam)	Q4 (brauchbar!)

Fazit: Die RTX 3090 bietet das beste Preis-Leistungs-Verhältnis mit 7,63 EUR pro Token/Sekunde. Die RTX 4090 lohnt sich nur, wenn dir Geschwindigkeit wichtiger ist als Geld. Die RTX 5090 lohnt sich nur, wenn du 70B-Modelle in Q4 brauchst (32 GB vs. 24 GB).

Strom-Tipp: 330W Power-Limit

Die RTX 3090 hat ein Standard-TDP von 350W, aber du kannst sie per Software auf 330W limitieren (nvidia-smi -pl 330). Das spart 3-5°C Temperatur bei nur 5-10% weniger Leistung — der perfekte Sweet Spot für Dauerbetrieb.

Stromkosten-Rechnung: 330W × 8 Stunden/Tag × 30 Tage × 0,35 EUR/kWh = ~27,72 EUR/Monat. Das ist weniger als ein ChatGPT-Plus-Abo (20 EUR) plus ein Midjourney-Abo (10 EUR) — und du hast unbegrenzte Nutzung.

DSGVO-Vorteil: Warum lokal für deutsche Unternehmen ideal ist

Mit einer RTX 3090 und Ollama betreibst du KI-Modelle, bei denen kein einziges Byte dein Netzwerk verlässt. Kein Drittland-Transfer, kein Auftragsverarbeitungsvertrag nötig, keine Datenschutz-Folgenabschätzung für Cloud-KI. Für Unternehmen, die unter der DSGVO und dem ab August 2026 geltenden EU AI Act arbeiten, ist das ein enormer Compliance-Vorteil.

Alle Modelle in unserem Lokale-KI-Vergleich laufen zu 100% offline und haben den DSGVO-Status „Grün".

Unser Fazit

Die NVIDIA RTX 3090 ist im Jahr 2026 die beste Einstiegskarte für lokale KI — nicht trotz ihres Alters, sondern wegen ihres Preises. 24 GB VRAM für ~1.000 EUR gebraucht, 131 Tokens pro Sekunde bei 8B-Modellen, Stable Diffusion in unter 10 Sekunden, Whisper-Transkription in Echtzeit. Dazu volle DSGVO-Konformität und null laufende Kosten außer Strom.

Wer mehr Geschwindigkeit will, greift zur RTX 4090 (2.000 EUR). Wer 70B-Modelle in brauchbarer Qualität braucht, wartet auf eine verfügbare RTX 5090 (2.800 EUR). Aber für 90% aller Anwendungsfälle — Chat, Coding, Bildgenerierung, Transkription — ist die RTX 3090 mehr als genug.

Nächster Schritt: Schau dir unseren Vergleich von 68 lokalen KI-Modellen an und finde heraus, welches Modell zu deinem Anwendungsfall passt. Oder lies unsere komplette GPU-Kaufberatung mit allen 12 empfohlenen Grafikkarten.

Quellen

Dieser Artikel wird regelmäßig aktualisiert. Alle genannten Preise sind Richtwerte von April 2026. Aktuelle GPU-Preise findest du auf Geizhals.de (neu) und Kleinanzeigen.de (gebraucht).

---

Quellen:

The Decoder
heise online: Künstliche Intelligenz
t3n Magazin
Offizielle Ankündigungen der genannten Unternehmen

RTX 3090 für lokale KI: Warum eine 5 Jahre alte Grafikkarte der ungeschlagene Preis-Leistungs-König ist

Warum die RTX 3090 im Jahr 2026 noch relevant ist

Echte Benchmarks: Was leistet die RTX 3090?

Sprachmodelle (Chat, Coding, Reasoning)

Bildgenerierung

Sprache-zu-Text (Transkription)

Was passt auf 24 GB VRAM — und was nicht?

Konkrete Empfehlung: Die besten Modelle für die RTX 3090

Das Starter-Setup (alle mit `ollama run`)

Gebraucht-Kauftipps: So findest du eine gute RTX 3090

Wo kaufen?

Worauf achten?

Pad-Dicke nach Modell

RTX 3090 vs. RTX 4090 vs. RTX 5090: Der ehrliche Vergleich

Strom-Tipp: 330W Power-Limit

DSGVO-Vorteil: Warum lokal für deutsche Unternehmen ideal ist

Unser Fazit

Quellen

🤖 Passende KI-Tools zum Artikel

Claude

HeyGen

Fireflies

Luma Dream Machine

Claude Pro

Aidoc Medical Imaging

Warum die RTX 3090 im Jahr 2026 noch relevant ist

Echte Benchmarks: Was leistet die RTX 3090?

Sprachmodelle (Chat, Coding, Reasoning)

Bildgenerierung

Sprache-zu-Text (Transkription)

Was passt auf 24 GB VRAM — und was nicht?

Konkrete Empfehlung: Die besten Modelle für die RTX 3090

Das Starter-Setup (alle mit ollama run)

Gebraucht-Kauftipps: So findest du eine gute RTX 3090

Wo kaufen?

Worauf achten?

Pad-Dicke nach Modell

RTX 3090 vs. RTX 4090 vs. RTX 5090: Der ehrliche Vergleich

Strom-Tipp: 330W Power-Limit

DSGVO-Vorteil: Warum lokal für deutsche Unternehmen ideal ist

Unser Fazit

Quellen

🤖 Passende KI-Tools zum Artikel

Claude

HeyGen

Fireflies

Luma Dream Machine

Claude Pro

Aidoc Medical Imaging

KI-Tool der Woche

Das Starter-Setup (alle mit `ollama run`)