Du willst KI lokal betreiben — ohne Cloud-Abo, ohne Datenschutz-Sorgen, ohne monatliche Rechnung. Die Frage ist: Welche Grafikkarte? Die Antwort überrascht: Es ist keine brandneue RTX 5090 für 2.800 EUR, sondern eine fünf Jahre alte NVIDIA RTX 3090 für rund 1.000 EUR gebraucht. 24 GB VRAM, 131 Tokens pro Sekunde bei 8B-Modellen, und sie lädt 70B-Modelle in quantisierter Form. Hier ist der komplette Guide mit echten Benchmarks, konkreten Modell-Empfehlungen und Gebraucht-Kauftipps.
Warum die RTX 3090 im Jahr 2026 noch relevant ist
Bei lokaler KI-Inferenz zählt genau eine Sache: VRAM. Video-RAM bestimmt, welche Modelle auf deine Grafikkarte passen. Ein 7B-Modell braucht etwa 4-6 GB, ein 32B-Modell 18-22 GB, ein 70B-Modell 35-40 GB. Die RTX 3090 bietet 24 GB GDDR6X — genau der Sweet Spot, in dem die spannendsten Modelle leben.
Die aktuelle RTX 5090 hat zwar 32 GB und ist deutlich schneller, kostet aber 2.800 EUR neu. Die RTX 4090 hat identische 24 GB, ist doppelt so schnell, kostet aber 2.000 EUR gebraucht. Die RTX 3090? Rund 1.000 EUR auf eBay Kleinanzeigen — und sie liefert 80% der Ergebnisse zum halben Preis.
Echte Benchmarks: Was leistet die RTX 3090?
Keine Marketing-Versprechen, sondern gemessene Werte mit Ollama und llama.cpp auf einer Standard-RTX-3090 mit 350W TDP:
Sprachmodelle (Chat, Coding, Reasoning)
| Modell | Größe | Quantisierung | Tokens/Sek | VRAM | Einsatz |
|---|---|---|---|---|---|
| Qwen 3 8B | 8B | Q4_K_M | 131 tok/s | ~6,5 GB | Allround-Chat, schnelle Antworten |
| Qwen 3 30B-A3B MoE | 30B (3B aktiv) | Q4_K_M | 196 tok/s | ~18 GB | Bestes Tempo bei großem Modell! |
| Phi-4 14B | 14B | Q4_K_M | 69 tok/s | ~11 GB | Mathe, Logik, Coding |
| Mistral Nemo 12B | 12B | Q4_K_M | 62 tok/s | ~9,5 GB | Bester EU-Allrounder |
| DeepSeek-R1 14B | 14B | Q4_K_M | 59 tok/s | ~11 GB | Reasoning, Schritt-für-Schritt |
| Qwen 3 32B | 32B | Q4_K_M | 34 tok/s | ~22 GB | Bestes 32B für Consumer-GPU |
| DeepSeek-R1 32B | 32B | Q4_K_M | 34 tok/s | ~22 GB | Reasoning-Champion |
| Gemma 4 26B MoE | 26B (3,8B aktiv) | Q4_K_M | 64-119 tok/s | ~18 GB | Multimodal + Deutsch + schnell |
| Gemma 4 31B | 31B | Q4_K_M | 30-38 tok/s | ~20 GB | Platz 3 weltweit unter Open Source |
Zum Vergleich: ChatGPT generiert etwa 30-80 Tokens pro Sekunde. Die RTX 3090 liefert bei 8B-Modellen 131 tok/s — schneller als die meisten Cloud-Dienste, komplett offline und kostenlos.
Bildgenerierung
| Modell | Auflösung | Zeit pro Bild | Einsatz |
|---|---|---|---|
| Stable Diffusion 3.5 | 1024×1024 | ~8,6 Sek (FP8) | Fotorealistische Bilder |
| SDXL | 1024×1024 | ~5 Sek | Schnelle Bildgenerierung |
| FLUX.1 DEV | 1024×1024 | ~25 Sek (FP8) | Höchste Bildqualität |
Ein Bild in 5-25 Sekunden, komplett lokal — ohne Midjourney-Abo für 10 EUR/Monat. Bei 100 Bildern pro Monat amortisiert sich die GPU allein durch gesparte Abo-Kosten.
Sprache-zu-Text (Transkription)
| Modell | Geschwindigkeit | Einsatz |
|---|---|---|
| Whisper Large V3 | 14,6× Echtzeit | 1 Stunde Audio in ~4 Minuten |
| Faster-Whisper | ~20× Echtzeit | Optimierte Version, noch schneller |
Eine einstündige Meeting-Aufnahme wird in vier Minuten transkribiert — auf Deutsch, Englisch und 95 weiteren Sprachen. Kostenlos, offline, DSGVO-konform.
Was passt auf 24 GB VRAM — und was nicht?
Die goldene Regel: VRAM bestimmt die maximale Modellgröße. Hier die Realität für 24 GB:
| Passt komfortabel | Passt gerade so | Passt NICHT |
|---|---|---|
| Alle 7B-14B Modelle (FP16 oder Q4-Q8) Gemma 4 26B MoE (nur 3,8B aktiv) Qwen 3 30B-A3B MoE Stable Diffusion 3.5, FLUX.1 Whisper Large V3 Piper TTS, XTTS V2 |
32B-Modelle in Q4 (~22 GB) Gemma 4 31B Dense 70B in Q2/Q3 (mit CPU-Offloading, langsam) |
70B in Q4+ (braucht ~40 GB) Llama 4 Scout 109B DeepSeek V3 671B Jedes Modell >35B in FP16 |
Konkrete Empfehlung: Die besten Modelle für die RTX 3090
Du hast eine RTX 3090 — welche Modelle solltest du installieren? Hier ist unser Setup-Vorschlag:
Das Starter-Setup (alle mit ollama run)
1. Alltagschat: ollama run gemma4:26b — Googles Gemma 4 26B MoE. Multimodal (Text + Bild), 64-119 tok/s, Deutsch nativ, ~18 GB VRAM. Details →
2. Coding-Assistent: ollama run qwen2.5-coder:32b — Alibabas Code-Spezialist. Python, JavaScript, Rust, Go. 34 tok/s, füllt die 24 GB gut aus. Details →
3. Reasoning/Mathe: ollama run deepseek-r1:14b — Denkt Schritt für Schritt. 59 tok/s, ideal für komplexe Probleme. Details →
4. Bildgenerierung: Stable Diffusion 3.5 über ComfyUI oder Automatic1111. Ein Bild in 8,6 Sekunden. Details →
5. Transkription: whisper --model large-v3 — 1 Stunde Audio in 4 Minuten. Details →
Gebraucht-Kauftipps: So findest du eine gute RTX 3090
Wo kaufen?
- eBay Kleinanzeigen / kleinanzeigen.de — Größte Auswahl, Preise 900-1.100 EUR. Abholung möglich (Karte vorher testen!)
- eBay mit Käuferschutz — Etwas teurer, aber sicherer bei Versand
- Hardwareluxx-Forum / computerbase.de Marktplatz — Enthusiasten-Community, oft faire Preise
- refurbed.de — Refurbished mit Garantie, aber selten RTX 3090 verfügbar
- Mining-Historie: Viele 3090er kommen aus Krypto-Mining. Das ist nicht automatisch schlecht — Mining belastet die GPU gleichmäßig (besser als Gaming-Zyklen). ABER: Die Thermal Pads sind oft verbraucht.
- Thermal Pads: GDDR6X wird heiß (bis 110°C). Nach Mining unbedingt Pads tauschen — kostet ~15 EUR für Thermalright Odyssey 12,8 W/mK, bringt 20-25°C Verbesserung bei VRAM-Temperaturen.
- 3-Lüfter-Modelle bevorzugen: EVGA FTW3, MSI Suprim X, ASUS ROG Strix sind top. Blower-Designs (Founders Edition) sind lauter und heißer.
- GPU-Z laufen lassen: Frag den Verkäufer nach einem Screenshot mit Betriebsstunden und Seriennummer.
- Netzteil: Mindestens 850W empfohlen. Die 3090 zieht unter Last bis zu 350W.
- XDA Developers: Used RTX 3090 Still Best for Local AI in Value (2026)
- BornCity: NVIDIA RTX 3090 — der ungekrönte KI-König des Gebrauchtmarkts
- GitHub: GPU-Benchmarks-on-LLM-Inference (Benchmark-Daten)
- Awesome Agents: Home GPU LLM Leaderboard
- modelfit.io: RTX 3090 LLM-Benchmarks
- Hardware Corner: QwQ-32B RTX 3090 Benchmark
- FurkanGozukara: Stable Diffusion GPU Benchmarks (RTX 3090 Ti)
- OpenAI Whisper: GPU Performance Discussion #918
- qwertyforce.dev: Optimal Power Limit for RTX 3090
- t3n: Cloud-Kosten explodieren — diese Hardware brauchst du für lokale KI
Worauf achten?
Pad-Dicke nach Modell
| Kartenmodell | VRAM-Pads | VRM-Pads |
|---|---|---|
| Founders Edition | 1,5 mm | 1,5 mm |
| ASUS ROG Strix | 2,0 mm | 2,5 mm |
| EVGA FTW3 | 1,5 mm | 2,0 mm |
| MSI Suprim X | 1,5-2,0 mm | 2,0-2,5 mm |
RTX 3090 vs. RTX 4090 vs. RTX 5090: Der ehrliche Vergleich
| Eigenschaft | RTX 3090 | RTX 4090 | RTX 5090 |
|---|---|---|---|
| VRAM | 24 GB GDDR6X | 24 GB GDDR6X | 32 GB GDDR7 |
| Bandbreite | 936 GB/s | 1.008 GB/s | ~1.792 GB/s |
| Qwen 3 8B Q4 tok/s | ~131 | ~160 | ~250 |
| TDP | 350W | 450W | ~575W |
| Preis (gebraucht/neu) | ~1.000 EUR | ~2.000 EUR | ~2.800 EUR |
| Preis pro tok/s | 7,63 EUR | 12,50 EUR | 11,20 EUR |
| 70B-Modelle möglich? | Q2/Q3 (langsam) | Q2/Q3 (langsam) | Q4 (brauchbar!) |
Fazit: Die RTX 3090 bietet das beste Preis-Leistungs-Verhältnis mit 7,63 EUR pro Token/Sekunde. Die RTX 4090 lohnt sich nur, wenn dir Geschwindigkeit wichtiger ist als Geld. Die RTX 5090 lohnt sich nur, wenn du 70B-Modelle in Q4 brauchst (32 GB vs. 24 GB).
Strom-Tipp: 330W Power-Limit
Die RTX 3090 hat ein Standard-TDP von 350W, aber du kannst sie per Software auf 330W limitieren (nvidia-smi -pl 330). Das spart 3-5°C Temperatur bei nur 5-10% weniger Leistung — der perfekte Sweet Spot für Dauerbetrieb.
Stromkosten-Rechnung: 330W × 8 Stunden/Tag × 30 Tage × 0,35 EUR/kWh = ~27,72 EUR/Monat. Das ist weniger als ein ChatGPT-Plus-Abo (20 EUR) plus ein Midjourney-Abo (10 EUR) — und du hast unbegrenzte Nutzung.
DSGVO-Vorteil: Warum lokal für deutsche Unternehmen ideal ist
Mit einer RTX 3090 und Ollama betreibst du KI-Modelle, bei denen kein einziges Byte dein Netzwerk verlässt. Kein Drittland-Transfer, kein Auftragsverarbeitungsvertrag nötig, keine Datenschutz-Folgenabschätzung für Cloud-KI. Für Unternehmen, die unter der DSGVO und dem ab August 2026 geltenden EU AI Act arbeiten, ist das ein enormer Compliance-Vorteil.
Alle Modelle in unserem Lokale-KI-Vergleich laufen zu 100% offline und haben den DSGVO-Status „Grün".
Unser Fazit
Die NVIDIA RTX 3090 ist im Jahr 2026 die beste Einstiegskarte für lokale KI — nicht trotz ihres Alters, sondern wegen ihres Preises. 24 GB VRAM für ~1.000 EUR gebraucht, 131 Tokens pro Sekunde bei 8B-Modellen, Stable Diffusion in unter 10 Sekunden, Whisper-Transkription in Echtzeit. Dazu volle DSGVO-Konformität und null laufende Kosten außer Strom.
Wer mehr Geschwindigkeit will, greift zur RTX 4090 (2.000 EUR). Wer 70B-Modelle in brauchbarer Qualität braucht, wartet auf eine verfügbare RTX 5090 (2.800 EUR). Aber für 90% aller Anwendungsfälle — Chat, Coding, Bildgenerierung, Transkription — ist die RTX 3090 mehr als genug.
Nächster Schritt: Schau dir unseren Vergleich von 68 lokalen KI-Modellen an und finde heraus, welches Modell zu deinem Anwendungsfall passt. Oder lies unsere komplette GPU-Kaufberatung mit allen 12 empfohlenen Grafikkarten.
Quellen
Dieser Artikel wird regelmäßig aktualisiert. Alle genannten Preise sind Richtwerte von April 2026. Aktuelle GPU-Preise findest du auf Geizhals.de (neu) und Kleinanzeigen.de (gebraucht).