RTX 3090 für lokale KI: Warum eine 5 Jahre alte Grafikkarte der ungeschlagene Preis-Leistungs-König ist

RTX 3090 für lokale KI: Warum eine 5 Jahre alte Grafikkarte der ungeschlagene Preis-Leistungs-König ist

Du willst KI lokal betreiben — ohne Cloud-Abo, ohne Datenschutz-Sorgen, ohne monatliche Rechnung. Die Frage ist: Welche Grafikkarte? Die Antwort überrascht: Es ist keine brandneue RTX 5090 für 2.800 EUR, sondern eine fünf Jahre alte NVIDIA RTX 3090 für rund 1.000 EUR gebraucht. 24 GB VRAM, 131 Tokens pro Sekunde bei 8B-Modellen, und sie lädt 70B-Modelle in quantisierter Form. Hier ist der komplette Guide mit echten Benchmarks, konkreten Modell-Empfehlungen und Gebraucht-Kauftipps.

Warum die RTX 3090 im Jahr 2026 noch relevant ist

Bei lokaler KI-Inferenz zählt genau eine Sache: VRAM. Video-RAM bestimmt, welche Modelle auf deine Grafikkarte passen. Ein 7B-Modell braucht etwa 4-6 GB, ein 32B-Modell 18-22 GB, ein 70B-Modell 35-40 GB. Die RTX 3090 bietet 24 GB GDDR6X — genau der Sweet Spot, in dem die spannendsten Modelle leben.

Die aktuelle RTX 5090 hat zwar 32 GB und ist deutlich schneller, kostet aber 2.800 EUR neu. Die RTX 4090 hat identische 24 GB, ist doppelt so schnell, kostet aber 2.000 EUR gebraucht. Die RTX 3090? Rund 1.000 EUR auf eBay Kleinanzeigen — und sie liefert 80% der Ergebnisse zum halben Preis.

Echte Benchmarks: Was leistet die RTX 3090?

Keine Marketing-Versprechen, sondern gemessene Werte mit Ollama und llama.cpp auf einer Standard-RTX-3090 mit 350W TDP:

Sprachmodelle (Chat, Coding, Reasoning)

ModellGrößeQuantisierungTokens/SekVRAMEinsatz
Qwen 3 8B8BQ4_K_M131 tok/s~6,5 GBAllround-Chat, schnelle Antworten
Qwen 3 30B-A3B MoE30B (3B aktiv)Q4_K_M196 tok/s~18 GBBestes Tempo bei großem Modell!
Phi-4 14B14BQ4_K_M69 tok/s~11 GBMathe, Logik, Coding
Mistral Nemo 12B12BQ4_K_M62 tok/s~9,5 GBBester EU-Allrounder
DeepSeek-R1 14B14BQ4_K_M59 tok/s~11 GBReasoning, Schritt-für-Schritt
Qwen 3 32B32BQ4_K_M34 tok/s~22 GBBestes 32B für Consumer-GPU
DeepSeek-R1 32B32BQ4_K_M34 tok/s~22 GBReasoning-Champion
Gemma 4 26B MoE26B (3,8B aktiv)Q4_K_M64-119 tok/s~18 GBMultimodal + Deutsch + schnell
Gemma 4 31B31BQ4_K_M30-38 tok/s~20 GBPlatz 3 weltweit unter Open Source

Zum Vergleich: ChatGPT generiert etwa 30-80 Tokens pro Sekunde. Die RTX 3090 liefert bei 8B-Modellen 131 tok/s — schneller als die meisten Cloud-Dienste, komplett offline und kostenlos.

Bildgenerierung

ModellAuflösungZeit pro BildEinsatz
Stable Diffusion 3.51024×1024~8,6 Sek (FP8)Fotorealistische Bilder
SDXL1024×1024~5 SekSchnelle Bildgenerierung
FLUX.1 DEV1024×1024~25 Sek (FP8)Höchste Bildqualität

Ein Bild in 5-25 Sekunden, komplett lokal — ohne Midjourney-Abo für 10 EUR/Monat. Bei 100 Bildern pro Monat amortisiert sich die GPU allein durch gesparte Abo-Kosten.

Sprache-zu-Text (Transkription)

ModellGeschwindigkeitEinsatz
Whisper Large V314,6× Echtzeit1 Stunde Audio in ~4 Minuten
Faster-Whisper~20× EchtzeitOptimierte Version, noch schneller

Eine einstündige Meeting-Aufnahme wird in vier Minuten transkribiert — auf Deutsch, Englisch und 95 weiteren Sprachen. Kostenlos, offline, DSGVO-konform.

Was passt auf 24 GB VRAM — und was nicht?

Die goldene Regel: VRAM bestimmt die maximale Modellgröße. Hier die Realität für 24 GB:

Passt komfortabelPasst gerade soPasst NICHT
Alle 7B-14B Modelle (FP16 oder Q4-Q8)
Gemma 4 26B MoE (nur 3,8B aktiv)
Qwen 3 30B-A3B MoE
Stable Diffusion 3.5, FLUX.1
Whisper Large V3
Piper TTS, XTTS V2
32B-Modelle in Q4 (~22 GB)
Gemma 4 31B Dense
70B in Q2/Q3 (mit CPU-Offloading, langsam)
70B in Q4+ (braucht ~40 GB)
Llama 4 Scout 109B
DeepSeek V3 671B
Jedes Modell >35B in FP16

Konkrete Empfehlung: Die besten Modelle für die RTX 3090

Du hast eine RTX 3090 — welche Modelle solltest du installieren? Hier ist unser Setup-Vorschlag:

Das Starter-Setup (alle mit ollama run)

1. Alltagschat: ollama run gemma4:26b — Googles Gemma 4 26B MoE. Multimodal (Text + Bild), 64-119 tok/s, Deutsch nativ, ~18 GB VRAM. Details →

2. Coding-Assistent: ollama run qwen2.5-coder:32b — Alibabas Code-Spezialist. Python, JavaScript, Rust, Go. 34 tok/s, füllt die 24 GB gut aus. Details →

3. Reasoning/Mathe: ollama run deepseek-r1:14b — Denkt Schritt für Schritt. 59 tok/s, ideal für komplexe Probleme. Details →

4. Bildgenerierung: Stable Diffusion 3.5 über ComfyUI oder Automatic1111. Ein Bild in 8,6 Sekunden. Details →

5. Transkription: whisper --model large-v3 — 1 Stunde Audio in 4 Minuten. Details →

Gebraucht-Kauftipps: So findest du eine gute RTX 3090

Wo kaufen?

    • eBay Kleinanzeigen / kleinanzeigen.de — Größte Auswahl, Preise 900-1.100 EUR. Abholung möglich (Karte vorher testen!)
    • eBay mit Käuferschutz — Etwas teurer, aber sicherer bei Versand
    • Hardwareluxx-Forum / computerbase.de Marktplatz — Enthusiasten-Community, oft faire Preise
    • refurbed.de — Refurbished mit Garantie, aber selten RTX 3090 verfügbar

    Worauf achten?

    • Mining-Historie: Viele 3090er kommen aus Krypto-Mining. Das ist nicht automatisch schlecht — Mining belastet die GPU gleichmäßig (besser als Gaming-Zyklen). ABER: Die Thermal Pads sind oft verbraucht.
    • Thermal Pads: GDDR6X wird heiß (bis 110°C). Nach Mining unbedingt Pads tauschen — kostet ~15 EUR für Thermalright Odyssey 12,8 W/mK, bringt 20-25°C Verbesserung bei VRAM-Temperaturen.
    • 3-Lüfter-Modelle bevorzugen: EVGA FTW3, MSI Suprim X, ASUS ROG Strix sind top. Blower-Designs (Founders Edition) sind lauter und heißer.
    • GPU-Z laufen lassen: Frag den Verkäufer nach einem Screenshot mit Betriebsstunden und Seriennummer.
    • Netzteil: Mindestens 850W empfohlen. Die 3090 zieht unter Last bis zu 350W.

    Pad-Dicke nach Modell

    KartenmodellVRAM-PadsVRM-Pads
    Founders Edition1,5 mm1,5 mm
    ASUS ROG Strix2,0 mm2,5 mm
    EVGA FTW31,5 mm2,0 mm
    MSI Suprim X1,5-2,0 mm2,0-2,5 mm

    RTX 3090 vs. RTX 4090 vs. RTX 5090: Der ehrliche Vergleich

    EigenschaftRTX 3090RTX 4090RTX 5090
    VRAM24 GB GDDR6X24 GB GDDR6X32 GB GDDR7
    Bandbreite936 GB/s1.008 GB/s~1.792 GB/s
    Qwen 3 8B Q4 tok/s~131~160~250
    TDP350W450W~575W
    Preis (gebraucht/neu)~1.000 EUR~2.000 EUR~2.800 EUR
    Preis pro tok/s7,63 EUR12,50 EUR11,20 EUR
    70B-Modelle möglich?Q2/Q3 (langsam)Q2/Q3 (langsam)Q4 (brauchbar!)

    Fazit: Die RTX 3090 bietet das beste Preis-Leistungs-Verhältnis mit 7,63 EUR pro Token/Sekunde. Die RTX 4090 lohnt sich nur, wenn dir Geschwindigkeit wichtiger ist als Geld. Die RTX 5090 lohnt sich nur, wenn du 70B-Modelle in Q4 brauchst (32 GB vs. 24 GB).

    Strom-Tipp: 330W Power-Limit

    Die RTX 3090 hat ein Standard-TDP von 350W, aber du kannst sie per Software auf 330W limitieren (nvidia-smi -pl 330). Das spart 3-5°C Temperatur bei nur 5-10% weniger Leistung — der perfekte Sweet Spot für Dauerbetrieb.

    Stromkosten-Rechnung: 330W × 8 Stunden/Tag × 30 Tage × 0,35 EUR/kWh = ~27,72 EUR/Monat. Das ist weniger als ein ChatGPT-Plus-Abo (20 EUR) plus ein Midjourney-Abo (10 EUR) — und du hast unbegrenzte Nutzung.

    DSGVO-Vorteil: Warum lokal für deutsche Unternehmen ideal ist

    Mit einer RTX 3090 und Ollama betreibst du KI-Modelle, bei denen kein einziges Byte dein Netzwerk verlässt. Kein Drittland-Transfer, kein Auftragsverarbeitungsvertrag nötig, keine Datenschutz-Folgenabschätzung für Cloud-KI. Für Unternehmen, die unter der DSGVO und dem ab August 2026 geltenden EU AI Act arbeiten, ist das ein enormer Compliance-Vorteil.

    Alle Modelle in unserem Lokale-KI-Vergleich laufen zu 100% offline und haben den DSGVO-Status „Grün".

    Unser Fazit

    Die NVIDIA RTX 3090 ist im Jahr 2026 die beste Einstiegskarte für lokale KI — nicht trotz ihres Alters, sondern wegen ihres Preises. 24 GB VRAM für ~1.000 EUR gebraucht, 131 Tokens pro Sekunde bei 8B-Modellen, Stable Diffusion in unter 10 Sekunden, Whisper-Transkription in Echtzeit. Dazu volle DSGVO-Konformität und null laufende Kosten außer Strom.

    Wer mehr Geschwindigkeit will, greift zur RTX 4090 (2.000 EUR). Wer 70B-Modelle in brauchbarer Qualität braucht, wartet auf eine verfügbare RTX 5090 (2.800 EUR). Aber für 90% aller Anwendungsfälle — Chat, Coding, Bildgenerierung, Transkription — ist die RTX 3090 mehr als genug.

    Nächster Schritt: Schau dir unseren Vergleich von 68 lokalen KI-Modellen an und finde heraus, welches Modell zu deinem Anwendungsfall passt. Oder lies unsere komplette GPU-Kaufberatung mit allen 12 empfohlenen Grafikkarten.

    Quellen

    1. XDA Developers: Used RTX 3090 Still Best for Local AI in Value (2026)
    2. BornCity: NVIDIA RTX 3090 — der ungekrönte KI-König des Gebrauchtmarkts
    3. GitHub: GPU-Benchmarks-on-LLM-Inference (Benchmark-Daten)
    4. Awesome Agents: Home GPU LLM Leaderboard
    5. modelfit.io: RTX 3090 LLM-Benchmarks
    6. Hardware Corner: QwQ-32B RTX 3090 Benchmark
    7. FurkanGozukara: Stable Diffusion GPU Benchmarks (RTX 3090 Ti)
    8. OpenAI Whisper: GPU Performance Discussion #918
    9. qwertyforce.dev: Optimal Power Limit for RTX 3090
    10. t3n: Cloud-Kosten explodieren — diese Hardware brauchst du für lokale KI

Dieser Artikel wird regelmäßig aktualisiert. Alle genannten Preise sind Richtwerte von April 2026. Aktuelle GPU-Preise findest du auf Geizhals.de (neu) und Kleinanzeigen.de (gebraucht).