GPU-Kaufberatung für lokale KI 2026
Welche Grafikkarte brauchst du für lokale KI-Modelle? Aktuelle Preise, VRAM-Empfehlungen und Gebraucht-Tipps. Ehrlich, praxisnah, ohne Affiliate-Links.
Schnellempfehlung nach Budget
0 EUR — Nur CPU
Kein Geld? Kein Problem. Mit Ollama laufen 1B-7B Modelle auch auf der CPU. Langsam (2-5 Tokens/s), aber es funktioniert.
Modelle: Phi-4, Gemma 2 (9B), Llama 3.2 (3B)
Voraussetzung: 16 GB RAM minimum
200-400 EUR — Einstieg
Gebrauchte RTX 3060 12GB (~200 EUR) oder RTX 3080 10GB (~350 EUR). Reicht für 7B-Modelle in guter Geschwindigkeit.
Modelle: Alle 7B, Mistral Nemo (12B) quantisiert
900-1.100 EUR — Sweet Spot
Gebrauchte RTX 3090 24GB (~1.000 EUR). Der beste Preis/Leistungs-Tipp! 24 GB VRAM für 7B-30B Modelle, 70B quantisiert möglich.
Modelle: Alle bis 30B, Llama 3.3 70B in Q4
1.800-2.200 EUR — Pro
Gebrauchte RTX 4090 24GB (~2.000 EUR). Gleicher VRAM wie 3090, aber doppelt so schnell. Für ernsthafte Nutzung.
Modelle: Wie 3090, aber deutlich schnellere Inferenz
2.500+ EUR — Maximum
Neue RTX 5090 32GB (~2.800 EUR) oder 2x RTX 3090 (~2.000 EUR für 48 GB). Für 70B in Vollqualität.
Modelle: 70B+ ohne Quantisierung, 405B quantisiert
GPU-Vergleich mit aktuellen Preisen
Preise: Stand April 2026, Gebrauchtpreise ca.-Werte von eBay Kleinanzeigen / refurbed.de
| GPU | VRAM | Neu | Gebraucht | TDP | Max. Modellgröße | Einschätzung |
|---|---|---|---|---|---|---|
| NVIDIA RTX 3060 12GB Ampere |
12 GB | 280 EUR | ~200 EUR | 170 W | 7B, 13B (Q4) |
Einstieg mit 12 GB VRAM — reicht für 7B-Modelle flüssig Gebraucht auf Kleinanzeigen ~200 EUR, oft ex-Mining — Lüfter prüfen |
| NVIDIA RTX 3080 10GB Ampere |
10 GB | — | ~350 EUR | 320 W | 7B, 13B (Q3) |
Schnell, aber nur 10 GB VRAM begrenzt die Modellgröße Für LLMs besser RTX 3060 12GB (mehr VRAM) oder gleich 3090 |
| NVIDIA RTX 3080 Ti 12GB Ampere |
12 GB | — | ~400 EUR | 350 W | 7B, 13B (Q4) |
Schneller als 3060 bei gleichem VRAM, aber teurer und stromhungriger Thermal Pads bei GDDR6X prüfen, 3-Lüfter-Modelle bevorzugen |
| NVIDIA RTX 3090 24GB Ampere |
24 GB | — | ~1,000 EUR | 350 W | 7B, 13B, 30B, 70B (Q4) |
PREIS-LEISTUNGS-KÖNIG! 24 GB VRAM für ~1.000 EUR — bester Deal für lokale KI Kleinanzeigen/eBay ~900-1.100 EUR, Thermal Pads erneuern (~15 EUR), 3-Lüfter bevorzugen |
| NVIDIA RTX 4060 Ti 16GB Ada Lovelace |
16 GB | 480 EUR | ~380 EUR | 165 W | 7B, 13B (Q5), 30B (Q3) |
Stromsparend (165W) mit 16 GB — für leisen Dauer-KI-Betrieb ideal Neu bei Mindfactory/Alternate, schmaler Speicherbus limitiert Bandbreite |
| NVIDIA RTX 4070 Ti Super 16GB Ada Lovelace |
16 GB | 800 EUR | ~650 EUR | 285 W | 7B, 13B (Q5), 30B (Q4) |
Solide Mittelklasse, deutlich schneller als 4060 Ti bei gleichem VRAM Gebraucht ~650 EUR, gutes Preis-Leistungs-Verhältnis in der 16GB-Klasse |
| AMD Radeon RX 7900 XTX 24GB RDNA 3 |
24 GB | 950 EUR | ~700 EUR | 355 W | 7B-13B (FP16), 30B (Q4) |
24 GB günstiger als RTX 4090, ABER: ROCm weniger ausgereift als CUDA Nur empfehlenswert wenn du ausschließlich Ollama/llama.cpp nutzt |
| NVIDIA RTX 4090 24GB Ada Lovelace |
24 GB | 2,100 EUR | ~2,000 EUR | 450 W | 7B-13B (FP16), 30B (Q5), 70B (Q3) |
Wie 3090 (24 GB) aber DOPPELT so schnell — für ernsthafte tägliche Nutzung Gebraucht ~2.000 EUR, auf Original-Stromadapter achten (Brandgefahr bei billigen) |
| NVIDIA RTX 5090 32GB Blackwell |
32 GB | 2,800 EUR | — | 575 W | 7B-30B (FP16), 70B (Q4) |
32 GB GDDR7 — erstmals 70B in Q4 auf EINER Consumer-GPU! Zukunftssicher Neu ~2.800 EUR, schwer verfügbar, Netzteil mind. 1000W nötig |
| Apple M4 Pro 48GB Apple Silicon |
48 GB | 2,900 EUR | ~2,400 EUR | 70 W | 7B-13B (FP16), 30B (Q4), 70B (Q3) |
48 GB Unified Memory im MacBook Pro — 70B quantisiert möglich, extrem leise MacBook Pro M4 Pro 48GB ab ~2.900 EUR neu, Apple Refurbished Store für Rabatt |
| Apple M2 Ultra 192GB Apple Silicon |
192 GB | 6,500 EUR | ~4,500 EUR | 100 W | 7B-70B (FP16), 120B+ (Q4) |
192 GB Unified Memory = alles als VRAM nutzbar. 70B in FP16! Aber langsamer als NVIDIA Mac Studio gebraucht ~4.500 EUR, RAM NICHT nachrüstbar — beim Kauf auf GB achten! |
| NVIDIA A100 80GB Ampere (Datacenter) |
80 GB | 12,000 EUR | ~6,000 EUR | 300 W | 70B (FP16), 120B+ (Q4) |
Profi-Hardware: 80 GB HBM2e mit 2 TB/s Bandbreite — für Training und Inference Nur für Firmen/Forschung. Gebraucht aus Datacenter-Auflösungen ~6.000 EUR |
Praxis-Tipps
Die goldene Regel: VRAM ist alles
Beim lokalen KI-Betrieb zählt fast ausschließlich der Video-RAM (VRAM) deiner Grafikkarte. Ein Modell mit 7 Milliarden Parametern braucht ~4-6 GB VRAM, ein 70B-Modell ~35-40 GB (oder ~20 GB quantisiert in Q4).
Gebraucht kaufen lohnt sich
Eine RTX 3090 für ~1.000 EUR gebraucht bietet dasselbe VRAM wie eine RTX 4090 für 2.000 EUR — nur langsamer. Für die meisten Anwendungen reicht das.
Quantisierung nutzen
Mit Q4_K_M-Quantisierung passen 70B-Modelle in 24 GB VRAM — bei kaum spürbarem Qualitätsverlust. Ollama macht das automatisch.
Apple Silicon als Alternative
Mac mit M-Chip nutzt Unified Memory — ein M4 Pro mit 48 GB kann 70B-Modelle laden. Langsamer als NVIDIA, aber kein extra GPU-Kauf nötig.
Stromkosten beachten
Eine RTX 3090 zieht 350W unter Last. Bei 8h/Tag sind das ~20 EUR/Monat Strom. Eine RTX 4090 braucht ähnlich viel, ist aber doppelt so schnell.