GPU-Kaufberatung für lokale KI 2026

Welche Grafikkarte brauchst du für lokale KI-Modelle? Aktuelle Preise, VRAM-Empfehlungen und Gebraucht-Tipps. Ehrlich, praxisnah, ohne Affiliate-Links.

Schnellempfehlung nach Budget

0 EUR — Nur CPU

Kein Geld? Kein Problem. Mit Ollama laufen 1B-7B Modelle auch auf der CPU. Langsam (2-5 Tokens/s), aber es funktioniert.

Modelle: Phi-4, Gemma 2 (9B), Llama 3.2 (3B)

Voraussetzung: 16 GB RAM minimum

200-400 EUR — Einstieg

Gebrauchte RTX 3060 12GB (~200 EUR) oder RTX 3080 10GB (~350 EUR). Reicht für 7B-Modelle in guter Geschwindigkeit.

Modelle: Alle 7B, Mistral Nemo (12B) quantisiert

900-1.100 EUR — Sweet Spot

Gebrauchte RTX 3090 24GB (~1.000 EUR). Der beste Preis/Leistungs-Tipp! 24 GB VRAM für 7B-30B Modelle, 70B quantisiert möglich.

Modelle: Alle bis 30B, Llama 3.3 70B in Q4

1.800-2.200 EUR — Pro

Gebrauchte RTX 4090 24GB (~2.000 EUR). Gleicher VRAM wie 3090, aber doppelt so schnell. Für ernsthafte Nutzung.

Modelle: Wie 3090, aber deutlich schnellere Inferenz

2.500+ EUR — Maximum

Neue RTX 5090 32GB (~2.800 EUR) oder 2x RTX 3090 (~2.000 EUR für 48 GB). Für 70B in Vollqualität.

Modelle: 70B+ ohne Quantisierung, 405B quantisiert

GPU-Vergleich mit aktuellen Preisen

Preise: Stand April 2026, Gebrauchtpreise ca.-Werte von eBay Kleinanzeigen / refurbed.de

GPU VRAM Neu Gebraucht TDP Max. Modellgröße Einschätzung
NVIDIA RTX 3060 12GB
Ampere
12 GB 280 EUR ~200 EUR 170 W 7B, 13B (Q4) Einstieg mit 12 GB VRAM — reicht für 7B-Modelle flüssig
Gebraucht auf Kleinanzeigen ~200 EUR, oft ex-Mining — Lüfter prüfen
NVIDIA RTX 3080 10GB
Ampere
10 GB ~350 EUR 320 W 7B, 13B (Q3) Schnell, aber nur 10 GB VRAM begrenzt die Modellgröße
Für LLMs besser RTX 3060 12GB (mehr VRAM) oder gleich 3090
NVIDIA RTX 3080 Ti 12GB
Ampere
12 GB ~400 EUR 350 W 7B, 13B (Q4) Schneller als 3060 bei gleichem VRAM, aber teurer und stromhungriger
Thermal Pads bei GDDR6X prüfen, 3-Lüfter-Modelle bevorzugen
NVIDIA RTX 3090 24GB
Ampere
24 GB ~1,000 EUR 350 W 7B, 13B, 30B, 70B (Q4) PREIS-LEISTUNGS-KÖNIG! 24 GB VRAM für ~1.000 EUR — bester Deal für lokale KI
Kleinanzeigen/eBay ~900-1.100 EUR, Thermal Pads erneuern (~15 EUR), 3-Lüfter bevorzugen
NVIDIA RTX 4060 Ti 16GB
Ada Lovelace
16 GB 480 EUR ~380 EUR 165 W 7B, 13B (Q5), 30B (Q3) Stromsparend (165W) mit 16 GB — für leisen Dauer-KI-Betrieb ideal
Neu bei Mindfactory/Alternate, schmaler Speicherbus limitiert Bandbreite
NVIDIA RTX 4070 Ti Super 16GB
Ada Lovelace
16 GB 800 EUR ~650 EUR 285 W 7B, 13B (Q5), 30B (Q4) Solide Mittelklasse, deutlich schneller als 4060 Ti bei gleichem VRAM
Gebraucht ~650 EUR, gutes Preis-Leistungs-Verhältnis in der 16GB-Klasse
AMD Radeon RX 7900 XTX 24GB
RDNA 3
24 GB 950 EUR ~700 EUR 355 W 7B-13B (FP16), 30B (Q4) 24 GB günstiger als RTX 4090, ABER: ROCm weniger ausgereift als CUDA
Nur empfehlenswert wenn du ausschließlich Ollama/llama.cpp nutzt
NVIDIA RTX 4090 24GB
Ada Lovelace
24 GB 2,100 EUR ~2,000 EUR 450 W 7B-13B (FP16), 30B (Q5), 70B (Q3) Wie 3090 (24 GB) aber DOPPELT so schnell — für ernsthafte tägliche Nutzung
Gebraucht ~2.000 EUR, auf Original-Stromadapter achten (Brandgefahr bei billigen)
NVIDIA RTX 5090 32GB
Blackwell
32 GB 2,800 EUR 575 W 7B-30B (FP16), 70B (Q4) 32 GB GDDR7 — erstmals 70B in Q4 auf EINER Consumer-GPU! Zukunftssicher
Neu ~2.800 EUR, schwer verfügbar, Netzteil mind. 1000W nötig
Apple M4 Pro 48GB
Apple Silicon
48 GB 2,900 EUR ~2,400 EUR 70 W 7B-13B (FP16), 30B (Q4), 70B (Q3) 48 GB Unified Memory im MacBook Pro — 70B quantisiert möglich, extrem leise
MacBook Pro M4 Pro 48GB ab ~2.900 EUR neu, Apple Refurbished Store für Rabatt
Apple M2 Ultra 192GB
Apple Silicon
192 GB 6,500 EUR ~4,500 EUR 100 W 7B-70B (FP16), 120B+ (Q4) 192 GB Unified Memory = alles als VRAM nutzbar. 70B in FP16! Aber langsamer als NVIDIA
Mac Studio gebraucht ~4.500 EUR, RAM NICHT nachrüstbar — beim Kauf auf GB achten!
NVIDIA A100 80GB
Ampere (Datacenter)
80 GB 12,000 EUR ~6,000 EUR 300 W 70B (FP16), 120B+ (Q4) Profi-Hardware: 80 GB HBM2e mit 2 TB/s Bandbreite — für Training und Inference
Nur für Firmen/Forschung. Gebraucht aus Datacenter-Auflösungen ~6.000 EUR

Praxis-Tipps

Die goldene Regel: VRAM ist alles

Beim lokalen KI-Betrieb zählt fast ausschließlich der Video-RAM (VRAM) deiner Grafikkarte. Ein Modell mit 7 Milliarden Parametern braucht ~4-6 GB VRAM, ein 70B-Modell ~35-40 GB (oder ~20 GB quantisiert in Q4).

Gebraucht kaufen lohnt sich

Eine RTX 3090 für ~1.000 EUR gebraucht bietet dasselbe VRAM wie eine RTX 4090 für 2.000 EUR — nur langsamer. Für die meisten Anwendungen reicht das.

Quantisierung nutzen

Mit Q4_K_M-Quantisierung passen 70B-Modelle in 24 GB VRAM — bei kaum spürbarem Qualitätsverlust. Ollama macht das automatisch.

Apple Silicon als Alternative

Mac mit M-Chip nutzt Unified Memory — ein M4 Pro mit 48 GB kann 70B-Modelle laden. Langsamer als NVIDIA, aber kein extra GPU-Kauf nötig.

Stromkosten beachten

Eine RTX 3090 zieht 350W unter Last. Bei 8h/Tag sind das ~20 EUR/Monat Strom. Eine RTX 4090 braucht ähnlich viel, ist aber doppelt so schnell.