Startseite / Lokale KI-Modelle /

GPU-Kaufberatung für lokale KI 2026

Welche Grafikkarte brauchst du für lokale KI-Modelle? Aktuelle Preise, VRAM-Empfehlungen und Gebraucht-Tipps. Ehrlich, praxisnah, ohne Affiliate-Links.

Schnellempfehlung nach Budget

0 EUR — Nur CPU

Kein Geld? Kein Problem. Mit Ollama laufen 1B-7B Modelle auch auf der CPU. Langsam (2-5 Tokens/s), aber es funktioniert.

Modelle: Phi-4, Gemma 2 (9B), Llama 3.2 (3B)

Voraussetzung: 16 GB RAM minimum

200-400 EUR — Einstieg

Gebrauchte RTX 3060 12GB (~200 EUR) oder RTX 3080 10GB (~350 EUR). Reicht für 7B-Modelle in guter Geschwindigkeit.

Modelle: Alle 7B, Mistral Nemo (12B) quantisiert

900-1.100 EUR — Sweet Spot

Gebrauchte RTX 3090 24GB (~1.000 EUR). Der beste Preis/Leistungs-Tipp! 24 GB VRAM für 7B-30B Modelle, 70B quantisiert möglich.

Modelle: Alle bis 30B, Llama 3.3 70B in Q4

1.800-2.200 EUR — Pro

Gebrauchte RTX 4090 24GB (~2.000 EUR). Gleicher VRAM wie 3090, aber doppelt so schnell. Für ernsthafte Nutzung.

Modelle: Wie 3090, aber deutlich schnellere Inferenz

2.500+ EUR — Maximum

Neue RTX 5090 32GB (~2.800 EUR) oder 2x RTX 3090 (~2.000 EUR für 48 GB). Für 70B in Vollqualität.

Modelle: 70B+ ohne Quantisierung, 405B quantisiert

GPU-Vergleich mit aktuellen Preisen

Preise: Stand April 2026, Gebrauchtpreise ca.-Werte von eBay Kleinanzeigen / refurbed.de

GPU	VRAM	Neu	Gebraucht	TDP	Max. Modellgröße	Einschätzung
NVIDIA RTX 3060 12GB Ampere	12 GB	280 EUR	~200 EUR	170 W	7B, 13B (Q4)	Einstieg mit 12 GB VRAM — reicht für 7B-Modelle flüssig Gebraucht auf Kleinanzeigen ~200 EUR, oft ex-Mining — Lüfter prüfen
NVIDIA RTX 3080 10GB Ampere	10 GB	—	~350 EUR	320 W	7B, 13B (Q3)	Schnell, aber nur 10 GB VRAM begrenzt die Modellgröße Für LLMs besser RTX 3060 12GB (mehr VRAM) oder gleich 3090
NVIDIA RTX 3080 Ti 12GB Ampere	12 GB	—	~400 EUR	350 W	7B, 13B (Q4)	Schneller als 3060 bei gleichem VRAM, aber teurer und stromhungriger Thermal Pads bei GDDR6X prüfen, 3-Lüfter-Modelle bevorzugen
NVIDIA RTX 3090 24GB Ampere	24 GB	—	~1,000 EUR	350 W	7B, 13B, 30B, 70B (Q4)	PREIS-LEISTUNGS-KÖNIG! 24 GB VRAM für ~1.000 EUR — bester Deal für lokale KI Kleinanzeigen/eBay ~900-1.100 EUR, Thermal Pads erneuern (~15 EUR), 3-Lüfter bevorzugen
NVIDIA RTX 4060 Ti 16GB Ada Lovelace	16 GB	480 EUR	~380 EUR	165 W	7B, 13B (Q5), 30B (Q3)	Stromsparend (165W) mit 16 GB — für leisen Dauer-KI-Betrieb ideal Neu bei Mindfactory/Alternate, schmaler Speicherbus limitiert Bandbreite
NVIDIA RTX 4070 Ti Super 16GB Ada Lovelace	16 GB	800 EUR	~650 EUR	285 W	7B, 13B (Q5), 30B (Q4)	Solide Mittelklasse, deutlich schneller als 4060 Ti bei gleichem VRAM Gebraucht ~650 EUR, gutes Preis-Leistungs-Verhältnis in der 16GB-Klasse
AMD Radeon RX 7900 XTX 24GB RDNA 3	24 GB	950 EUR	~700 EUR	355 W	7B-13B (FP16), 30B (Q4)	24 GB günstiger als RTX 4090, ABER: ROCm weniger ausgereift als CUDA Nur empfehlenswert wenn du ausschließlich Ollama/llama.cpp nutzt
NVIDIA RTX 4090 24GB Ada Lovelace	24 GB	2,100 EUR	~2,000 EUR	450 W	7B-13B (FP16), 30B (Q5), 70B (Q3)	Wie 3090 (24 GB) aber DOPPELT so schnell — für ernsthafte tägliche Nutzung Gebraucht ~2.000 EUR, auf Original-Stromadapter achten (Brandgefahr bei billigen)
NVIDIA RTX 5090 32GB Blackwell	32 GB	2,800 EUR	—	575 W	7B-30B (FP16), 70B (Q4)	32 GB GDDR7 — erstmals 70B in Q4 auf EINER Consumer-GPU! Zukunftssicher Neu ~2.800 EUR, schwer verfügbar, Netzteil mind. 1000W nötig
Apple M4 Pro 48GB Apple Silicon	48 GB	2,900 EUR	~2,400 EUR	70 W	7B-13B (FP16), 30B (Q4), 70B (Q3)	48 GB Unified Memory im MacBook Pro — 70B quantisiert möglich, extrem leise MacBook Pro M4 Pro 48GB ab ~2.900 EUR neu, Apple Refurbished Store für Rabatt
Apple M2 Ultra 192GB Apple Silicon	192 GB	6,500 EUR	~4,500 EUR	100 W	7B-70B (FP16), 120B+ (Q4)	192 GB Unified Memory = alles als VRAM nutzbar. 70B in FP16! Aber langsamer als NVIDIA Mac Studio gebraucht ~4.500 EUR, RAM NICHT nachrüstbar — beim Kauf auf GB achten!
NVIDIA A100 80GB Ampere (Datacenter)	80 GB	12,000 EUR	~6,000 EUR	300 W	70B (FP16), 120B+ (Q4)	Profi-Hardware: 80 GB HBM2e mit 2 TB/s Bandbreite — für Training und Inference Nur für Firmen/Forschung. Gebraucht aus Datacenter-Auflösungen ~6.000 EUR

Praxis-Tipps

Die goldene Regel: VRAM ist alles

Beim lokalen KI-Betrieb zählt fast ausschließlich der Video-RAM (VRAM) deiner Grafikkarte. Ein Modell mit 7 Milliarden Parametern braucht ~4-6 GB VRAM, ein 70B-Modell ~35-40 GB (oder ~20 GB quantisiert in Q4).

Gebraucht kaufen lohnt sich

Eine RTX 3090 für ~1.000 EUR gebraucht bietet dasselbe VRAM wie eine RTX 4090 für 2.000 EUR — nur langsamer. Für die meisten Anwendungen reicht das.

Quantisierung nutzen

Mit Q4_K_M-Quantisierung passen 70B-Modelle in 24 GB VRAM — bei kaum spürbarem Qualitätsverlust. Ollama macht das automatisch.

Apple Silicon als Alternative

Mac mit M-Chip nutzt Unified Memory — ein M4 Pro mit 48 GB kann 70B-Modelle laden. Langsamer als NVIDIA, aber kein extra GPU-Kauf nötig.

Stromkosten beachten

Eine RTX 3090 zieht 350W unter Last. Bei 8h/Tag sind das ~20 EUR/Monat Strom. Eine RTX 4090 braucht ähnlich viel, ist aber doppelt so schnell.

← Alle lokalen KI-Modelle | Self-Hosting-Tutorials →