Lokale KI im Unternehmen: Wie ich mit 2x RTX 3090 und Qwen 3.6 unsere komplette KI-Infrastruktur aufgebaut habe

Von der Cloud in den Keller: Unser Weg zur lokalen KI

12. Mai 2026 | Von: Ronny Brummer, Geschäftsführer

Seit drei Monaten läuft in unserem Unternehmen ein lokaler KI-Server — kein Experiment mehr, sondern ein produktives System, das täglich von fünf KI-Agenten genutzt wird. Keine Cloud, keine externen APIs, keine DSGVO-Diskussionen. Hier ist unser ehrlicher Erfahrungsbericht mit allen Zahlen.

Warum wir auf lokale KI umgestiegen sind

Der Auslöser war der EU AI Act. Ab dem 2. August 2026 tritt die KI-Kompetenzpflicht in Kraft, und damit verschärft sich auch die Frage: Wo werden unsere Daten verarbeitet? Wir arbeiten mit Kundendaten, internen Strategiedokumenten und vertraulichen Geschäftsinformationen. All das in eine US-Cloud zu schicken — bei ChatGPT, Claude oder Gemini — war für uns keine langfristige Option.

Die Alternative: Eine eigene KI-Infrastruktur, die komplett lokal läuft. Kein Byte verlässt unser Netzwerk. Kein AVV nötig, kein Datenschutzbeauftragter, der schlaflose Nächte hat.

Die Hardware: Was wir gekauft haben

Unser Setup ist bewusst pragmatisch — kein Enterprise-Server, sondern ein leistungsstarker Workstation-PC:

Komponente	Details	Kosten (ca.)
CPU	AMD Ryzen (aktuelles Modell)	~400 €
RAM	64 GB DDR5	~180 €
SSD	4 TB NVMe	~280 €
GPU 1	NVIDIA RTX 3090 Ti (24 GB VRAM)	~750 € (gebraucht)
GPU 2	NVIDIA RTX 3090 Ti (24 GB VRAM)	~750 € (gebraucht)
Mainboard	2x PCIe x16 Slots	~250 €
Netzteil	850W + externes Netzteil für GPU 2	~200 €
Gehäuse + Kühlung	Tower mit guter Belüftung	~150 €
PCIe x16 Riser-Kabel	Für externe GPU-Anbindung	~30 €
Gesamt		~2.990 €

Der Trick mit der zweiten Grafikkarte

Die meisten Mainboards haben zwar zwei x16-Slots, aber in einem normalen Tower-Gehäuse ist der Platz für zwei dreifach-breite RTX 3090 Karten nicht vorhanden. Unsere Lösung: Die zweite GPU läuft extern — über ein PCIe x16 Riser-Kabel, mit eigenem Netzteil, außerhalb des Gehäuses auf einem offenen Rahmen.

Das klingt improvisiert, funktioniert aber seit drei Monaten ohne einen einzigen Ausfall. Die Bandbreite über PCIe x16 ist identisch zu einer internen Verbindung, und die externe Kühlung ist sogar besser als im geschlossenen Gehäuse. Für unter 3.000 Euro hat man damit 48 GB VRAM — genug für die leistungsfähigsten Open-Source-Modelle.

Wichtig: Die RTX 3090 ist 2026 gebraucht extrem günstig zu bekommen, weil Gamer längst auf die 50er-Serie umgestiegen sind. Für KI-Inferenz ist die 3090 aber nach wie vor hervorragend — 24 GB VRAM und ausreichend CUDA-Cores für flüssige Token-Generierung.

Das Modell: Warum Qwen 3.6 27B

Nach Tests mit Llama 3.1, Mistral, Gemma und mehreren anderen haben wir uns für Qwen 3.6 27B (AWQ INT4 Quantisierung) entschieden. Die Gründe:

Beste Balance aus Qualität und Geschwindigkeit: Das 27B-Modell passt komfortabel in 48 GB VRAM mit genug Headroom für KV-Cache und parallele Anfragen
Hervorragendes Deutsch: Qwen versteht und generiert deutschen Text deutlich besser als die meisten Open-Source-Alternativen
Tool-Calling und Agenten-Fähigkeiten: Qwen 3.6 unterstützt natives Function Calling — entscheidend für unsere Agenten-Workflows
Apache-2.0-Lizenz: Kommerzielle Nutzung ohne Einschränkungen

Performance-Zahlen aus dem Produktivbetrieb

Metrik	Wert
Durchsatz	100–130 Tokens/Sekunde
VRAM-Auslastung	43 GB von 48 GB
Parallele Agenten	5 gleichzeitig
Uptime	99,8% (seit 3 Monaten)
Antwortzeit	1–3 Sekunden für typische Anfragen
Stromverbrauch	~450W unter Last

Der vLLM-Server startet mit einem Kontextfenster von 127.000 Tokens und liefert 100 bis 130 Tokens pro Sekunde bei Coding-Aufgaben, rund 80 Tokens pro Sekunde bei Long-Context-Anfragen. Das bedeutet: Eine typische Antwort von 200 Wörtern ist in unter zwei Sekunden fertig. Fünf Mitarbeiter können gleichzeitig Anfragen stellen, ohne spürbare Verlangsamung. Die 43 GB VRAM-Auslastung zeigt, dass wir das System gut dimensioniert haben — genug Reserven für Lastspitzen, aber kein verschwendetes Potenzial.

Die 5 Agenten: Was sie tun

Wir betreiben fünf spezialisierte KI-Agenten, die über vLLM als Inferenz-Engine und Open WebUI als Oberfläche laufen. vLLM nutzt Tensor-Parallelismus über beide GPUs und liefert mit Speculative Decoding (MTP) eine hervorragende Performance:

Agent 1: Kundenkommunikation

Agent 5: Internes Wissensmanagement

Was es kostet — die ehrliche Rechnung

Einmalige Kosten

Hardware: ~2.990 € (einmalig)
Einrichtung und Konfiguration: ~16 Stunden eigene Arbeitszeit (mit unserem Ollama-Tutorial geht es deutlich schneller)

Laufende Kosten

Strom: ~450W × 10h/Tag × 22 Tage × 0,30€/kWh = ~30 €/Monat
Software: 0 € (Ollama, Open WebUI und Qwen sind Open Source)
Wartung: ~2 Stunden/Monat für Updates und Monitoring

Vergleich mit Cloud-KI

	Lokale KI	ChatGPT Team	Claude Team
Kosten/Monat (5 Nutzer)	~30 € (Strom)	$125 (5×$25)	$125 (5×$25)
Kosten/Jahr	~360 € + Hardware	~1.500 €	~1.500 €
Break-Even	nach ~22 Monaten	—	—
DSGVO	100% konform	AVV nötig	AVV nötig
Daten verlassen Netzwerk	Nein	Ja (USA)	Ja (USA)
Qualität	Gut (80-85%)	Sehr gut (95%)	Exzellent (98%)

Die ehrliche Wahrheit: Die Qualität unserer lokalen KI erreicht 80 bis 85 Prozent der Leistung von Claude oder GPT-5.5. Für die meisten Alltagsaufgaben — E-Mails, Zusammenfassungen, einfache Analysen — reicht das vollkommen. Für hochkomplexe Aufgaben wie kreatives Schreiben auf Profi-Niveau oder anspruchsvolles Coding nutzen wir weiterhin externe Tools — allerdings nur für nicht-sensible Daten.

Für wen sich lokale KI lohnt

Ja, wenn:

Ihr mit sensiblen Kundendaten oder Geschäftsgeheimnissen arbeitet
Die DSGVO-Konformität für euer Geschäftsmodell entscheidend ist
Ihr mindestens 3-5 regelmäßige KI-Nutzer im Unternehmen habt
Jemand im Team grundlegende IT-Kenntnisse hat (Linux-Basics reichen)
Ihr bereit seid, 80-85% Qualität statt 95-100% zu akzeptieren

Nein, wenn:

Ihr nur gelegentlich KI nutzt (dann reicht der Free-Plan von Mistral Le Chat — EU-Server!)
Maximale Textqualität geschäftskritisch ist (dann bleibt Claude oder GPT die bessere Wahl)
Niemand im Team technisches Grundverständnis hat

Mein Rat an andere Unternehmer

Der Moment kommt, an dem jedes Unternehmen entscheiden muss: Lokal und sicher — oder eines der tausenden Cloud-KI-Tools? Beide Wege sind valide. Aber wer sich für externe Tools entscheidet, sollte unbedingt die DSGVO-Bewertung im KI-Katalog beachten — dort haben wir für jedes Tool den Server-Standort, die AVV-Verfügbarkeit und die Datenweitergabe dokumentiert.

Für uns war die Entscheidung klar: Mit unter 3.000 Euro Investition und 30 Euro monatlichen Stromkosten haben wir eine KI-Infrastruktur aufgebaut, die fünf Mitarbeiter täglich produktiver macht — ohne dass ein einziges Byte unserer Daten jemals unser Büro verlässt. Und das gute Gefühl, auf den EU AI Act vorbereitet zu sein, gibt es kostenlos dazu.

---

Hardware-Empfehlungen und GPU-Vergleiche: Lokale KI-Modelle | Hardware-Guide Schritt-für-Schritt-Anleitung: Ollama + Open WebUI einrichten Kostenvergleich: Lokale KI vs. Cloud — was kostet weniger? DSGVO-Bewertung aller KI-Tools: KI-Katalog

Lokale KI im Unternehmen: Wie ich mit 2x RTX 3090 und Qwen 3.6 unsere komplette KI-Infrastruktur aufgebaut habe

Von der Cloud in den Keller: Unser Weg zur lokalen KI

Warum wir auf lokale KI umgestiegen sind

Die Hardware: Was wir gekauft haben

Der Trick mit der zweiten Grafikkarte

Das Modell: Warum Qwen 3.6 27B

Performance-Zahlen aus dem Produktivbetrieb

Die 5 Agenten: Was sie tun

Agent 1: Kundenkommunikation

Agent 2: Dokumentenanalyse

Agent 3: Content-Erstellung

Agent 4: Code-Assistenz

Agent 5: Internes Wissensmanagement

Was es kostet — die ehrliche Rechnung

Einmalige Kosten

Laufende Kosten

Vergleich mit Cloud-KI

Für wen sich lokale KI lohnt

Mein Rat an andere Unternehmer

🤖 Passende KI-Tools zum Artikel

Claude

HeyGen

Fireflies

Luma Dream Machine

Claude Pro

Aidoc Medical Imaging

Von der Cloud in den Keller: Unser Weg zur lokalen KI

Warum wir auf lokale KI umgestiegen sind

Die Hardware: Was wir gekauft haben

Der Trick mit der zweiten Grafikkarte

Das Modell: Warum Qwen 3.6 27B

Performance-Zahlen aus dem Produktivbetrieb

Die 5 Agenten: Was sie tun

Agent 1: Kundenkommunikation

Agent 2: Dokumentenanalyse

Agent 3: Content-Erstellung

Agent 4: Code-Assistenz

Agent 5: Internes Wissensmanagement

Was es kostet — die ehrliche Rechnung

Einmalige Kosten

Laufende Kosten

Vergleich mit Cloud-KI

Für wen sich lokale KI lohnt

Mein Rat an andere Unternehmer

🤖 Passende KI-Tools zum Artikel

Claude

HeyGen

Fireflies

Luma Dream Machine

Claude Pro

Aidoc Medical Imaging

KI-Tool der Woche