Von der Cloud in den Keller: Unser Weg zur lokalen KI
12. Mai 2026 | Von: Ronny Brummer, Geschäftsführer
Seit drei Monaten läuft in unserem Unternehmen ein lokaler KI-Server — kein Experiment mehr, sondern ein produktives System, das täglich von fünf KI-Agenten genutzt wird. Keine Cloud, keine externen APIs, keine DSGVO-Diskussionen. Hier ist unser ehrlicher Erfahrungsbericht mit allen Zahlen.
Warum wir auf lokale KI umgestiegen sind
Der Auslöser war der EU AI Act. Ab dem 2. August 2026 tritt die KI-Kompetenzpflicht in Kraft, und damit verschärft sich auch die Frage: Wo werden unsere Daten verarbeitet? Wir arbeiten mit Kundendaten, internen Strategiedokumenten und vertraulichen Geschäftsinformationen. All das in eine US-Cloud zu schicken — bei ChatGPT, Claude oder Gemini — war für uns keine langfristige Option.
Die Alternative: Eine eigene KI-Infrastruktur, die komplett lokal läuft. Kein Byte verlässt unser Netzwerk. Kein AVV nötig, kein Datenschutzbeauftragter, der schlaflose Nächte hat.
Die Hardware: Was wir gekauft haben
Unser Setup ist bewusst pragmatisch — kein Enterprise-Server, sondern ein leistungsstarker Workstation-PC:
| Komponente | Details | Kosten (ca.) |
|---|---|---|
| CPU | AMD Ryzen (aktuelles Modell) | ~400 € |
| RAM | 64 GB DDR5 | ~180 € |
| SSD | 4 TB NVMe | ~280 € |
| GPU 1 | NVIDIA RTX 3090 Ti (24 GB VRAM) | ~750 € (gebraucht) |
| GPU 2 | NVIDIA RTX 3090 Ti (24 GB VRAM) | ~750 € (gebraucht) |
| Mainboard | 2x PCIe x16 Slots | ~250 € |
| Netzteil | 850W + externes Netzteil für GPU 2 | ~200 € |
| Gehäuse + Kühlung | Tower mit guter Belüftung | ~150 € |
| PCIe x16 Riser-Kabel | Für externe GPU-Anbindung | ~30 € |
| Gesamt | ~2.990 € |
Der Trick mit der zweiten Grafikkarte
Die meisten Mainboards haben zwar zwei x16-Slots, aber in einem normalen Tower-Gehäuse ist der Platz für zwei dreifach-breite RTX 3090 Karten nicht vorhanden. Unsere Lösung: Die zweite GPU läuft extern — über ein PCIe x16 Riser-Kabel, mit eigenem Netzteil, außerhalb des Gehäuses auf einem offenen Rahmen.
Das klingt improvisiert, funktioniert aber seit drei Monaten ohne einen einzigen Ausfall. Die Bandbreite über PCIe x16 ist identisch zu einer internen Verbindung, und die externe Kühlung ist sogar besser als im geschlossenen Gehäuse. Für unter 3.000 Euro hat man damit 48 GB VRAM — genug für die leistungsfähigsten Open-Source-Modelle.
Wichtig: Die RTX 3090 ist 2026 gebraucht extrem günstig zu bekommen, weil Gamer längst auf die 50er-Serie umgestiegen sind. Für KI-Inferenz ist die 3090 aber nach wie vor hervorragend — 24 GB VRAM und ausreichend CUDA-Cores für flüssige Token-Generierung.
Das Modell: Warum Qwen 3.6 27B
Nach Tests mit Llama 3.1, Mistral, Gemma und mehreren anderen haben wir uns für Qwen 3.6 27B (AWQ INT4 Quantisierung) entschieden. Die Gründe:
- Beste Balance aus Qualität und Geschwindigkeit: Das 27B-Modell passt komfortabel in 48 GB VRAM mit genug Headroom für KV-Cache und parallele Anfragen
- Hervorragendes Deutsch: Qwen versteht und generiert deutschen Text deutlich besser als die meisten Open-Source-Alternativen
- Tool-Calling und Agenten-Fähigkeiten: Qwen 3.6 unterstützt natives Function Calling — entscheidend für unsere Agenten-Workflows
- Apache-2.0-Lizenz: Kommerzielle Nutzung ohne Einschränkungen
- Hardware: ~2.990 € (einmalig)
- Einrichtung und Konfiguration: ~16 Stunden eigene Arbeitszeit (mit unserem Ollama-Tutorial geht es deutlich schneller)
- Strom: ~450W × 10h/Tag × 22 Tage × 0,30€/kWh = ~30 €/Monat
- Software: 0 € (Ollama, Open WebUI und Qwen sind Open Source)
- Wartung: ~2 Stunden/Monat für Updates und Monitoring
- Ihr mit sensiblen Kundendaten oder Geschäftsgeheimnissen arbeitet
- Die DSGVO-Konformität für euer Geschäftsmodell entscheidend ist
- Ihr mindestens 3-5 regelmäßige KI-Nutzer im Unternehmen habt
- Jemand im Team grundlegende IT-Kenntnisse hat (Linux-Basics reichen)
- Ihr bereit seid, 80-85% Qualität statt 95-100% zu akzeptieren
- Ihr nur gelegentlich KI nutzt (dann reicht der Free-Plan von Mistral Le Chat — EU-Server!)
- Maximale Textqualität geschäftskritisch ist (dann bleibt Claude oder GPT die bessere Wahl)
- Niemand im Team technisches Grundverständnis hat
Performance-Zahlen aus dem Produktivbetrieb
| Metrik | Wert |
|---|---|
| Durchsatz | 100–130 Tokens/Sekunde |
| VRAM-Auslastung | 43 GB von 48 GB |
| Parallele Agenten | 5 gleichzeitig |
| Uptime | 99,8% (seit 3 Monaten) |
| Antwortzeit | 1–3 Sekunden für typische Anfragen |
| Stromverbrauch | ~450W unter Last |
Der vLLM-Server startet mit einem Kontextfenster von 127.000 Tokens und liefert 100 bis 130 Tokens pro Sekunde bei Coding-Aufgaben, rund 80 Tokens pro Sekunde bei Long-Context-Anfragen. Das bedeutet: Eine typische Antwort von 200 Wörtern ist in unter zwei Sekunden fertig. Fünf Mitarbeiter können gleichzeitig Anfragen stellen, ohne spürbare Verlangsamung. Die 43 GB VRAM-Auslastung zeigt, dass wir das System gut dimensioniert haben — genug Reserven für Lastspitzen, aber kein verschwendetes Potenzial.
Die 5 Agenten: Was sie tun
Wir betreiben fünf spezialisierte KI-Agenten, die über vLLM als Inferenz-Engine und Open WebUI als Oberfläche laufen. vLLM nutzt Tensor-Parallelismus über beide GPUs und liefert mit Speculative Decoding (MTP) eine hervorragende Performance:
Agent 1: Kundenkommunikation
Formuliert E-Mail-Antworten auf Kundenanfragen. Der Agent kennt unsere Produktpalette, Preislisten und FAQ und generiert personalisierte Antworten, die ein Mitarbeiter nur noch prüfen und absenden muss. Zeitersparnis: ca. 45 Minuten pro Tag.Agent 2: Dokumentenanalyse
Analysiert Verträge, Angebote und technische Dokumente. Mitarbeiter laden ein PDF hoch und stellen Fragen dazu — ähnlich wie NotebookLM, aber komplett lokal.Agent 3: Content-Erstellung
Erstellt Entwürfe für Blog-Artikel, Social-Media-Posts und Newsletter-Texte. Die Qualität reicht nicht an Claude heran, ist aber für erste Entwürfe vollkommen ausreichend.Agent 4: Code-Assistenz
Hilft unserem Entwicklungsteam beim Debugging, Code-Review und der Dokumentation. Qwen 3.6 ist bei Coding überraschend stark — nicht auf dem Niveau von Cursor oder Claude Code, aber für alltägliche Aufgaben brauchbar.Agent 5: Internes Wissensmanagement
Durchsucht unsere interne Wissensdatenbank und beantwortet Mitarbeiterfragen zu Prozessen, Richtlinien und Best Practices. Besonders wertvoll für neue Mitarbeiter in der Einarbeitungsphase.Was es kostet — die ehrliche Rechnung
Einmalige Kosten
Laufende Kosten
Vergleich mit Cloud-KI
| Lokale KI | ChatGPT Team | Claude Team | |
|---|---|---|---|
| Kosten/Monat (5 Nutzer) | ~30 € (Strom) | $125 (5×$25) | $125 (5×$25) |
| Kosten/Jahr | ~360 € + Hardware | ~1.500 € | ~1.500 € |
| Break-Even | nach ~22 Monaten | — | — |
| DSGVO | 100% konform | AVV nötig | AVV nötig |
| Daten verlassen Netzwerk | Nein | Ja (USA) | Ja (USA) |
| Qualität | Gut (80-85%) | Sehr gut (95%) | Exzellent (98%) |
Die ehrliche Wahrheit: Die Qualität unserer lokalen KI erreicht 80 bis 85 Prozent der Leistung von Claude oder GPT-5.5. Für die meisten Alltagsaufgaben — E-Mails, Zusammenfassungen, einfache Analysen — reicht das vollkommen. Für hochkomplexe Aufgaben wie kreatives Schreiben auf Profi-Niveau oder anspruchsvolles Coding nutzen wir weiterhin externe Tools — allerdings nur für nicht-sensible Daten.
Für wen sich lokale KI lohnt
Ja, wenn:
Nein, wenn:
Mein Rat an andere Unternehmer
Der Moment kommt, an dem jedes Unternehmen entscheiden muss: Lokal und sicher — oder eines der tausenden Cloud-KI-Tools? Beide Wege sind valide. Aber wer sich für externe Tools entscheidet, sollte unbedingt die DSGVO-Bewertung im KI-Katalog beachten — dort haben wir für jedes Tool den Server-Standort, die AVV-Verfügbarkeit und die Datenweitergabe dokumentiert.
Für uns war die Entscheidung klar: Mit unter 3.000 Euro Investition und 30 Euro monatlichen Stromkosten haben wir eine KI-Infrastruktur aufgebaut, die fünf Mitarbeiter täglich produktiver macht — ohne dass ein einziges Byte unserer Daten jemals unser Büro verlässt. Und das gute Gefühl, auf den EU AI Act vorbereitet zu sein, gibt es kostenlos dazu.
---
Hardware-Empfehlungen und GPU-Vergleiche: Lokale KI-Modelle | Hardware-Guide Schritt-für-Schritt-Anleitung: Ollama + Open WebUI einrichten Kostenvergleich: Lokale KI vs. Cloud — was kostet weniger? DSGVO-Bewertung aller KI-Tools: KI-Katalog