Lokale KI im Unternehmen: Wie ich mit 2x RTX 3090 und Qwen 3.6 unsere komplette KI-Infrastruktur aufgebaut habe

Lokale KI im Unternehmen: Wie ich mit 2x RTX 3090 und Qwen 3.6 unsere komplette KI-Infrastruktur aufgebaut habe

Von der Cloud in den Keller: Unser Weg zur lokalen KI

12. Mai 2026 | Von: Ronny Brummer, Geschäftsführer

Seit drei Monaten läuft in unserem Unternehmen ein lokaler KI-Server — kein Experiment mehr, sondern ein produktives System, das täglich von fünf KI-Agenten genutzt wird. Keine Cloud, keine externen APIs, keine DSGVO-Diskussionen. Hier ist unser ehrlicher Erfahrungsbericht mit allen Zahlen.

Warum wir auf lokale KI umgestiegen sind

Der Auslöser war der EU AI Act. Ab dem 2. August 2026 tritt die KI-Kompetenzpflicht in Kraft, und damit verschärft sich auch die Frage: Wo werden unsere Daten verarbeitet? Wir arbeiten mit Kundendaten, internen Strategiedokumenten und vertraulichen Geschäftsinformationen. All das in eine US-Cloud zu schicken — bei ChatGPT, Claude oder Gemini — war für uns keine langfristige Option.

Die Alternative: Eine eigene KI-Infrastruktur, die komplett lokal läuft. Kein Byte verlässt unser Netzwerk. Kein AVV nötig, kein Datenschutzbeauftragter, der schlaflose Nächte hat.

Die Hardware: Was wir gekauft haben

Unser Setup ist bewusst pragmatisch — kein Enterprise-Server, sondern ein leistungsstarker Workstation-PC:

KomponenteDetailsKosten (ca.)
CPUAMD Ryzen (aktuelles Modell)~400 €
RAM64 GB DDR5~180 €
SSD4 TB NVMe~280 €
GPU 1NVIDIA RTX 3090 Ti (24 GB VRAM)~750 € (gebraucht)
GPU 2NVIDIA RTX 3090 Ti (24 GB VRAM)~750 € (gebraucht)
Mainboard2x PCIe x16 Slots~250 €
Netzteil850W + externes Netzteil für GPU 2~200 €
Gehäuse + KühlungTower mit guter Belüftung~150 €
PCIe x16 Riser-KabelFür externe GPU-Anbindung~30 €
Gesamt~2.990 €

Der Trick mit der zweiten Grafikkarte

Die meisten Mainboards haben zwar zwei x16-Slots, aber in einem normalen Tower-Gehäuse ist der Platz für zwei dreifach-breite RTX 3090 Karten nicht vorhanden. Unsere Lösung: Die zweite GPU läuft extern — über ein PCIe x16 Riser-Kabel, mit eigenem Netzteil, außerhalb des Gehäuses auf einem offenen Rahmen.

Das klingt improvisiert, funktioniert aber seit drei Monaten ohne einen einzigen Ausfall. Die Bandbreite über PCIe x16 ist identisch zu einer internen Verbindung, und die externe Kühlung ist sogar besser als im geschlossenen Gehäuse. Für unter 3.000 Euro hat man damit 48 GB VRAM — genug für die leistungsfähigsten Open-Source-Modelle.

Wichtig: Die RTX 3090 ist 2026 gebraucht extrem günstig zu bekommen, weil Gamer längst auf die 50er-Serie umgestiegen sind. Für KI-Inferenz ist die 3090 aber nach wie vor hervorragend — 24 GB VRAM und ausreichend CUDA-Cores für flüssige Token-Generierung.

Das Modell: Warum Qwen 3.6 27B

Nach Tests mit Llama 3.1, Mistral, Gemma und mehreren anderen haben wir uns für Qwen 3.6 27B (AWQ INT4 Quantisierung) entschieden. Die Gründe:

  • Beste Balance aus Qualität und Geschwindigkeit: Das 27B-Modell passt komfortabel in 48 GB VRAM mit genug Headroom für KV-Cache und parallele Anfragen
  • Hervorragendes Deutsch: Qwen versteht und generiert deutschen Text deutlich besser als die meisten Open-Source-Alternativen
  • Tool-Calling und Agenten-Fähigkeiten: Qwen 3.6 unterstützt natives Function Calling — entscheidend für unsere Agenten-Workflows
  • Apache-2.0-Lizenz: Kommerzielle Nutzung ohne Einschränkungen
  • Performance-Zahlen aus dem Produktivbetrieb

    MetrikWert
    Durchsatz100–130 Tokens/Sekunde
    VRAM-Auslastung43 GB von 48 GB
    Parallele Agenten5 gleichzeitig
    Uptime99,8% (seit 3 Monaten)
    Antwortzeit1–3 Sekunden für typische Anfragen
    Stromverbrauch~450W unter Last

    Der vLLM-Server startet mit einem Kontextfenster von 127.000 Tokens und liefert 100 bis 130 Tokens pro Sekunde bei Coding-Aufgaben, rund 80 Tokens pro Sekunde bei Long-Context-Anfragen. Das bedeutet: Eine typische Antwort von 200 Wörtern ist in unter zwei Sekunden fertig. Fünf Mitarbeiter können gleichzeitig Anfragen stellen, ohne spürbare Verlangsamung. Die 43 GB VRAM-Auslastung zeigt, dass wir das System gut dimensioniert haben — genug Reserven für Lastspitzen, aber kein verschwendetes Potenzial.

    Die 5 Agenten: Was sie tun

    Wir betreiben fünf spezialisierte KI-Agenten, die über vLLM als Inferenz-Engine und Open WebUI als Oberfläche laufen. vLLM nutzt Tensor-Parallelismus über beide GPUs und liefert mit Speculative Decoding (MTP) eine hervorragende Performance:

    Agent 1: Kundenkommunikation

    Formuliert E-Mail-Antworten auf Kundenanfragen. Der Agent kennt unsere Produktpalette, Preislisten und FAQ und generiert personalisierte Antworten, die ein Mitarbeiter nur noch prüfen und absenden muss. Zeitersparnis: ca. 45 Minuten pro Tag.

    Agent 2: Dokumentenanalyse

    Analysiert Verträge, Angebote und technische Dokumente. Mitarbeiter laden ein PDF hoch und stellen Fragen dazu — ähnlich wie NotebookLM, aber komplett lokal.

    Agent 3: Content-Erstellung

    Erstellt Entwürfe für Blog-Artikel, Social-Media-Posts und Newsletter-Texte. Die Qualität reicht nicht an Claude heran, ist aber für erste Entwürfe vollkommen ausreichend.

    Agent 4: Code-Assistenz

    Hilft unserem Entwicklungsteam beim Debugging, Code-Review und der Dokumentation. Qwen 3.6 ist bei Coding überraschend stark — nicht auf dem Niveau von Cursor oder Claude Code, aber für alltägliche Aufgaben brauchbar.

    Agent 5: Internes Wissensmanagement

    Durchsucht unsere interne Wissensdatenbank und beantwortet Mitarbeiterfragen zu Prozessen, Richtlinien und Best Practices. Besonders wertvoll für neue Mitarbeiter in der Einarbeitungsphase.

    Was es kostet — die ehrliche Rechnung

    Einmalige Kosten

  • Hardware: ~2.990 € (einmalig)
  • Einrichtung und Konfiguration: ~16 Stunden eigene Arbeitszeit (mit unserem Ollama-Tutorial geht es deutlich schneller)
  • Laufende Kosten

  • Strom: ~450W × 10h/Tag × 22 Tage × 0,30€/kWh = ~30 €/Monat
  • Software: 0 € (Ollama, Open WebUI und Qwen sind Open Source)
  • Wartung: ~2 Stunden/Monat für Updates und Monitoring
  • Vergleich mit Cloud-KI

    Lokale KIChatGPT TeamClaude Team
    Kosten/Monat (5 Nutzer)~30 € (Strom)$125 (5×$25)$125 (5×$25)
    Kosten/Jahr~360 € + Hardware~1.500 €~1.500 €
    Break-Evennach ~22 Monaten
    DSGVO100% konformAVV nötigAVV nötig
    Daten verlassen NetzwerkNeinJa (USA)Ja (USA)
    QualitätGut (80-85%)Sehr gut (95%)Exzellent (98%)

    Die ehrliche Wahrheit: Die Qualität unserer lokalen KI erreicht 80 bis 85 Prozent der Leistung von Claude oder GPT-5.5. Für die meisten Alltagsaufgaben — E-Mails, Zusammenfassungen, einfache Analysen — reicht das vollkommen. Für hochkomplexe Aufgaben wie kreatives Schreiben auf Profi-Niveau oder anspruchsvolles Coding nutzen wir weiterhin externe Tools — allerdings nur für nicht-sensible Daten.

    Für wen sich lokale KI lohnt

    Ja, wenn:

  • Ihr mit sensiblen Kundendaten oder Geschäftsgeheimnissen arbeitet
  • Die DSGVO-Konformität für euer Geschäftsmodell entscheidend ist
  • Ihr mindestens 3-5 regelmäßige KI-Nutzer im Unternehmen habt
  • Jemand im Team grundlegende IT-Kenntnisse hat (Linux-Basics reichen)
  • Ihr bereit seid, 80-85% Qualität statt 95-100% zu akzeptieren
  • Nein, wenn:

  • Ihr nur gelegentlich KI nutzt (dann reicht der Free-Plan von Mistral Le Chat — EU-Server!)
  • Maximale Textqualität geschäftskritisch ist (dann bleibt Claude oder GPT die bessere Wahl)
  • Niemand im Team technisches Grundverständnis hat

Mein Rat an andere Unternehmer

Der Moment kommt, an dem jedes Unternehmen entscheiden muss: Lokal und sicher — oder eines der tausenden Cloud-KI-Tools? Beide Wege sind valide. Aber wer sich für externe Tools entscheidet, sollte unbedingt die DSGVO-Bewertung im KI-Katalog beachten — dort haben wir für jedes Tool den Server-Standort, die AVV-Verfügbarkeit und die Datenweitergabe dokumentiert.

Für uns war die Entscheidung klar: Mit unter 3.000 Euro Investition und 30 Euro monatlichen Stromkosten haben wir eine KI-Infrastruktur aufgebaut, die fünf Mitarbeiter täglich produktiver macht — ohne dass ein einziges Byte unserer Daten jemals unser Büro verlässt. Und das gute Gefühl, auf den EU AI Act vorbereitet zu sein, gibt es kostenlos dazu.

---

Hardware-Empfehlungen und GPU-Vergleiche: Lokale KI-Modelle | Hardware-Guide Schritt-für-Schritt-Anleitung: Ollama + Open WebUI einrichten Kostenvergleich: Lokale KI vs. Cloud — was kostet weniger? DSGVO-Bewertung aller KI-Tools: KI-Katalog