100% Lokal · DSGVO

Qwen 3.6 27B AWQ

von Alibaba Cloud (Qwen) · Lizenz: Apache 2.0 · Kommerziell nutzbar

Optimale Variante für 2x RTX 3090 — 100+ Token/s bei voller 27B-Qualität dank AWQ-Quantisierung

5.0 Gesamt
Verfügbare Größen: 27B AWQ INT4

Was ist Qwen 3.6 27B AWQ?

Qwen 3.6 27B in AWQ INT4 Quantisierung ist die optimale Variante für den produktiven Einsatz auf Consumer-Hardware mit zwei RTX 3090 Grafikkarten. Das Modell liefert die volle Qualität der 27-Milliarden-Parameter-Version bei deutlich reduziertem Speicherverbrauch und höherer Inferenzgeschwindigkeit durch die effiziente AWQ-Quantisierungsmethode. Im Praxiseinsatz mit zwei RTX 3090 Ti (48 GB VRAM gesamt) über vLLM mit Tensor-Parallelismus erreicht das Modell 100 bis 130 Tokens pro Sekunde bei Coding-Aufgaben und rund 80 Tokens pro Sekunde bei Long-Context-Anfragen — mit einem Kontextfenster von 127.000 Tokens.

Die VRAM-Auslastung liegt bei 43 GB, was genug Headroom für KV-Cache und parallele Anfragen lässt. Das Modell unterstützt natives Function Calling, was es ideal für Agenten-Workflows macht. AWQ (Activation-Aware Weight Quantization) ist eine Quantisierungsmethode, die die wichtigsten Gewichte identifiziert und diese mit höherer Präzision behält, während weniger kritische Gewichte stärker komprimiert werden.

Im Vergleich zu GGUF-Quantisierungen bietet AWQ bei gleicher Größe eine leicht höhere Qualität, benötigt allerdings eine NVIDIA-GPU und kann nicht auf der CPU ausgeführt werden. Diese spezifische Variante ist der empfohlene Einstiegspunkt für Unternehmen, die mit einem Budget von unter 3.000 Euro eine produktive lokale KI-Infrastruktur aufbauen wollen. Der Betrieb über vLLM mit dem Startbefehl und Tensor-Parallelismus über zwei GPUs ist stabil und im Dauerbetrieb erprobt.

Fähigkeiten-Matrix

Was kann Qwen 3.6 27B AWQ — und was nicht?

🇩🇪 Deutsch-Chat
4.5
🇬🇧 Englisch-Chat
5.0
🗣️ Multilingual
4.5
💻 Code-Generierung
5.0
🌍 Übersetzung
4.0
📋 Zusammenfassung
4.5
📄 RAG / Dokumente
4.5
🔧 Tool-Use / Function Calling
5.0
🌐 Browser-Automatisierung
👁️ Bildverständnis
🧮 Mathematik / Logik
5.0
✍️ Kreatives Schreiben
4.0

Hardware-Anforderungen

Größe Min. RAM Empf. VRAM CPU möglich? Quantisierung Empfohlene GPU
? ? GB ? GB ✗ Nein Q4_K_M

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

Ollama
LM Studio
llama.cpp
vLLM
Jan.ai

Bewertung

Output-Qualität ★★★★★ 5.0/5
Inference-Speed ★★★★★ 5.0/5
RAM/VRAM-Effizienz ★★★★★ 5.0/5

Weitere Qwen 3.6-Modelle

Qwen 3.6

Neuestes Open-Source-Modell für Agentic Coding mit 1M Kontext

35B-A3B MoE 27B Dense
Details ansehen

War diese Übersicht hilfreich?