Qwen 3.6 27B AWQ
von Alibaba Cloud (Qwen) · Lizenz: Apache 2.0 · Kommerziell nutzbar
Optimale Variante für 2x RTX 3090 — 100+ Token/s bei voller 27B-Qualität dank AWQ-Quantisierung
Was ist Qwen 3.6 27B AWQ?
Qwen 3.6 27B in AWQ INT4 Quantisierung ist die optimale Variante für den produktiven Einsatz auf Consumer-Hardware mit zwei RTX 3090 Grafikkarten. Das Modell liefert die volle Qualität der 27-Milliarden-Parameter-Version bei deutlich reduziertem Speicherverbrauch und höherer Inferenzgeschwindigkeit durch die effiziente AWQ-Quantisierungsmethode. Im Praxiseinsatz mit zwei RTX 3090 Ti (48 GB VRAM gesamt) über vLLM mit Tensor-Parallelismus erreicht das Modell 100 bis 130 Tokens pro Sekunde bei Coding-Aufgaben und rund 80 Tokens pro Sekunde bei Long-Context-Anfragen — mit einem Kontextfenster von 127.000 Tokens.
Die VRAM-Auslastung liegt bei 43 GB, was genug Headroom für KV-Cache und parallele Anfragen lässt. Das Modell unterstützt natives Function Calling, was es ideal für Agenten-Workflows macht. AWQ (Activation-Aware Weight Quantization) ist eine Quantisierungsmethode, die die wichtigsten Gewichte identifiziert und diese mit höherer Präzision behält, während weniger kritische Gewichte stärker komprimiert werden.
Im Vergleich zu GGUF-Quantisierungen bietet AWQ bei gleicher Größe eine leicht höhere Qualität, benötigt allerdings eine NVIDIA-GPU und kann nicht auf der CPU ausgeführt werden. Diese spezifische Variante ist der empfohlene Einstiegspunkt für Unternehmen, die mit einem Budget von unter 3.000 Euro eine produktive lokale KI-Infrastruktur aufbauen wollen. Der Betrieb über vLLM mit dem Startbefehl und Tensor-Parallelismus über zwei GPUs ist stabil und im Dauerbetrieb erprobt.
Fähigkeiten-Matrix
Was kann Qwen 3.6 27B AWQ — und was nicht?
Hardware-Anforderungen
| Größe | Min. RAM | Empf. VRAM | CPU möglich? | Quantisierung | Empfohlene GPU |
|---|---|---|---|---|---|
| ? | ? GB | ? GB | ✗ Nein | Q4_K_M | — |
Kompatibilität
Bewertung
Weitere Qwen 3.6-Modelle
Qwen 3.6
Neuestes Open-Source-Modell für Agentic Coding mit 1M Kontext
War diese Übersicht hilfreich?