100% Lokal · DSGVO

Qwen 3.6 27B AWQ

von Alibaba Cloud (Qwen) · Lizenz: Apache 2.0 · Kommerziell nutzbar

Optimale Variante für 2x RTX 3090 — 100+ Token/s bei voller 27B-Qualität dank AWQ-Quantisierung

5.0 Gesamt

Verfügbare Größen: 27B AWQ INT4

Website HuggingFace

Was ist Qwen 3.6 27B AWQ?

Qwen 3.6 27B in AWQ INT4 Quantisierung ist die optimale Variante für den produktiven Einsatz auf Consumer-Hardware mit zwei RTX 3090 Grafikkarten. Das Modell liefert die volle Qualität der 27-Milliarden-Parameter-Version bei deutlich reduziertem Speicherverbrauch und höherer Inferenzgeschwindigkeit durch die effiziente AWQ-Quantisierungsmethode. Im Praxiseinsatz mit zwei RTX 3090 Ti (48 GB VRAM gesamt) über vLLM mit Tensor-Parallelismus erreicht das Modell 100 bis 130 Tokens pro Sekunde bei Coding-Aufgaben und rund 80 Tokens pro Sekunde bei Long-Context-Anfragen — mit einem Kontextfenster von 127.000 Tokens.

Die VRAM-Auslastung liegt bei 43 GB, was genug Headroom für KV-Cache und parallele Anfragen lässt. Das Modell unterstützt natives Function Calling, was es ideal für Agenten-Workflows macht. AWQ (Activation-Aware Weight Quantization) ist eine Quantisierungsmethode, die die wichtigsten Gewichte identifiziert und diese mit höherer Präzision behält, während weniger kritische Gewichte stärker komprimiert werden.

Im Vergleich zu GGUF-Quantisierungen bietet AWQ bei gleicher Größe eine leicht höhere Qualität, benötigt allerdings eine NVIDIA-GPU und kann nicht auf der CPU ausgeführt werden. Diese spezifische Variante ist der empfohlene Einstiegspunkt für Unternehmen, die mit einem Budget von unter 3.000 Euro eine produktive lokale KI-Infrastruktur aufbauen wollen. Der Betrieb über vLLM mit dem Startbefehl und Tensor-Parallelismus über zwei GPUs ist stabil und im Dauerbetrieb erprobt.

Fähigkeiten-Matrix

Was kann Qwen 3.6 27B AWQ — und was nicht?

🇩🇪 Deutsch-Chat

4.5

🇬🇧 Englisch-Chat

5.0

🗣️ Multilingual

4.5

💻 Code-Generierung

5.0

🌍 Übersetzung

4.0

📋 Zusammenfassung

4.5

📄 RAG / Dokumente

4.5

🔧 Tool-Use / Function Calling

5.0

🌐 Browser-Automatisierung

—

👁️ Bildverständnis

—

🧮 Mathematik / Logik

5.0

✍️ Kreatives Schreiben

4.0

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
?	? GB	? GB	✗ Nein	Q4_K_M	—

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✗ Ollama

✗ LM Studio

✗ llama.cpp

✓ vLLM

✓ Open WebUI

✓ Text Gen WebUI

✗ Jan.ai

Bewertung

Output-Qualität ★★★★★ 5.0/5

Inference-Speed ★★★★★ 5.0/5

RAM/VRAM-Effizienz ★★★★★ 5.0/5

Weitere Qwen 3.6-Modelle

Qwen 3.6

Neuestes Open-Source-Modell für Agentic Coding mit 1M Kontext

35B-A3B MoE 27B Dense

Details ansehen

War diese Übersicht hilfreich?