100% Lokal · DSGVO

SmolLM2

von Hugging Face · Lizenz: Apache 2.0 · Kommerziell nutzbar

State-of-the-Art kompaktes Modell für On-Device-KI mit 1.7B Parametern

3.5 Gesamt

Verfügbare Größen: 135M 360M 1.7B

ollama run smollm2 Website HuggingFace

Was ist SmolLM2?

SmolLM2 ist Hugging Faces Modellfamilie für kompakte, on-device-fähige Sprachmodelle und setzt neue Maßstäbe in der Klasse unter 2 Milliarden Parametern. Verfügbar in drei Größen — 135M, 360M und 1.7B Parameter — deckt SmolLM2 ein breites Spektrum an Einsatzszenarien ab, von Embedded-Systemen bis hin zu vollwertigen Laptop-Anwendungen. Das Flaggschiff-Modell mit 1,7 Milliarden Parametern wurde auf über 11 Billionen Token übertrainiert, was ihm trotz seiner kompakten Größe eine bemerkenswerte Leistungsfähigkeit verleiht.

In Benchmarks übertrifft SmolLM2-1.7B andere Modelle seiner Klasse wie TinyLlama und Qwen2-1.5B in den meisten Aufgaben deutlich. Das Modell eignet sich besonders für Textzusammenfassung, einfache Konversation, Textklassifikation und grundlegende Coding-Aufgaben. Die Hardware-Anforderungen sind minimal: SmolLM2-1.7B benötigt nur 2 bis 4 GB RAM und läuft flüssig auf jedem modernen Laptop ohne GPU.

Die kleineren Varianten (135M und 360M) sind sogar auf Smartphones und IoT-Geräten einsetzbar. SmolLM2 ist unter der Apache-2.0-Lizenz vollständig kommerziell nutzbar und über Ollama, LM Studio und die Hugging Face Transformers-Bibliothek verfügbar. Für Entwickler, die On-Device-KI implementieren möchten, ist SmolLM2 eine der besten verfügbaren Optionen im Open-Source-Bereich.

Fähigkeiten-Matrix

Was kann SmolLM2 — und was nicht?

🇩🇪 Deutsch-Chat

2.5

🇬🇧 Englisch-Chat

3.5

🗣️ Multilingual

2.5

💻 Code-Generierung

2.0

🌍 Übersetzung

2.0

📋 Zusammenfassung

3.0

📄 RAG / Dokumente

2.5

🔧 Tool-Use / Function Calling

—

🌐 Browser-Automatisierung

—

👁️ Bildverständnis

—

🧮 Mathematik / Logik

2.0

✍️ Kreatives Schreiben

2.5

Unterstützte Programmiersprachen: Python, JavaScript

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
1.7B	2 GB	2 GB	✓ Ja (langsam)	Q4_K_M	Nicht nu00f6tig
360M	1 GB	0 GB	✓ Ja (langsam)	fp16	Nicht nu00f6tig

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✓ Ollama

✓ LM Studio

✓ llama.cpp

✓ vLLM

✓ Open WebUI

✓ Text Gen WebUI

✓ Jan.ai

Bewertung

Output-Qualität ★★★☆☆ 3.5/5

Inference-Speed ★★★★★ 5.0/5

RAM/VRAM-Effizienz ★★★★★ 5.0/5

War diese Übersicht hilfreich?