100% Lokal · DSGVO

TinyLlama

von Zhang Peiyuan · Lizenz: Apache 2.0 · Kommerziell nutzbar

Kompaktes 1.1B-Sprachmodell trainiert auf 3 Billionen Token

3.0 Gesamt

Verfügbare Größen: 1.1B

ollama run tinyllama Website HuggingFace

Was ist TinyLlama?

TinyLlama ist ein kompaktes Sprachmodell mit 1,1 Milliarden Parametern, das auf beeindruckenden 3 Billionen Token trainiert wurde — deutlich mehr als für seine Größe üblich und vergleichbar mit dem Trainingsumfang wesentlich größerer Modelle. Das Projekt verfolgt den Ansatz, dass kleinere Modelle bei ausreichendem Training erstaunlich leistungsfähig werden können. TinyLlama basiert auf der Llama-2-Architektur und nutzt dieselbe Tokenizer-Konfiguration, was eine nahtlose Integration in das gesamte Llama-Ökosystem ermöglicht.

Mit nur 2 bis 4 GB RAM läuft TinyLlama mühelos auf praktisch jedem Gerät — vom Laptop über Smartphones bis hin zu Einplatinenrechnern wie dem Raspberry Pi. Die Inferenzgeschwindigkeit ist bemerkenswert: Auf modernen CPUs generiert das Modell über 50 Token pro Sekunde, auf GPUs noch deutlich schneller. Trotz seiner kompakten Größe zeigt TinyLlama solide Leistungen bei einfachen Textgenerierungsaufgaben, Zusammenfassungen und grundlegenden Frage-Antwort-Szenarien.

Natürlich kann es nicht mit 7B- oder 13B-Modellen mithalten, aber für On-Device-KI, Edge Computing und Prototyping ist es eine ausgezeichnete Wahl. Die Apache-2.0-Lizenz erlaubt uneingeschränkte kommerzielle Nutzung. TinyLlama ist über Ollama, LM Studio und llama.cpp verfügbar und dient häufig als Benchmark-Modell, um die Untergrenze der Leistungsfähigkeit kleiner Sprachmodelle zu evaluieren.

Fähigkeiten-Matrix

Was kann TinyLlama — und was nicht?

🇩🇪 Deutsch-Chat

2.0

🇬🇧 Englisch-Chat

3.0

🗣️ Multilingual

2.0

💻 Code-Generierung

1.5

🌍 Übersetzung

1.5

📋 Zusammenfassung

2.5

📄 RAG / Dokumente

2.0

🔧 Tool-Use / Function Calling

—

🌐 Browser-Automatisierung

—

👁️ Bildverständnis

—

🧮 Mathematik / Logik

1.5

✍️ Kreatives Schreiben

2.0

Unterstützte Programmiersprachen: Python, JavaScript

Hardware-Anforderungen

Größe	Min. RAM	Empf. VRAM	CPU möglich?	Quantisierung	Empfohlene GPU
1.1B	2 GB	2 GB	✓ Ja (langsam)	Q4_K_M	Nicht nu00f6tig

GPU-Kaufberatung mit aktuellen Preisen ansehen

Kompatibilität

✓ Ollama

✓ LM Studio

✓ llama.cpp

✓ vLLM

✓ Open WebUI

✓ Text Gen WebUI

✓ Jan.ai

Bewertung

Output-Qualität ★★☆☆☆ 2.5/5

Inference-Speed ★★★★★ 5.0/5

RAM/VRAM-Effizienz ★★★★★ 5.0/5

War diese Übersicht hilfreich?