TinyLlama
von Zhang Peiyuan · Lizenz: Apache 2.0 · Kommerziell nutzbar
Kompaktes 1.1B-Sprachmodell trainiert auf 3 Billionen Token
Was ist TinyLlama?
TinyLlama ist ein kompaktes Sprachmodell mit 1,1 Milliarden Parametern, das auf beeindruckenden 3 Billionen Token trainiert wurde — deutlich mehr als für seine Größe üblich und vergleichbar mit dem Trainingsumfang wesentlich größerer Modelle. Das Projekt verfolgt den Ansatz, dass kleinere Modelle bei ausreichendem Training erstaunlich leistungsfähig werden können. TinyLlama basiert auf der Llama-2-Architektur und nutzt dieselbe Tokenizer-Konfiguration, was eine nahtlose Integration in das gesamte Llama-Ökosystem ermöglicht.
Mit nur 2 bis 4 GB RAM läuft TinyLlama mühelos auf praktisch jedem Gerät — vom Laptop über Smartphones bis hin zu Einplatinenrechnern wie dem Raspberry Pi. Die Inferenzgeschwindigkeit ist bemerkenswert: Auf modernen CPUs generiert das Modell über 50 Token pro Sekunde, auf GPUs noch deutlich schneller. Trotz seiner kompakten Größe zeigt TinyLlama solide Leistungen bei einfachen Textgenerierungsaufgaben, Zusammenfassungen und grundlegenden Frage-Antwort-Szenarien.
Natürlich kann es nicht mit 7B- oder 13B-Modellen mithalten, aber für On-Device-KI, Edge Computing und Prototyping ist es eine ausgezeichnete Wahl. Die Apache-2.0-Lizenz erlaubt uneingeschränkte kommerzielle Nutzung. TinyLlama ist über Ollama, LM Studio und llama.cpp verfügbar und dient häufig als Benchmark-Modell, um die Untergrenze der Leistungsfähigkeit kleiner Sprachmodelle zu evaluieren.
Fähigkeiten-Matrix
Was kann TinyLlama — und was nicht?
Unterstützte Programmiersprachen: Python, JavaScript
Hardware-Anforderungen
| Größe | Min. RAM | Empf. VRAM | CPU möglich? | Quantisierung | Empfohlene GPU |
|---|---|---|---|---|---|
| 1.1B | 2 GB | 2 GB | ✓ Ja (langsam) | Q4_K_M | Nicht nu00f6tig |
Kompatibilität
Bewertung
War diese Übersicht hilfreich?