Riffusion
von Riffusion (Seth Forsgren & Hayk Martiros) · Lizenz: MIT · Kommerziell nutzbar
Musik aus Text via Spektrogramm-Diffusion
Was ist Riffusion?
Riffusion ist ein innovatives Open-Source-Modell, das Musik aus Textbeschreibungen generiert, indem es einen faszinierenden Umweg über visuelle Spektrogramme nimmt. Basierend auf Stable Diffusion wurde Riffusion auf Spektrogrammen von Musikstücken feinabgestimmt und kann so aus Textprompts wie 'jazz piano solo' oder 'heavy metal guitar riff' entsprechende Spektrogramme erzeugen, die dann in Audiodaten zurückkonvertiert werden. Dieser kreative Ansatz ermöglicht die Generierung von Musikclips in Echtzeit und mit minimalem Rechenaufwand.
Riffusion benötigt nur eine GPU mit 4 GB VRAM und laeuft dank der Stable-Diffusion-Basis schnell und effizient. Die generierten Musikstücke dauern typischerweise 5-10 Sekunden und können nahtlos ineinander übergehen, was die Erzeugung längerer Kompositionen ermöglicht. Das Modell unterstützt verschiedene Musikgenres von Klassik über Pop bis Electronic.
Die MIT-Lizenz erlaubt den kommerziellen Einsatz der generierten Musik. Riffusion hat als eines der ersten lokalen Musikgenerierungsmodelle grosse Aufmerksamkeit erregt und ist der Einstiegspunkt für viele KI-Musik-Enthusiasten. Die Web-App und Python-API machen die Nutzung einfach und zugänglich.
Das Projekt hat eine aktive Community, die ständig neue Stile und Verbesserungen beisteuert. Für Podcaster und Content-Creator bietet Riffusion eine schnelle Möglichkeit, Hintergrundmusik und Jingles ohne Lizenzprobleme zu erstellen. Die lokale Ausführung garantiert vollständige Kontrolle über alle generierten Inhalte.
Fähigkeiten-Matrix
Was kann Riffusion — und was nicht?
Hardware-Anforderungen
| Größe | Min. RAM | Empf. VRAM | CPU möglich? | Quantisierung | Empfohlene GPU |
|---|---|---|---|---|---|
| 860M | 8 GB | 4 GB | ✗ Nein | fp16 | GTX 1660 6GB oder RTX 3050 |
Kompatibilität
Bewertung
War diese Übersicht hilfreich?