Stable Diffusion
Stable Diffusion ist ein Deep-Learning-Text-zu-Bild-Generator. Die Open-Source-Software wird hauptsächlich zur Generierung detaillierter Bilder auf der Grundlage von Textbeschreibungen verwendet, kann aber auch für andere Aufgaben wie Inpainting, Outpainting und die Erzeugung von Bild-zu-Bild-Übersetzungen auf der Grundlage einer schriftlichen Aufforderung (Prompt) eingesetzt werden.
Stable Diffusion | |
---|---|
Ein von Stable Diffusion generiertes Bild mithilfe des Prompts: „a photograph of an astronaut riding a horse“ | |
Basisdaten | |
Entwickler | Stability AI |
Erscheinungsjahr | August 22, 2022 |
Betriebssystem | Jedes, das CUDA unterstützt. |
Programmiersprache | Python |
Kategorie | Text-zu-Bild-Generator |
Lizenz | Creative ML OpenRAIL-M |
https://stability.ai/stable-image |
Stable Diffusion verwendet ein latentes Diffusionsmodell als Variante eines tiefen generativen neuronalen Netzes, das von der CompVis-Gruppe an der LMU München in Zusammenarbeit von Stability AI, CompVis LMU und Runway mit Unterstützung von EleutherAI und LAION entwickelt wurde.
Im Oktober 2022 erhielt Stability AI in einer von Lightspeed Venture Partners und Coatue Management angeführten Finanzierungsrunde 101 Millionen US-Dollar.
Der Code und die Modellgewichte von Stable Diffusion wurden veröffentlicht und können auf vielen Consumer-Hardware-Systemen ausgeführt werden, sofern diese mit einer GPU mit mindestens 8 GB Grafikspeicher ausgestattet sind. Die Verwendung auf weniger leistungsfähiger Hardware bzw. ohne GPU-Beschleunigung ist mittlerweile ebenfalls möglich, jedoch deutlich langsamer. Dieser offene Ansatz stellt eine Abkehr von proprietären Text-zu-Bild-Modellen wie DALL-E und Midjourney dar, die nur über Cloud-Dienste zugänglich sind.