Ein Text-zu-Bild-Generator (auch als Text-to-Image Generator bezeichnet) ist ein KI-Algorithmus, der aus einer textbasierten Beschreibung ein Bild generieren kann. Der Generator nutzt Machine-Learning-Techniken, um Muster in einem großen Datensatz von Bildern und Textbeschreibungen zu erkennen und zu lernen, wie Bilder aus Text erstellt werden können.
Der Text-zu-Bild-Generator kann beispielsweise eine Beschreibung wie „Ein gelber Hund mit einem roten Ball in einem grünen Park“ erhalten und dann ein Bild generieren, das diese Beschreibung darstellt. Es gibt verschiedene Ansätze zur Erstellung von Text-zu-Bild-Generatoren, darunter neuronale Netze, Transformern und GANs (Generative Adversarial Networks).
Text-zu-Bild-Generatoren haben verschiedene Anwendungen, wie z. B. die Erstellung von künstlerischen oder visuellen Inhalten, die Unterstützung von Designprozessen oder die Generierung von Bildern für Computerspiele oder virtuelle Welten.
Prominente Text-zu-Bild-Generatoren sind beispielsweise DALL-E, Midjourney (beide proprietär) und Stable Diffusion (open-source).