Automatisierte Kreativarbeit – Wenn der Computer malen lernt

Geradezu erstaunlich sind die Bilder, die die neueste Generation von Tools wie Dall-E 2 hervorbringt. Sie scheinen von Bildern, die von Menschen gezeichnet, fotografiert und konzipiert worden sind, kaum mehr unterscheidbar. Was läuft da hinter den Kulissen ab? Was bedeutet das alles für die Kreativbranche? Und welche Konsequenzen sollen wir daraus ziehen?

© Prompt: Alex Gotter — »a close portrait of a man in an alley by night smoking bokeh graflex«

Illustrator*innen, Grafiker*innen, Fotograf*innen und Künstler*innen kosten Geld. Das ist eine lästige Tatsache, müssen alle diese Menschen sich doch in der Regel ihr Leben finanzieren können. Manch gewinnorientierte*r Manager*in mag sich da denken, wie schön es doch wäre, wenn sich auch Kreativarbeit – so wie bereits viele manuell-monotone Jobs – automatisieren ließe. Wenn statt einem Menschen eine App die nächste Werbekampagne, das neue Logo oder das Cover für das kommende Magazin ausspucken würde. Was sich noch vor wenigen Jahren nach einem kapitalistischen Fiebertraum angehört hat, ist mittlerweile nahezu Realität. Aktuelle Tools wie Dall-E 2, Midjourney oder Stable Diffusion sind zwar offiziell noch in aktiver Entwicklung, liefern allerdings bereits jetzt Ergebnisse, die für viele Verwendungszwecke adäquater Ersatz für menschliche Handarbeit sein können. Und die Entwicklung schreitet rasant voran: Die Ergebnisse werden besser, der Zugang einfacher, die Möglichkeiten vielfältiger.

Geld für Rechenzeit

Hinter dem bekanntesten Tool Dall-E 2 steht die Firma Open AI. Der Name täuscht, denn offen ist das Unternehmen schon seit einiger Zeit nicht mehr. Ursprünglich als gemeinnütziges Labor zur Erforschung von künstlicher Intelligenz gegründet, ist die Firma mittlerweile im Kern ein profitorientiertes Unternehmen. Zu den primären Geldgeber*innen zählen Elon Musk und Microsoft. Dall-E 2 läuft derzeit ausschließlich über Rechenzentren von Open AI. Entsprechend kann die Firma bestimmen, wer Zugang hat, und sich die benötigte Rechenzeit bezahlen lassen.

Auch der größte Konkurrent Midjourney läuft nicht lokal auf dem eigenen Rechner, sondern im Netz. Nach einer Testphase muss hier ein monatliches Abo abgeschlossen werden, um weiterhin Bilder generieren zu können. Stable Diffusion hingegen ist eine der wenigen Implementierungen, deren Code völlig frei und offen verfügbar ist. Zudem läuft das Tool auch auf Heimrechnern. Dies erfordert allerdings ein gewisses Maß an Know-how und Rechenleistung. Deshalb gibt es auch hier Lösungen, die Stable Diffusion auf Servern von Rechenzentren, etwa bei Google, laufen lassen – wiederum gegen Bezahlung, versteht sich. Bei allen Varianten halten sich die Preise für kleinere Experimente in Grenzen. Wer die Tools im großen Stil nutzen möchte, darf jedoch nach einer Zeit merklich in die Geldtasche greifen. Nur eben nicht ganz so wie für Menschen, die eine ähnliche Arbeit verrichten würden.

Kreative Prompts

Völlig ohne Menschen kommt der Prozess aber noch nicht aus, denn irgendjemand muss die Tools noch immer entwickeln und anwenden. Zweiteres ist in der Praxis zunächst recht trivial. Jedes Tool bietet die Möglichkeit, einen Text, den sogenannten »Prompt«, einzugeben. Dieser Prompt beschreibt, was generiert werden soll. Das kann recht einfach und allgemein sein oder höchst spezifisch. Für das Cover dieses Magazins war das etwa schlicht »Person looking at smartphone by Egon Schiele«. Zu wissen, welcher Prompt bei welchem Tool die besten Ergebnisse erzielt, ist die größte Schwierigkeit und erfordert mitunter noch Geschick. Dann beginnt die Bildgenerierung. Schrittweise werden Bilder sichtbar, zunächst verschwommen, dann immer klarer.

»stock market crash, photorealistic, stock photo, over-the-shoulder shot, medium shot« (Prompt: Alex Gotter)

Wie das genau funktioniert, ist im Zusatzelement am Ende dieses Artikels nachlesbar. Meistens generiert das Tool gleich mehrere Varianten. Die Trefferquote ist noch nicht so exakt, dass nicht die eine oder andere Niete dabei wäre. Die fertigen Bilder lassen sich direkt exportieren, als Ausgangspunkt für neue Varianten verwenden oder mit weiteren Tools adaptieren. Derzeit kann es noch einige Versuche benötigen, bis das Ergebnis den Vorstellungen entspricht.

Naive Computer

Das liegt unter anderem daran, dass Dall-E und Co wortwörtlich nicht wissen, was sie tun. Wenn sie die Aufgabe bekommen, eine Hand zu zeichnen, dann haben sie kein Konzept davon, was das ist. Sie wissen nicht, was die Funktion oder Anatomie einer Hand ist. Bekannt ist den Tools lediglich, dass der Textprompt »Hand« mit einer bestimmten Anordnung von Pixeln korreliert. Aus diesem Grund ist es nicht ungewöhnlich, in AI-Bildergebnissen Hände mit sieben Fingern zu finden, die sich wie weiche Nudeln verformen und an denen Gegenstände scheinbar schwerelos kleben.

Die bildgenerierenden Tools sind in diesem Sinne naiv. Sie sind darauf getrimmt, wie visuelle Strukturen beschaffen sind, nicht darauf, was sie abbilden oder bedeuten. Diese Eigenheit zeigt, dass die Bezeichnung als künstliche Intelligenz diese Programme eigentlich überbewertet. Sie sind weder intelligent noch lernen bzw. malen sie. Diese Begriffe evozieren Bilder der menschlichen Äquivalente dieser komplexen kreativ-handwerklichen Tätigkeiten und Fähigkeiten.

»black and white photography of brutalist church in the middle of nowhere, fine art photography, high detail, high resolution, 4k« (Prompt: Alex Gotter)

Worin Computer aber tatsächlich reüssieren, ist eine Eigenschaft: repetitive Tätigkeiten immer und immer wieder auszuführen. Und das extrem schnell und extrem häufig. Training ist nichts als endlose Parameteranpassung auf Basis eines vorgegebenen Korpus an Bildern. Bildgenerierung nichts anderes als mechanische Anwendung dieser angepassten Parameter. Dall-E, Midjourney und Stable Diffusion malen keine Bilder, sie formen visuelle Strukturen aus anderen Bildern nach. Sie sind nicht kreativ, sie sind imitativ.

Bilder-Bias

Insofern sind die Ergebnisse immer von diesem Trainingskorpus abhängig. Sicher, über diverse Tricks und Kniffe können Programmierer*innen verbessernd eingreifen. Doch jede Tendenz, jedes Vorurteil des Korpus bzw. der Code-Urheber*innen, drückt sich im Tool und dessen Ergebnissen aus. So werden etwa aus »doctors« überwiegend weiße Männer. Mittlerweile lässt sich der Korpus bei manchen Tools auch anhand von eigenen Bildern trainieren, doch es werden zahlreiche hochgeladene Bilder benötigt, um brauchbare Trainingsergebnisse zu erzielen.

Auch wenn etwa bei Dall-E nicht gänzlich klar ist, woher die Programmierer*innen die Trainingsbilder genommen haben: Bei der benötigten Menge an Bildern war wohl nicht immer völlige Sorgfalt im Spiel. Nicht umsonst schleicht sich etwa bei Dall-E gerne die gestellte, übertriebene, anästhetische Ästhetik von Stock-Fotografie ein. Open AI gibt nicht öffentlich bekannt, welche Bilder Teil des Trainingskorpus sind. Es lassen sich hier nur Vermutungen anstellen, dass die Firma unter anderem einfach die Rechte für ganze Kataloge von Stock-Fotografie bei Onlineportalen aufgekauft haben könnte.

Copyright mit Fragezeichen

Anders sieht dies bei der Open-Source-Konkurrenz Stable Diffusion aus. Hier wurde eine Bild-Text-Datenbank namens LAION mit insgesamt fünf Milliarden Bildern eingesetzt. Diese Bilder bezieht LAION einfach direkt aus dem Internet. Die deutschen Ersteller*innen der Datenbank berufen sich darauf, dass sie nicht die Bilder selbst, sondern nur Links und Metadaten weitergeben. Stability AI, die Firma hinter Stable Diffusion, schiebt den Ball zurück an LAION und merkt an, dass die Datenbank unter »Beachtung von deutschem Recht« erstellt worden sei. Außerdem lerne dieses Modell aus prinzipiellen Zusammenhängen und die Ergebnisse seien somit keine »direkten Kopien eines einzelnen Werkes«.

Bezüglich Copyright der entstehenden Bilder hält sich Stability AI aber dann doch bedeckt und nennt es »komplex« und »abhängig von der jeweiligen Judikatur«. Open AI und Midjourney sind da deutlicher und versprechen volle kommerzielle Nutzungsrechte für alle generierten Bilder. Erste Verfahren im Bereich Urheber*innenrecht laufen schon. Im Februar lehnte die US-amerikanische Copyright-Behörde etwa ab, dass der Bildgenerator der Firma Creativity Machine selbst Autor eines Bildes sein könne. Begründung war, dass die notwendige »menschliche Autor*innenschaft« fehle. Es scheint, als wäre sich die Rechtsprechung selbst noch nicht ganz sicher, wie sie mit dieser neuen Problematik umgehen soll.

Angst und Chancen

Ähnliche Ambivalenz herrscht vielerorts auch bei Künstler*innen. CNN etwa berichtete von Künstler*innen wie Erin Hanson, deren Stil Stable Diffusion so gut kopiert, dass sie die generierten Bilder nach eigenen Angaben einfach in ihr Œuvre aufnehmen könnte. Das Online-Magazin Kotaku berichtete wiederum von Designer*innen wie Jon Juárez, der im Web Imitationen seines Stils entdeckt hat – die Tools hatten sogar seine verwaschene Unterschrift nachgeahmt. Freigegeben hatten beide ihre Bilder allerdings nie für diese Verwendung, wie unzählige andere lebende Künstler*innen wurden sie einfach Teil von enormen Trainingsdatenbanken wie LAION. Aber selbst, wenn die Urheber*innen der Trainingsbilder die Rechte verkauft oder Bilder frei zur Verfügung gestellt haben, bleibt fraglich, ob sie mit solch einer Verwendung rechnen konnten. Selbst vor wenigen Jahren hatten vermutlich noch wenige Leute eine Vorstellung davon, wie rasant die eigenen Bilder plötzlich dazu eingespannt werden könnten, die persönliche Lebensgrundlage zu eliminieren.

Offensichtlich sehen aber nicht alle diese Entwicklung so schwarz. Der Dienst Midjourney etwa läuft live über die Chatplattform Discord. Wer nicht extra für Privatsphäre zahlt, dessen generierte Bilder sind für alle gerade mit dem Tool arbeitenden Menschen einsehbar. Und es ist schon erstaunlich, was da so generiert wird an Stilen und Sujets. Wie detailliert und geschickt Prompts formuliert werden und wie exakt Menschen bereits jetzt mit diesen Werkzeugen umzugehen verstehen.

»stealing, screen printing, 4k« (Prompt: Alex Gotter)

Denn letzten Endes sind Dall-E und Co Tools, die auch neue künstlerische Chancen eröffnen. Etwa einen gesamten Comic zu erschaffen, wie »Goats« von Elvis Deane, der akribisch jedes einzelne Panel von Midjourney generieren ließ. Die Ästhetik wirkt träumerisch und verunsichernd. Dass die AI nicht immer weiß, wie sie anatomisch korrekte Menschen und Ziegen zeichnen soll – geschweige denn Mensch-Ziege-Hybride – trägt zur unbequemen Atmosphäre bei. Hier scheint AI keine Abkürzung zu sein, sondern ein neuer Weg, kreative Ideen umzusetzen. Und manchmal sind auch Ausflüchte durch Software-Unterstützung willkommen, wie ein*e anonyme*r Künstler*in gegenüber Kotaku anmerkt: »Mach nur, AI, lerne ganz genau so zu malen wie ich! Dann kann ich es nur noch ein bisschen adaptieren, abgeben und ein Nickerchen machen. Weil die Welt stinkt und jeder Tag ist die Hölle.«

Was sich anhand von künstlicher Intelligenz jedenfalls zeigt, ist, wie überholt nicht nur das geltende Urheber*innenrecht, sondern die gesamten Konzepte von Urheber*innenschaft prinzipiell sind. Denn wer ist etwa Urheber*in von unserem Cover? Die Programmierer*innen, die das Werkzeug gebaut haben? Egon Schiele oder die Fotograf*innen der Person, mit deren Bildern das Tool trainiert wurde? Unser Fotograf Alex Gotter, der den Prompt entwickelt und das Tool verwendet hat? Das Werkzeug selbst, dessen Netzwerk aus Parametern für Menschen kaum noch nachvollziehbar ist? Wo sitzt hier die kreative Energie? Wer leistet die Arbeit? Wo lässt sich Originalität verorten? Und wie unterscheidet sich das eigentlich von konventioneller Kreativarbeit, bei der wir auch ständig andere Menschen kopieren, von ihnen lernen und ihre Arbeit für uns adaptieren?

Dass Plattformen wie Dall-E, Midjourney oder Stable Diffusion zukünftig einen Platz in der Generierung von visuellen Inhalten einnehmen werden, scheint unvermeidlich. Wie üblich lässt sich die Uhr auch hier nicht zurückdrehen. Die Frage ist, wie wir damit umgehen werden. Ob wir es als Anlass dafür nehmen, längst fällige Änderungen etwa am Urheber*innenrecht oder in der Bewertung und Entlohnung von (Kreativ-)Arbeit anzugehen. Ob wir die Chancen darin sehen, diese neuen Tools für neue Formen von Kunst und für künstlerischen Ausdruck von Menschen, die derzeit noch keine Kunst machen, zu verwenden. Oder ob wir uns damit zufriedengeben, sie in die übliche Verwertungsspirale neoliberaler Technikanbetung einzugliedern.

Dall-E 2 ist hier zugänglich, Midjourney hier und der Code von Stable Diffusion hier.

Weiter zu: Wie aus Rauschen Bilder werden – Eine kurze Einführung in die Mechanik hinter den Kulissen von Dall-E und Co

Newsletter abonnieren

Abonniere unseren Newsletter und erhalte alle zwei Wochen eine Zusammenfassung der neuesten Artikel, Ankündigungen, Gewinnspiele und vieles mehr ...