Update zur AI-Bilderstellung: Midjourney 5.1

Seit Ende 2022 experimentiere ich gelegentlich mit AI-Bildgeneration herum. Inzwischen sind einige neue Versionen von Midjourney verfügbar. Hier ein paar Eindrücke zu Midjourney 5.1.

Im Unterschied zu Version 5.0 ist es wieder mehr opinionated, also interpretiert mehr und nimmt sich mehr Freiheiten. Bereits mit einzelnen, relativ abstrakten Begriffen (distraction, hyperinflation, mismanagement) bekommt man ansprechende Bilder, die den Begriff umsetzen.

Das bedeutet natürlich auch, dass jeder Andere diese Ergebnisse ohne viel Erfahrung ebenso erzeugen kann, die Ergebnisse also eher beliebig sind. Wenn man Bilder erzeugen will, die etwas spezifischer in der Aussage sind, braucht es elaborierte Prompts, sog. Promptcrafting. Dazu gibt es inzwischen verschiedene Kurse auf Udemy (z.B. Midjourney Mastery: Create Visually Stunning AI Art), viele Videos auf YouTube (z.B. AI Wealth, Tokenized AI by Christian Heidorn) und verschiedene Anleitungen (z.B. Midlibrary) oder Datenbanken (z.B. AI Art Studio 1.0). In einigen Monaten ist eine kleine Industrie rund um das Promptcrafting, also das Schreiben wirksamer Prompts für Midjourney oder ChatGPT, entstanden. Wer gerne visuell denkt findet Spaß daran, mit den Prompts zu experimentieren und damit zu immer persönlicheren Ergebnissen zu kommen. Auch ich werde in Zukunft weiter mit Prompts experimentieren.

Midjourney (wie auch ChatGPT) verstehen nicht wirklich die Inhalte, weil ihnen der Kontext fehlt.
Das habe ich mit einem kleinen Experiment nachvollzogen. Seit der Schulzeit hat mich immer wieder „Der Blindensturz“ von Pieter Bruegel dem Älteren fasziniert, weil man ihn so oft in freier Wildbahn erleben kann.

Wikimedia, Original im Museo di Capodimonte, Neapel

Mit dem Befehl „/describe“ und dem Hochladen eines Bildes kann man eine Bildbeschreibung in Midjourney erzeugen. Midjourney gibt als Ergebnis für den Blindensturz vier Möglichkeiten:

  1. painting of men carrying a sword in a village, in the style of rogier van der weyden, humorous imagery, sigma 105mm f/1.4 dg hsm art, joachim patinir, earthworks, slumped/draped, high speed sync –ar 43:24
  2. a painting of three men holding a shovel, in the style of figures in motion, altarpiece, zeiss milvus 25mm f/1.4 ze., southern countryside, light brown and gray, street scene, glazed surfaces –ar 43:24
  3. 1540 depictions of the knight of ansalon carrying a boy into the forest, in the style of suburban ennui capturer, installation-based, action paintings, slumped/draped, gray and brown, realist detail, neue sachlichkeit –ar 43:24
  4. a painting with men and people holding the flag, in the style of pieter brueghel the younger, erica hopper, rogier van der weyden, zeiss milvus 25mm f/1.4 ze., aestheticized violence, rural life depictions, dark silver and light bronze –ar 43:24

Den wichtigen Punkt, dass es sich um Blinde handelt, konnte Midjourney nicht entdecken, vermutlich weil es im Unterschied zu Menschen keinen Kontext hat. Aber auch viele Menschen würden das Bild nicht richtig verstehen, wenn sie nicht den Titel hätten oder es in der Schule behandelt würde.

Wenn man aus einer der Bildbeschreibungen von Midjourney ein weiteres Bild erzeugen lässt, kommt folgendes heraus.

Ist das Unverständnis von Midjourney ein Problem? Für mich nicht, wenn ich gelernt habe wie ich Midjourney steuere und seine Beschränkungen begreife. Der Hammer muss auch nicht den Bauplan für das Haus verstehen, wenn der Zimmermann weiss, wie er mit dem Hammer umgeht.

Um Midjourney und ChatGPT gibt es eine aktuell eine Auseinandersetzung und die Forderung nach Zensur oder strafbewehrter Kennzeichnungspflicht. Viele Kritiker sind in ihren Urteilen nicht von unmittelbarer Erfahrung oder Interaktion mit AI getrübt. Ähnliche Diskussionen gab es schon früher bei anderen technischen Innovationen, vermutlich vom Buchdruck (sehr schön beschrieben in „Der Name der Rose“ von Umberto Eco) über Computer und Textverarbeitung bis zu den sozialen Medien als Konkurrenz zu den Mainstream-Medien. Wenn die Ausbreitung von AI nicht eingeschränkt wird, „kracht dann die Wirtschaft … werden dann keine Steuern mehr gezahlt“? Vermutlich ist es nicht so einfach. Für bestimmte Berufe wird es vermutlich eine starke Konkurrenz durch AI geben, zumindest in bestimmten Segmenten. Midjourney ist keine Konkurrenz für Künstler, aber kann den Bedarf an Gebrauchskunst z.B. in der Werbebranche in Zukunft verringern. Dafür werden aber auch neue Berufe und Beschäftigungsfelder entstehen. Solche Verdrängungen hat es in der Vergangenheit schon oft gegeben, v.a. durch Arbeitskräfte mit deutlich geringeren Löhnen im Ausland, z.B. mit Fiverr, aber v.a. in der Industrie.

Die spannende Frage ist eher eine andere. Die Umschichtung vieler früherer Industrienationen in überwiegend Dienstleistungsnationen wurde u.a. durch eine Expansion von Geldmenge und Staatsverschuldung begleitet und erleichtert. Für einige Nationen war dies bisher problemlos möglich. Wenn die Weltwirtschaft sich stärker in eine multipolare Struktur wandelt und damit das Währungssystem könnte es sein, dass eine solche Abfederung zukünftig nicht mehr so leicht möglich ist.

Zwei Besonderheiten prägen die Auseinandersetzung um AI heute. Zum einen sind die gesellschaftlichen Gruppen die sich heute bedroht sehen artikulierter als jene Gruppen, denen das früher geschah. Zum zweiten finden gesellschaftliche Auseinandersetzungen heute z.T. mit mehr Schaum vor dem Mund statt als vor einigen Jahrzehnten. Keine Besonderheit ist es, dass einzelne Staaten relativ wenig tun können, um solche Innovationen aufzuhalten oder zu steuern. Das war bereits bei der Verlagerung der verarbeitenden Industrie in sog. Billiglohnländer der Fall. Diesmal ist es so, dass Europa in der AI-Entwicklung im internationalen Massstab unbedeutend ist. Über 90% der relevanten Veröffentlichungen und Patente zu AI kommen aus China.