Update zur AI-Bilderstellung: Midjourney 5.1

Seit Ende 2022 experimentiere ich gelegentlich mit AI-Bildgeneration herum. Inzwischen sind einige neue Versionen von Midjourney verfügbar. Hier ein paar Eindrücke zu Midjourney 5.1.

Im Unterschied zu Version 5.0 ist es wieder mehr opinionated, also interpretiert mehr und nimmt sich mehr Freiheiten. Bereits mit einzelnen, relativ abstrakten Begriffen (distraction, hyperinflation, mismanagement) bekommt man ansprechende Bilder, die den Begriff umsetzen.

Das bedeutet natürlich auch, dass jeder Andere diese Ergebnisse ohne viel Erfahrung ebenso erzeugen kann, die Ergebnisse also eher beliebig sind. Wenn man Bilder erzeugen will, die etwas spezifischer in der Aussage sind, braucht es elaborierte Prompts, sog. Promptcrafting. Dazu gibt es inzwischen verschiedene Kurse auf Udemy (z.B. Midjourney Mastery: Create Visually Stunning AI Art), viele Videos auf YouTube (z.B. AI Wealth, Tokenized AI by Christian Heidorn) und verschiedene Anleitungen (z.B. Midlibrary) oder Datenbanken (z.B. AI Art Studio 1.0). In einigen Monaten ist eine kleine Industrie rund um das Promptcrafting, also das Schreiben wirksamer Prompts für Midjourney oder ChatGPT, entstanden. Wer gerne visuell denkt findet Spaß daran, mit den Prompts zu experimentieren und damit zu immer persönlicheren Ergebnissen zu kommen. Auch ich werde in Zukunft weiter mit Prompts experimentieren.

Midjourney (wie auch ChatGPT) verstehen nicht wirklich die Inhalte, weil ihnen der Kontext fehlt.
Das habe ich mit einem kleinen Experiment nachvollzogen. Seit der Schulzeit hat mich immer wieder „Der Blindensturz“ von Pieter Bruegel dem Älteren fasziniert, weil man ihn so oft in freier Wildbahn erleben kann.

Wikimedia, Original im Museo di Capodimonte, Neapel

Mit dem Befehl „/describe“ und dem Hochladen eines Bildes kann man eine Bildbeschreibung in Midjourney erzeugen. Midjourney gibt als Ergebnis für den Blindensturz vier Möglichkeiten:

  1. painting of men carrying a sword in a village, in the style of rogier van der weyden, humorous imagery, sigma 105mm f/1.4 dg hsm art, joachim patinir, earthworks, slumped/draped, high speed sync –ar 43:24
  2. a painting of three men holding a shovel, in the style of figures in motion, altarpiece, zeiss milvus 25mm f/1.4 ze., southern countryside, light brown and gray, street scene, glazed surfaces –ar 43:24
  3. 1540 depictions of the knight of ansalon carrying a boy into the forest, in the style of suburban ennui capturer, installation-based, action paintings, slumped/draped, gray and brown, realist detail, neue sachlichkeit –ar 43:24
  4. a painting with men and people holding the flag, in the style of pieter brueghel the younger, erica hopper, rogier van der weyden, zeiss milvus 25mm f/1.4 ze., aestheticized violence, rural life depictions, dark silver and light bronze –ar 43:24

Den wichtigen Punkt, dass es sich um Blinde handelt, konnte Midjourney nicht entdecken, vermutlich weil es im Unterschied zu Menschen keinen Kontext hat. Aber auch viele Menschen würden das Bild nicht richtig verstehen, wenn sie nicht den Titel hätten oder es in der Schule behandelt würde.

Wenn man aus einer der Bildbeschreibungen von Midjourney ein weiteres Bild erzeugen lässt, kommt folgendes heraus.

Ist das Unverständnis von Midjourney ein Problem? Für mich nicht, wenn ich gelernt habe wie ich Midjourney steuere und seine Beschränkungen begreife. Der Hammer muss auch nicht den Bauplan für das Haus verstehen, wenn der Zimmermann weiss, wie er mit dem Hammer umgeht.

Um Midjourney und ChatGPT gibt es eine aktuell eine Auseinandersetzung und die Forderung nach Zensur oder strafbewehrter Kennzeichnungspflicht. Viele Kritiker sind in ihren Urteilen nicht von unmittelbarer Erfahrung oder Interaktion mit AI getrübt. Ähnliche Diskussionen gab es schon früher bei anderen technischen Innovationen, vermutlich vom Buchdruck (sehr schön beschrieben in „Der Name der Rose“ von Umberto Eco) über Computer und Textverarbeitung bis zu den sozialen Medien als Konkurrenz zu den Mainstream-Medien. Wenn die Ausbreitung von AI nicht eingeschränkt wird, „kracht dann die Wirtschaft … werden dann keine Steuern mehr gezahlt“? Vermutlich ist es nicht so einfach. Für bestimmte Berufe wird es vermutlich eine starke Konkurrenz durch AI geben, zumindest in bestimmten Segmenten. Midjourney ist keine Konkurrenz für Künstler, aber kann den Bedarf an Gebrauchskunst z.B. in der Werbebranche in Zukunft verringern. Dafür werden aber auch neue Berufe und Beschäftigungsfelder entstehen. Solche Verdrängungen hat es in der Vergangenheit schon oft gegeben, v.a. durch Arbeitskräfte mit deutlich geringeren Löhnen im Ausland, z.B. mit Fiverr, aber v.a. in der Industrie.

Die spannende Frage ist eher eine andere. Die Umschichtung vieler früherer Industrienationen in überwiegend Dienstleistungsnationen wurde u.a. durch eine Expansion von Geldmenge und Staatsverschuldung begleitet und erleichtert. Für einige Nationen war dies bisher problemlos möglich. Wenn die Weltwirtschaft sich stärker in eine multipolare Struktur wandelt und damit das Währungssystem könnte es sein, dass eine solche Abfederung zukünftig nicht mehr so leicht möglich ist.

Zwei Besonderheiten prägen die Auseinandersetzung um AI heute. Zum einen sind die gesellschaftlichen Gruppen die sich heute bedroht sehen artikulierter als jene Gruppen, denen das früher geschah. Zum zweiten finden gesellschaftliche Auseinandersetzungen heute z.T. mit mehr Schaum vor dem Mund statt als vor einigen Jahrzehnten. Keine Besonderheit ist es, dass einzelne Staaten relativ wenig tun können, um solche Innovationen aufzuhalten oder zu steuern. Das war bereits bei der Verlagerung der verarbeitenden Industrie in sog. Billiglohnländer der Fall. Diesmal ist es so, dass Europa in der AI-Entwicklung im internationalen Massstab unbedeutend ist. Über 90% der relevanten Veröffentlichungen und Patente zu AI kommen aus China.

Gaularfjellet Utsikten (Norwegen)

Spreetshoogte Pass (Namibia): 3D-Map

Hier kommt eine auf diesem Blog neue Darstellungsform für Landschaften und demnächst auch Tracks und Reiseverläufe. Man kann mit der Maus in die 3D-Karte hineinklicken und die Ansicht verändern.

Ein Video der Abfahrt vom Spreetshoogte Pass hatte ich 2015 auf Youtube gepostet:

Ein anderes Video von 2017 zeigt den Pass aus der Drohnenperspektive:

Was macht den Spreetshoogte Pass so interessant? 1. die Aussicht ist spektakulär. 2. von Windhoek führt ein selten befahrener und landschaftlich schöner Weg dorthin. 3. die Abfahrt aus dem Khomas Hochland herunter in de Namib Wüste war vor dem Bau der Straße recht abenteuerlich und ist auch heute noch spannend, wie man im ersten Video sehen kann.

Ich bin meinem Freund Jim Myers sehr dankbar, dass er mich zusammen mit zwei Praktikantinnen im April 2000 in einem Sonntagsausflug zum Pass gebracht hat. Das war ein beeindruckendes Erlebnis.

April 2000 am Spreetshoogte Pass

Versuche mit AI-Bilderstellung

Wer gerne fotografiert oder malt oder sich für Bildende Kunst interessiert, wird in den letzten Monaten auf die Bilderstellung mit Künstlicher Intelligenz (Artificial Intelligence, AI) aufmerksam geworden sein. Mit DALL-E und Midjourney sind zwei Plattformen populär geworden, die relativ leicht zugänglich sind und teilweise erstaunliche Ergebnisse erzeugen.

In beiden Plattformen gibt man im sog. Prompt eine verbale Beschreibung des Bildes ein, welches erzeugt werden soll. Es ist auch möglich, Bilddateien als Inspiration für die AI-Generatoren hochzuladen. Mit den Prompts muss man eine Weile experimentieren, das ist eher eine Programmiersprache für die AI als eine umgangssprachliche Beschreibung. Auf den Plattformen kann man die Bilder anderer Nutzer sehen und die Prompts, die sie verwendet haben. Es gibt Seiten für den Austausch von Prompts, für die programmgesteuerte Generierung von Prompts und man kann Prompts auch kaufen.

Die Implikationen der AI-Bilderstellung sind vielfältig und man versteht sie besser, wenn man die Systeme etwas genauer kennengelernt hat. In die AI-Generation fliessen mindestens indirekt Werke anderer Künstler ein. Man kann z.B. bei der Erstellung eines Bildes den Stil eines Künstlers angeben, der kopiert werden soll, also z.B. Marc Chagall.

Midjourney prompt: blond cute elf on a sunny field Marc Chagall — v 4

In das Bildarchiv der Systeme und ihr Maschinenlernen fliessen viele Bilder ein, an denen Künstler lange gearbeitet haben. Ihre Urheberrechte sind mindestens indirekt betroffen. Allerdings würde das auch für einen menschlischen Künstler gelten, der in seiner Ausbildung Inspirationen aufnimmt oder sogar Teile eines Stils kopiert.

Die Ergebnisse der AI-Bildgenerierung sind in keiner Weise geschützt. Der „Autor“ kann seine Prompts bei Weiterverwendung verbergen. Er kann die Bilder auf T-Shirts drucken lassen oder in Präsentationen verwenden. Häufig werden die Bilder nochmal in Photoshop weiterverarbeitet. Mein Neffe fragte mich: „Bist Du Dir sicher, dass Du diese Bilder geschaffen hast?“. In unmittelbarem Sinne bin ich mir sicher. Aber in einem weiteren Sinne bleibt unklar, wer hier der Autor ist oder ob es einen solchen gibt.

Der Markt für Gebrauchskunst wird sich durch die AI-Bilderstellung verändern. Ich habe in der Vergangenheit gelegentlich Künstlerinnen beauftragt, für mich etwas zu zeichnen, aus Deutschland, Brasilien, Indien (z.T. über Fiverr). Die Ergebnisse habe ich als Geschenk oder in Präsentationen verwendet. Für eine Präsentation auf Tableau Public brauchte ich neulich ein Bild, welches den sprichwörtlichen Kanarienvogel im Kohlenbergwerk symbolisieren sollte. In DALL-E konnte ich ein geeignetes Bild in 5 Minuten erzeugen. Es wird aber auch Künstler geben, die ihrerseits Gebrauch von AI-Bilderstellung machen.

DALL-E prompt: canary bird, gas mask

Für den Kunstmarkt muss man wenig Konsequenzen erwarten. Hier geht es ja primär um den erwarteten Wertgewinn von Kunstwerken, der ist bei AI-Produkte nahe Null. Interessant wären evtl. NFTs mit modifizierten AI-Bildern.

Im Hauptmenü dieses Blogs gibt es jetzt einen Eintrag AI, da wird es bald auch einige Aktualisierungen geben. Die Bildererstellung mit AI hat einen beträchtlichen Suchtfaktor. Übrigens sind nicht nur Bildende Künstler von AI betroffen, sondern auch Sprecher. Es gibt Plattformen die bereits heute recht erfolgreich menschliche Stimmen synthetisieren, z.B. Descript.

Diese Bilder wurden mit Midjourney geschaffen:

Diese Bilder wurden mit DALL-E geschaffen:

Mrauk U (Myanmar) 2004, 2011

Mrauk U (gesprochen Mjau U) ist eine Kleinstadt (ca. 36.000 Einwohner) im Nordwesten von Myanmar, im Bundesstaat Rakhaing. Sie ist touristisch ein Geheimtipp und fotografisch reizvoll durch die vielen buddhistischen Tempel und ihre Integration in das alltägliche Leben der Menschen, sowie die malerischen Hügel die Mrauk U umgeben. Die Anreise erfolgt von der Hafenstadt Sittwe (Flugverbindung nach Yangoon) durch eine 7-stündige Bootsfahrt. Die relative Abgelegenheit hat bisher Massentourismus in Mrauk U verhindert, anders als in Bagan. Es gibt keine nach internationalen Maßstäben luxuriösen Hotels aber einige Restaurants mit sehr gutem Essen. Mrauk U ist wahrscheinlich einer der wenigen bisher kaum globalisierten und modernisierten Orte auf der Welt, hat aber immerhin 24h Strom am Tag. Ich kann mich nicht erinnern, ob es 2011 bereits Internetzugang gab.