Skip to main content


Zutaten: Zucker, Kakaomasse (50%), Milchzucker, Weizenmehl, Vollmilchpulver, Magermilchpulver, Butterreinfett, Sahnepulver, Butter (1,4%)
Kann Spuren von Analysis und Geometrie enthalten.

14_2022_titel_urne_ai_47_03

AI-Text-generierte Bilder, I: Semantik

Rike vertreibt sich die Zeit mit dem Testen von DALL.E. Sie hat viel Spaß daran. Ihr Ziel ist es, ein AI-generiertes Bild zur rot-grünen Urnenaufgabe zu erzeugen. Doch in welchen Varianten sie auch „Urne mit 3 roten und 2 grünen Kugeln“ (Urn with 3 red balls and 2 green balls) eingibt, sie erhält kein einziges Bild mit einer Urne, 3 roten und 2 grünen Kugeln. Da kommt Charly von seinem Training herein und fragt, was sie da so macht. Sie erzählt es ihm.

Semantik

Charly Woran liegt das?

Rike Die Erfinder von DALL.E haben die Erfahrung selbst gemacht [Ramesh, A., S. 16] und vermuten, dass die formale Sprache, die die Eingabe auswertet, die Attribute von Objekten nicht an die Objekte bindet, dass also aus

3 rote Kugeln

nach der Auswertung

3, rot, Kugeln

wird usw.

Charly wippt aufgeregt mit den Füßen.

Bewertung

Charly Okay, da müssen sie noch dran arbeiten. Aber ich finde die entstandenen Bilder toll, so vielfältig, ich wäre nicht darauf gekommen.

Rike Ja, stimmt, Charly. Beim flüchtigen Hinsehen haben sie eine gewisse Faszination. Sie wollen schließlich Geld verdienen. Doch es ist genauso angedacht, beim schnellen Überfliegen sollen die Bilder gefallen: Das System wurde so trainiert, die Ergebnisse wurden von Testpersonen bewertet, was wiederum bewertet wurde und einbezogen wurde.

Charly Aha?!

Rike Charly, was bist du unruhig heute, halt doch mal still.

Charly Okay, ich komme vom Training, also ich habe nicht Bilder trainiert, sondern wir haben Volleyball gespielt. War echt krass!

Rike Ich merke schon, Volleyball ist das Größte. Aber hier sollst du mal eine Testperson sein – mit einer minimalen Aufmerksamkeit.

Charly Ach, ich bin der DAU, der dümmste angenommene User?

Rike Ach, Charly, so war es doch nicht gemeint.

Charly Sorry, Rike, dann schieß los!

Kriterien

Rike Also, in einer Studie wurden die Kriterien

  • Diversität
  • inhaltliche Korrektheit (Caption Similarity)
  • Fotorealismus

[Ramesh, A., S. 11] verwendet, in einer anderen [Saharia, C., S.12] wurde die Glaubwürdigkeit untersucht – und zwar so: Den Versuchspersonen wurden zwei Bilder (ein AI-generiertes und das Originalfoto) gezeigt. Sie sollten bewerten, welches davon mit einer "echten" Kamera geschossen wurde. Sie hatten wenig Zeit zum Betrachten beider Bilder, 3 oder 5 Sekunden. Was schätzt du, wie oft hättest du richtig gelegen?

Charly Vermutlich hätte ich bei 3 oder 5 Sekunden beide Bilder als Foto eingeschätzt und ich hätte, wenn die Bilder wirklich gut sind, nur zufällig recht gehabt, sagen wir mal mit 50 %.

Rike Haha, genauso ist es gekommen, die Fehlerrate lag bei 48 %, wenn die Zeit für die Bilder kürzer war, wurde sie höher.

Charly Bei Volleyballfotos ist meine Fehlerrate bestimmt bei 0!

Rike Haha, das nächste Mal!

Charly geht immer noch aufgeregt hin und her bis er versehentlich an den Türrahmen tritt.

Charly Au! Mist! Mein Zeh!

Rike Haha!

Charly Na gut, ich setz‘ mich jetzt hin, lass uns jetzt die Bilder genauer ansehen. Du meinst, es ist doch nicht alles in Ordnung mit den Bildern?

Rike Thanks!

Zusammen finden sie verschiedene Kritikpunkte bei den Bildern.

***

Urnenmodell

Die Bilder wurden durch die Eingabe „urn model with 3 red balls and 2 green balls“ erzeugt. Urn Model ist der englische Begriff für Urnenmodell. Dieser Begriff beschreibt das mathematische Modell, auf dem die rot-grüne Urnenaufgabe und andere mathematische Urnenaufgaben beruhen.

DALL·E 2022-08-29_urn_model_1
Bild 1 (©DALL.E):
a) Kugeln liegen nicht korrekt, alle drei schweben
b) Ein Handy mit Blitzlicht wird reflektiert - offensichtlich die Imitation eines Handyfotos mit ebendiesem Look
DALL·E 2022-08-29_urn_model_2
Bild 2 (©DALL.E):
a) Obstschale mit merkwürdigen, unmöglichen Füßen
b) Kugeln liegen physikalisch nicht korrekt
c) Unschärfe der schwarzen Schale physikalisch nicht korrekt
d) „Verwischung“ am rechten unteren Rand der Schale in der Bildmontage entspricht nicht den Sehgewohnheiten, sieht wie ein Fehler in der Bildbearbeitung aus
DALL·E 2022-08-29_urn_model_3
Bild 3 (©DALL.E):
a) Merkwürdiges Gefäß zwischen Becher und Obstschale – möglicherweise eine Interpolation zwischen diesen
b) Schattenwurf nicht korrekt
c) Vordere Kugel schwebt
d) Hintergrund und Boden komplett unscharf – physikalisch nicht korrekt
DALL·E 2022-08-29_urn_model_3_2
Bild 4: Übermalung unsererseits von Bild 3:
e) Es zeigt, dass der Becher hinten offen ist – sehr unglaubwürdig
DALL·E 2022-08-29_urn_model_4
Bild 5 (©DALL.E):
a) Schattenwurf des Gefäßes anders als der Schattenwurf der Kugeln
b) Hintergrund komplett unscharf
DALL·E 2022-08-29_urn_model_4_2
Bild 6: Übermalung unsererseits von Bild 5:
c) Hier sieht man, dass die Kugeln unrund sind
d) Die hintere Kugel kann kaum auf einer schmalen Fläche auf dem Gefäß liegen
e) Unglückliche, instabile Anordnung der Kugeln

Foto

Die Eingabe lautete: „photography of an urn with 3 red balls and 2 green balls“. Der fotografische Aspekt wurde gut umgesetzt, beim näheren Hinsehen finden sich aber doch verschiedene Widersprüche gerade in der fotografischen und physikalischen Korrektheit.
Die Fotografie beruht fast immer auf Fotos von Handys. Dies kommt vermutlich daher, dass DALL.E mit einer riesigen Zahl von Bildern ("millions of millions", also eine Billion, das sind 1012) in seiner Datenbank arbeitet und riesige Kosten für das Training mit diesen hat [Dr. Mike Pound] und dass diese hauptsächlich Handyfotos sind. Sie wirken nicht professionell (inhaltlich und gestalterisch). Das ist ein großer Schwachpunkt von DALL.E.

DALL·E 2022-08-29-foto_1
Bild 7 (©DALL.E):
a) Die Reflexionen der Objekte auf dem Boden sind viel schmaler als die Objekte
b) Die grüne Kugel ist unrund
c) Die grüne Kugel hat oben einen unmotivierten Strich/fehlerhafte Reflexion
DALL·E 2022-08-29-foto_2
Bild 8 (©DALL.E):
a) Die Kugeln haben Details von Äpfeln und erinnern gleichzeitig an Weihnachtskugeln, scheint eine Interpolation zu sein
b) Alle 3 schweben in der Luft – physikalisch nicht korrekt
c) Unschärfe auf dem Boden zu stark
d) Die Unschärfe lässt auf Makrofotografie und sehr kleine Objekte schließen, ca. 10 cm lange Schüssel, zu klein für unsere Erfahrung
DALL·E 2022-08-29-foto_3
Bild 9 (©DALL.E):
a) Erinnert an Äpfel in einer Obstschale (Interpolation zwischen 2 Bildern)
b) Boden nicht korrekt gefliest
c) Richtung des Schattenwurfs der Schale entspricht nicht der anderer Objekte (diagonale Linien)
d) Unschärfe rechts vorn unglaubwürdig
DALL·E 2022-08-29-foto_4
Bild 10 (©DALL.E):
a) Erinnert an Äpfel in einer Obstschale (Interpolation zwischen 2 Bildern)
b) Reflexion der Schale auf dem Boden nicht korrekt
c) Boden unscharf verwischt – sehr unglaubwürdig
d) Reichweite der Unschärfe nicht korrekt

 

***

Übungsaufgabe

Teste selbst in DALL.E Text-generierte Bilder!