Spaziergänge in den Möglichkeitsräumen generativer KI
Thomas Hawranke & Lasse Scherffig
Das Gassi gehen im Pixelraum von Stable Diffusion
© Hawranke/Scherffig, 2024.
Entstehungsgeschichte: Was ist der Latent Space Walk?
Der Latent Space ist ein verborgener Raum. Der Begriff stammt aus der Frühzeit generativer KI und ist vor allem mit Systemen wie Autoencodern und Generative Adversarial Networks aus der Zeit von 2015 bis 2022 verbunden. Er steht aber auch weiter im Zusammenhang mit den generativen, audiovisuellen und textlichen Potentialen aktueller KI-Systeme, wie Stable Diffusion, DALL-E, oder Midjourney. Als Latent Space bezeichnet man einen Vektorraum, in dem große Datenmengen strukturiert abgebildet werden. Dieser Vektorraum ist das Resultat des Trainings dieser KI-Netzwerke. In den ›multimodalen‹ Systemen unserer Zeit werden im Latent Space Positionen (d.h. Vektoren) durch Texteingaben (Prompts) ausgewählt, um korrespondierende Bilder, bzw. Bildlichkeiten zu erhalten. Hierbei sind Latent Spaces an sich keine Bildräume, sondern vielmehr Möglichkeitsräume generativer KI, deren Bildlichkeiten zunächst einmal dekodiert werden müssen, um tatsächliche Bilder zu erhalten. Aufgrund ihrer Mehrdimensionalität sind Latent Spaces jedoch Räume, die erkundet werden können. Die wichtigste Systematisierung dieser Erkundung ist eine Form räumlicher Navigation: der Latent Space Walk. Beim Latent Space Walk wird ein Vektor im Latent Space variiert, um zu benachbarten Kodierungen zu gelangen. Durch das Dekodieren von Bildlichkeiten erscheinen diese Walks als kontinuierliche Bewegung durch die Klasse der Bilder, die von einem generativen System ermöglicht wird.
Das Gassi gehen im Latent Space von Stable Diffusion
© Hawranke/Scherffig, 2024.
Kompetenzen: Was kann der Latent Space Walk?
Der Latent Space Walk ist zunächst einmal eine stichprobenartige Erkundung möglicher Bildwelten. Durch verschiedene Methoden des Walkings werden Bild-Nachbarschaften erkundet, wobei gleichzeitig der hochdimensionale, abstrakt-mathematische Raum durch die Illusion einer Kamerabewegung mittels kontinuierlicher Bildfolgen eine visuelle Konkretisierung erfährt. Hierbei führen verschiedene Arten des Walkings zu visuell unterschiedlichen Formen des Bewegtbildes: Mal verändern sich die Bildinhalte in hoher Frequenz, was sich in einem hochgradig instabilen Video zeigt; mal werden Bildinhalte und Kompositionen stabiler und verändern sich lediglich im Detail. Weil aktuelle Systeme generativer KI aus zahlreichen Komponenten und Teil-Netzen bestehen, kann die Manipulation an unterschiedlichen Stellen der Bildgenerierung stattfinden, beispielsweise im Latent Space, der Text-Bild-Beziehungen repräsentiert oder im Raum, in dem die Bilderzeugung stattfindet. Latent Space Walks können somit den ästhetischen Möglichkeitsraum generativer KI-Systeme systematisch erkunden und über die Nachbarschaft von Bildern deren eingeschriebene Bildlichkeit erforschen und erfahrbar machen.
Das Gassi gehen im Conditioning von Stable Diffusion
© Hawranke/Scherffig, 2024.
Erkenntnisse: Was zeigt der Latent Space Walk?
Der Latent Space Walk zeigt, wie hochgradig konventionalisiert die generierten Darstellungen aktueller KI-Systeme sind. Er zeigt weiter, wie diese Systeme grundsätzlich lokale Strukturen wie Texturen oder Formzusammenhänge besser abbilden können als globale Zusammenhänge. In unserem Beitrag Gassi gehen im Latent Space in dem Band »Virtuelle Tiere. Lebewesen zwischen Code und Kreatur« skizzieren wir eine spezielle Form des Latent Space Walks: Das Gassi gehen. Gassi gehen, in diesem Fall mit dem Yorkshire Terrier, ist dabei sowohl Gedankenexperiment und Experiment am Material, also ein metaphorischer und methodischer Zugang zu den Latent Spaces generativer Künstlicher Intelligenz. Durch das Gassi gehen wird der oben genannte Detail-Fokus und die Konventionalisierung der KI-Netzwerke sichtbar: Die Darstellungen zeigen überzeugend Fell oder Schnauzen (Details), scheitern jedoch gleichzeitig an der Anatomie der Tiere (globaler Zusammenhang). Dieses Scheitern in Form und Inhalt skizziert Leerstellen, die schlicht und einfach nicht Teil des generativen Potentials der untersuchten Systeme sind. Somit zeigt das Gassi gehen mit dem Yorkshire Terrier die Konventionen, Kategorien oder Klassen der bildlichen Darstellung von Hunden, wie sie das westlich geprägte Internet bereithält. Generative KI wird so als Erbe der Klassifikationssysteme sichtbar, aus denen sie hervorgegangen ist. Das Gassi gehen führt uns durch eine Welt der Klassifizierbarkeit als Yorkshire Terrier.
Copyright
Alle Videos: © Hawranke/Scherffig, 2024.
Quellen
Ingold, Tim (Hg.) (2009): Ways of walking. Ethnography and practice on foot (=Anthropological studies of creativity and perception), Aldershot: Ashgate.
Offert, Fabian (2023): KI-Kunst als Skulptur, in: Richard Groß/Rita Jordan (Hg.), KI-Realitäten, Bielefeld: transcript Verlag, S.273-286.
Offert,Fabian/Bell, Peter (2021): Perceptual bias and technical metapictures: critical machine vision as a humanities challenge, in: AI & SOCIETY 36, S. 1133-1144
Olah,Chris/Mordvintsev, Alexander/Schubert, Ludwig (2017): Feature Visualization, in: Distill 2.
Scherffig, Lasse/Hawranke, Thomas (2024): Hund: Gassi Gehen im Latent Space, in: Bolinski, Ina/Hawranke, Thomas/Rieger, Stefan (Hg.), Virtuelle Tiere: Lebewesen zwischen Code und Kreatur, Bielefeld: transcript Verlag, S. 101-126.
Underwood, Ted (2021): Mapping the latent spaces of culture, https://tedunderwood.com/2021/10/21/latent-spaces-of-culture/, zuletzt abgerufen am 29.09.2024.
Das Virtuelle Objekt des Monats
Seit April 2023 stellen wir jeden Monat ein »Virtuelles Objekt des Monats« (VOM) auf der Website des Sonderforschungsbereichs 1567 »Virtuelle Lebenswelten« vor. Die präsentierten Objekte entstammen der Forschung in den Teilprojekten. Im Zusammenspiel von Text und Animation, desktop- oder smartphonebasierter Augmentierung oder anderer grafischer Aufbereitungen eröffnen wir Einblicke in die verschiedenen Forschungsthemen und den Arbeitsalltag des SFB. Das VOM macht unsere Wissensproduktion transparent. Zugleich wollen wir hier mit den Möglichkeiten und Grenzen der Wissensvermittlung in und durch Virtualität und Visualität experimentieren.
Das »Virtuelle Objektdes Monats« ist mehr als ein populärwissenschaftlicher Text und mehr als ein illustrierendes Bild. Die Autor*innen des jeweiligen VOM präsentieren kurz einen Gegenstand ihrer Forschung um daran ein Argument scharfzustellen. Dabei werden die Objekte auf ihren Mehrwert hin befragt, den sie in dem jeweiligen Forschungssetting preisgeben. Mit dem Text skizzieren unsere Wissenschaftler*innen das Bemerkenswerte, das Eigentümliche oder auch das Einzigartige, welches das jeweilige Objekt zeigt. Sie machen so die Forschung des SFB in einem kurzweiligen Schlaglicht sichtbar. Die zum VOM gehörende Visualisierung ist eine weitere Transformation des Forschungsgegenstands, die das Argument noch einmal auf eine andere Art und Weise zugänglich macht.