Sztuka „prawdziwa”

Fragment obrazu Lidii Kot, „Trzy czwarte oblicza czerni”

Gdy oglądamy dzieła sztuki, nasz mózg bezwiednie reaguje na to, co widzimy. Nasze odczucia można zaklasyfikować, używając metod algebraicznych.


Marek Kuś
Jacek Rogala
Joanna Dreszer
Beata Bajno


Czemu się przyglądamy, gdy patrzymy na obraz? Co przyciąga naszą uwagę? Czy szukamy w obrazach ukrytego przekazu? Czy łatwo jest stworzyć ciekawy obraz, nie będąc artystą? To kilka pytań, które można postawić w wyniku analizy przeprowadzonego przez nas eksperymentu psychologicznego i neurofizjologicznego, w którym wykorzystaliśmy obrazy wygenerowane przez sztuczną sieć neuronową.

Zasadniczym celem eksperymentu było zmierzenie fizjologicznej i psychologicznej reakcji na abstrakcyjne obrazy stworzone przez artystkę i obrazy wygenerowane przez sieć neuronową oraz sprawdzenie, czy te reakcje są w obu wypadkach różne. Z góry zastrzegamy, że naszym celem nie było wyprodukowanie „sztucznych obrazów” doskonale imitujących „prawdziwą sztukę” lub usprawnienie metod takiej produkcji (jest to bez wątpienia możliwe choćby przez sprytne wykorzystanie wyników naszego eksperymentu). Co więcej, niedoskonałość wygenerowanych obrazów umożliwiła wyciągnięcie ciekawych wniosków i udzielenie odpowiedzi na niektóre z postawionych powyżej pytań.

Eksperyment

Na wystawach w Galerii Wozownia w Toruniu zaprezentowano dwóm oddzielnym grupom publiczności po jednym zestawie obrazów: 12 prac stworzonych przez artystkę lub zestaw dzieł wygenerowanych przez sztuczną sieć neuronową. Dzieła oryginalne, namalowane przez człowieka, powstały w nieprzerwanym procesie twórczym dotyczącym również wyboru ich ostatecznej formy. Drugi zestaw obrazów został wygenerowany przy użyciu BigGAN (Big Generative Adversarial Networks), publicznie dostępnej sztucznej sieci neuronowej wyszkolonej na milionach obrazów środowiska ludzkiego. Może ona generować fotorealistyczne obiekty w 1 tys. kategoriach.

Żeby uzyskać abstrakcyjne obrazy na podstawie rzeczywistych obiektów, na których sieć jest uczona, należy wykorzystać możliwości, które daje jej architektura. W tym celu pewne działania sieci zostały losowo zakłócone. Otrzymaliśmy w ten sposób 4500 obiektów. Żeby wykluczyć prostą różnicę wynikającą z różnej jasności lub intensywności koloru, każdy z 4500 obrazów został porównany z każdym z 12 dzieł artystki za pomocą funkcji obliczającej różnicę między parametrami (kolorem, intensywnością) pikseli dwóch obrazów.

Uśrednione wartości różnic między obrazami pozwoliły na wybranie 12 obrazów najmniej odbiegających od dzieł artystki. Losowo przypisane im tytuły i krótki opis wystawy w ulotce informacyjnej galerii zostały wygenerowane przez sieć GPT-3. Zbiór ten został zaprezentowany na drugiej z wystaw w losowo wybranej kolejności.

Lidia Kot, „Trzy czwarte oblicza czerni,” Galeria Wozownia, Toruń,
19.11–26.12.2021
BigGAN, „Tu dzieją się tajemnicze rzeczy i nikt o niczym nie wie oprócz mnie”, Galeria Wozownia, Toruń, 11.02–5.03.2022

Badanie obejmowało śledzenie ruchów gałek ocznych, EEG oraz odpowiedzi na kwestionariusze dotyczące odczuć estetycznych i emocjonalnych doznawanych podczas oglądania obrazów z obu grup. Badania prowadzono w trakcie oglądania wystaw w galerii i laboratorium, do którego badani byli zapraszani bezpośrednio po wizycie w galerii. Tu obrazy artystki i wygenerowane przez sieć były prezentowane na ekranie komputera.

Badania były wykonywane dwukrotnie, w trakcie dwóch wizyt w galerii następujących po sobie w odstępie jednego tygodnia i bezpośrednio po nich. Badani, tak jak wszyscy oglądający wystawę, nie byli informowani o jej charakterze, a opisane powyżej sposoby aranżacji wystawy i prezentacji dzieł miały na celu uniknięcie jakichkolwiek uprzedzeń w stosunku do obrazów wygenerowanych komputerowo, bez udziału artystki.

Spośród wyników wspomnianych badań, obejmujących wiele różnorodnych metod eksperymentalnych, skoncentrujemy się tutaj na analizie ruchów gałek ocznych. W największym przybliżeniu ruchy takie składają się z fiksacji – względnie stabilnych pozycji oka i skupieniach na określonym obszarze widzenia trwających 150–600 milisekund – oraz sakkad – skokowych ruchów gałek przenoszących spojrzenie z jednego obszaru na inny, odległy.

Fiksacje są wskaźnikiem przetwarzania informacji percepcyjnych. Podczas sakkad dochodzi do supresji, tj. zahamowania pobierania informacji wzrokowej. Liczba i częstotliwość fiksacji okazały się wyższe w czasie pierwszej wizyty w galerii z pracami artystki. Efekt ten nie wystąpił dla prac wygenerowanych przez sieć. Amplituda sakkad jest wyraźnie większa dla tych ostatnich niż dla prac artystki. Oznacza to, że w wypadku prac wygenerowanych przez sieć trudniej jest znaleźć obszary obrazu przykuwające uwagę.

Postrzeganie

Analiza ruchów gałek ocznych ujawnia – zgodnie z oczekiwaniami – że obserwatorzy skupiają się na określonych cechach obrazu. Rozsądne jest założenie, że naszą uwagę przyciągają przede wszystkim obiekty geometryczne. Gdy patrzymy na obraz, postrzegamy całe struktury złożone z pojedynczych punktów (pikseli), w szczególności struktury geometryczne, a nie poszczególne punkty – grupujemy dyskretne elementy w większe jednostki.

Przy postrzeganiu struktur geometrycznych skupiamy się na najprostszych wzorach, takich jak odrębne obszary określonego koloru lub odcienia albo obszary jednego koloru na tle innego. Tym samym kładziemy nacisk na właściwości topologiczne, a nie ściśle geometryczne, chociaż topologię można uznać za najbardziej fundamentalną geometrię. Uzasadnieniem naszego zainteresowania wyłącznie właściwościami topologicznymi jest to, że są one niezależne od arbitralnie ustalonych współrzędnych i właściwości metrycznych postrzeganych obiektów. Ponadto właściwości topologiczne są stosunkowo odporne na zakłócenia, takie jak zmiany oświetlenia lub ostrości wzroku lub szum.

„Mapy cieplne” fiksacji gałek ocznych. Uśredniona liczba fiksacji dla wszystkich osób biorących udział w eksperymencie dla przykładowych obrazów artystki (a) i wygenerowanych przez komputer (b). Liczba fiksacji zwiększa się zgodnie z sekwencją zielony-żółty-czerwony

Podstawowymi pojęciami istotnymi dla analizy cech topologicznych zbiorów danych, niezależnie od ich konkretnej prezentacji (np. jako obrazu), są filtrowanie i trwałość. Wyobraźmy sobie, że oglądamy czarno-biały obraz składający się z pikseli o różnych odcieniach szarości przez filtr, który przepuszcza tylko odcienie powyżej pewnego poziomu intensywności. Staje się oczywiste, że użycie tego filtra może spowodować, że przegapimy pewne struktury geometryczne utworzone przez ciemniejsze piksele. Gdy dostosujemy przezroczystość filtra, niektóre struktury mogą się pojawić lub zniknąć. Ta procedura, w której właściwości (geometryczne lub topologiczne) zależą od parametru (w tym przypadku przezroczystości filtra), jest znana jako filtrowanie.

Gdy zmienia się parametr, pojawia się (rodzi się) określona struktura, a przy dalszych zmianach parametru znika (umiera). Zakres parametru, w którym istnieje struktura, jest nazywany trwałością (persistence). Struktury o najdłuższej trwałości są najbardziej istotne i zazwyczaj najbardziej charakterystyczne dla badanego obiektu.

Topologia w praktyce

Działem matematyki, który zajmuje się ilościową, a w zasadzie algebraiczną analizą i charakterystyką interesujących nas struktur topologicznych oraz ich trwałości, jest topologia algebraiczna. Podpowiada nam ona, że dla obiektów dwuwymiarowych, a takimi są obrazy, istotne są dwie charakterystyki topologiczne. Pierwsza to spójność – liczba niepołączonych z sobą części danej struktury (np. obszarów o tym samym kolorze), druga to liczba „dziur” w danym obszarze (np. liczba obszarów o danym kolorze całkowicie otoczonych obszarami innego koloru). W topologii algebraicznej liczby te są oznaczane – odpowiednio – jako β0 i β1 oraz nazywane liczbami Bettiego.

Opracowano kilka metod reprezentowania wyników filtracji. Jednym z pierwszych pomysłów było użycie „kodów kreskowych”. Każdej strukturze odpowiada odcinek na linii równoległej do osi parametru filtracji r, która zaczyna się, gdy struktura się pojawia (tzn. w punkcie rb), i kończy, gdy znika (w punkcie rd). Trwałość można również przedstawić na dwuwymiarowym diagramie o współrzędnych (rb, rd), zwanym diagramem trwałości. Oczywiście punkty na tym diagramie zajmują tylko obszar powyżej głównej przekątnej. Łącząc każdy z tych punktów z przekątną pionowymi i poziomymi odcinkami, otrzymujemy układ „piramid” – trójkątów równoramiennych prostokątnych. Po obróceniu tego diagramu o π/4 staje się on tzw. krajobrazem trwałości. Dobrą, globalną charakterystyką zmienności całej struktury topologicznej w procesie filtracji jest tzw. krzywa Bettiego, obrazująca sumaryczne liczby β0 i β1 dla całego obszaru (obrazu) w zależności od wartości parametru filtracji r.

Topologia i trwałość: a) Przykładowa struktura, w której piksele są zaprezentowane za pomocą kwadratów o różnym stopniu jasności (intensywności szarości). Intensywność będzie tu dobrym parametrem filtracji, gdy na obrazek będziemy spoglądać przez filtry przepuszczające tylko piksele o odpowiednio dużej jasności. Przy najbardziej dyskryminującym filtrze, przezroczystym tylko dla najjaśniejszych pikseli (0,1 intensywności szarości w skali od 0 do 1).
Widoczna struktura składa się z dwóch niespójnych kawałków rozdzielonych niewidocznym pikselem o szarości 0,4. Jeden z nich ma dwie „dziury” (niewidoczne piksele o szarości 0,3 i 0,5).

Opisane w tekście liczby Bettiego mają więc wartości β0 = 2, β1 = 2. Gdy użyjemy filtra bardziej przezroczystego, widoczny staje się piksel o szarości 0,3 i znika jedna z „dziur”, a więc β0 = 2, β1 = 1. Dla filtra o jeszcze większej przezroczystości zobaczymy piksel o szarości 0,4, który połączy dwie rozłączne części struktury w jeden kawałek, co doprowadzi do β0 = 1, β1 = 1.
W końcu przy filtrze, przez który będzie też widoczny najciemniejszy piksel o szarości 0,5, zniknie druga „dziura” – β0 = 1, β1 = 0. b) „Kody kreskowe” odpowiadające strukturze z a): dim0 odnosi się do β0 (struktury zerowymiarowe), dim1 do β1 (struktury jednowymiarowe), c) diagram trwałości, d) i e) krajobrazy trwałości (zob. tekst główny)


Zaciekawienie

Analiza wyników przykładowych obrazów z obu wystaw wskazuje różnice w ich strukturze topologicznej. Dotyczy to zarówno bogactwa krajobrazu trwałości, jak i samych „kodów kreskowych”. Inny jest również przebieg krzywych Bettiego.

Ciekawe wnioski można próbować wyciągnąć z analizy miejsc, w których rodzą się i znikają najtrwalsze struktury topologiczne. Porównanie diagramów map cieplnych fiksacji gałek ocznych oraz diagramów struktur topologicznych prowadzi do wniosku, że fiksacje nieźle korelują z obszarami, w których z punktu widzenia topologii „coś się dzieje” w wypadku obrazów o bogatszej strukturze.

W literaturze światowej można znaleźć sporo badań, których celem jest uchwycenie związku między odczuciami estetycznymi oglądających a pewnymi dającymi się ująć liczbowo charakterystykami dzieł. Zazwyczaj charakterystyka ilościowa bazowała na własnościach statystycznych, takich jak korelacje intensywności, gradientu itp. W naszych badaniach nie interesowała nas estetyczna wartość dzieł, a ich matematyczną charakterystykę oparliśmy na topologii, a nie na statystyce. W dziełach poszukujemy ukrytej być może informacji, a ta jest zawarta w obszarach, w których dzieją się ciekawe rzeczy z punktu widzenia topologii.

Topologiczne własności obrazów mają związek z reakcjami neurofizjologicznymi osób je oglądających. Więc obrazy o bardziej skomplikowanej strukturze topologicznej zmniejszają intensywność przeszukiwania (amplitudę sakkad), a koncentracje (fiksacje) są związane z obszarami, w których struktura topologiczna jest bardziej skomplikowana.

Topologiczne własności przykładowych obrazów z dwóch wystaw: artystki (a) i BigGAN (b). W drugiej kolumnie każdej z dwóch części rysunku kolejno: krajobraz trwałości, „kody kreskowe” i krzywa Bettiego (zob. tekst główny) dla struktur zerowymiarowych – spójnych składowych (dim0), w trzeciej kolumnie to samo dla struktur jednowymiarowych – „dziur” (dim1).
Obrazy zostały przekonwertowane na czarno-białe, tzn. pikselom przypisano odpowiedni poziom szarości w zależności intensywności koloru obrazu oryginalnego. Zasadniczo te same wyniki otrzymuje się, stosując rozkład koloru na składowe R, G i B i wyznaczając charakterystyki topologiczne dla poszczególnych składowych.             

PODZIĘKOWANIA Dziękujemy artystce, pani Lidii Kot, i prof. Romualdowi Janikowi za udostępnienie prac, na których wykonywaliśmy badania: oryginalnych obrazów oraz odpowiednio dobranych obrazów wytworzonych przez BigGAN.

Wersja drukowana tego artykułu ukazała się w numerze 4/2023 (76) popularnonaukowego kwartalnika „Academia: Magazyn Polskiej Akademii Nauk” [ściągnij pdf].

Marek Kuś

Profesor, pracuje w Centrum Fizyki Teoretycznej PAN w Warszawie. Członek Centrum Badania Ryzyka Systemowego na Uniwersytecie Warszawskim. Główne obszary pracy naukowej to: fizyka matematyczna, informatyka kwantowa, zastosowania metod matematycznych w naukach społecznych i humanistycznych.

marek@cft.edu.pl

Jacek Rogala

Jest z wykształcenia biologiem specjalizującym się w procesach poznawczych. Swoje badania prowadził najpierw w Instytucie Biologii Doświadczalnej im. Marcelego Nenckiego, a następnie na Wydziale Fizyki UW. Obecnie pracuje w Centrum Badań nad Kulturą, Językiem i Umysłem UW, gdzie zajmuje się percepcją sztuki.

j.rogala3@uw.edu.pl

Joanna Dreszer

Pracuje jako adiuntka w Instytucie Psychologii UMK w Toruniu. Zajmuje się badaniami neuropoznawczych korelatów doświadczenia estetycznego ze szczególnym uwzględnieniem stanu flow i zmian w percepcji czasu.

joanna.dreszer@gmail.com

Beata Bajno

Artystka sztuk wizualnych i architektka. Współautorka projektu badawczego CBRS poświęconego problematyce oddziaływania sztuki. Zawodowo jest zainteresowana dynamiką powstawania osobistych modeli świata. Tworzy immersyjne instalacje świetlne, grafiki i fotografie.

beata.bajno@aarte.net

Sztuka „prawdziwa”
Przewiń na górę