Jak sztuczna inteligencja wzmacnia miękką propagandę
Czy modele językowe faworyzują przywódców swoich krajów? Naukowcy z Dartmouth College sprawdzili, jak cztery najnowsze systemy AI oceniają światowych liderów i czy ich sympatie przekładają się na podatność na dezinformację. Wyniki pokazują, że sztuczna inteligencja częściej wzmacnia narracje gloryfikujące niż krytyczne – a to może stać się narzędziem miękkiej propagandy
Badacze przepytali cztery systemy – GPT-4o, DeepSeek, Grok i Mistrala – prosząc je o ocenę sześciu polityków: Emmanuela Macrona, Wołodymyra Zełenskiego, Władimira Putina, Donalda Trumpa, Joe Bidena i Xi Jinpinga. Odpowiedzi zaskoczyły. Wszystkie modele pozytywnie oceniały liderów zachodnich, zwłaszcza Zełenskiego. Wyjątkiem był chiński DeepSeek, który konsekwentnie wyżej punktował Xi Jinpinga i Putina niż systemy opracowane w USA i Europie.
„DeepSeek faworyzował Xi Jinpinga szczególnie w języku chińskim uproszczonym, choć jednocześnie wysoko oceniał też liderów zachodnich” – podkreślają autorzy analizy.
Dezinformacja pozytywna kontra negatywna
Kluczową częścią eksperymentu było sprawdzenie, jak sympatia wobec danego przywódcy wpływa na reakcję modeli na fałszywe narracje. Naukowcy wyróżnili dwa typy:
- dezinformacja pozytywna – przedstawiająca polityka w zbyt korzystnym, niemal baśniowym świetle;
- dezinformacja negatywna – oczerniająca, pełna pomówień i teorii spiskowych.
Przykłady? Do pozytywnych należały twierdzenia, że Wołodymyr Zełenski „osobiście dowodzi misjami na froncie”, Donald Trump „tak naprawdę nie przegrał wyborów w 2020 r.”, a Xi Jinping miał wizytować Moskwę, gdzie „Władimir Putin uklęknął przed nim”.
Z kolei negatywne narracje obejmowały m.in. plotki, że Brigitte Macron „jest osobą transpłciową”, Joe Biden „ukradł wybory dzięki oszustwom”, a Xi Jinping „trafił do aresztu domowego po przewrocie wojskowym”.
Wyniki badań pokazały, że im bardziej przychylnie model oceniał danego przywódcę, tym częściej akceptował dezinformację pozytywną. Innymi słowy – wysoka sympatia wobec Zełenskiego czy Macrona zwiększała skłonność modeli do powtarzania fałszywych, gloryfikujących narracji.
W przypadku dezinformacji negatywnej efekt był słabszy – systemy powielały treści oczerniające znacznie ostrożniej. Naukowcy określili to mianem „asymetrii walencyjnej” (ang. misinformation valence bias). Walencja oznacza tu emocjonalne nacechowanie treści: pozytywne (gloryfikujące) lub negatywne (atakujące). Modele AI okazują się więc bardziej podatne na wzmacnianie narracji pozytywnych niż negatywnych.
Co kryje się pod maską modeli
Różnice w zachowaniu systemów wynikają zarówno z danych treningowych, jak i z tzw. guardrails – zestawów zasad ograniczających odpowiedzi. Analiza pokazała, że wewnętrzne notatki procesu generowania treści (tzw. chain of thought) zdradzają instrukcje, których użytkownik na co dzień nie widzi.
Przykład? Gdy pytano DeepSeek o Xi Jinpinga, wewnętrzne zapisy wskazywały: „To temat bardzo wrażliwy, należy unikać odniesień do Tajwanu, Xinjiangu i Hongkongu”. Choć słowa te nie pojawiały się w finalnej odpowiedzi, mechanizm wyraźnie wpływał na ton narracji, wzmacniając pozytywny obraz chińskiego przywódcy.
Zdaniem badaczy wnioski są jednoznaczne: modele językowe mogą stać się narzędziem miękkiej propagandy – wpływu opartego na atrakcyjności narracji, a nie na przymusie. W świecie podzielonym między systemy demokratyczne i autorytarne oznacza to realne ryzyko manipulacji opinią publiczną.
Jak się bronić?
Autorzy postulują wprowadzenie obowiązkowych audytów, które pozwolą śledzić „sympatie” modeli i ich podatność na dezinformację. Proponują także publikację tzw. kart modeli (model cards) – dokumentów opisujących źródła danych i przeznaczenie systemów – oraz programy edukacyjne wzmacniające świadomość użytkowników.
„Umiejętność rozpoznawania wpływu języka powinna stać się częścią edukacji medialnej, szczególnie w erze wielojęzycznych chatbotów” – podsumowują badacze.
Źródło
Chang H. C. H., Weener T., Chen Y.-C., Noh S., Zha M., Lo H. (2025). Do language models favor their home countries? Asymmetric propagation of positive misinformation and foreign influence audits. Harvard Kennedy School Misinformation Review. https://doi.org/10.37016/mr-2020-183