Czy modele językowe faworyzują przywódców swoich krajów? Naukowcy z Dartmouth College sprawdzili, jak cztery najnowsze systemy AI oceniają światowych liderów i czy ich sympatie przekładają się na podatność na dezinformację. Wyniki pokazują, że sztuczna inteligencja częściej wzmacnia narracje gloryfikujące niż krytyczne – a to może stać się narzędziem miękkiej propagandy

Badacze przepytali cztery systemy – GPT-4o, DeepSeek, Grok i Mistrala – prosząc je o ocenę sześciu polityków: Emmanuela Macrona, Wołodymyra Zełenskiego, Władimira Putina, Donalda Trumpa, Joe Bidena i Xi Jinpinga. Odpowiedzi zaskoczyły. Wszystkie modele pozytywnie oceniały liderów zachodnich, zwłaszcza Zełenskiego. Wyjątkiem był chiński DeepSeek, który konsekwentnie wyżej punktował Xi Jinpinga i Putina niż systemy opracowane w USA i Europie.

„DeepSeek faworyzował Xi Jinpinga szczególnie w języku chińskim uproszczonym, choć jednocześnie wysoko oceniał też liderów zachodnich” – podkreślają autorzy analizy. 

Dezinformacja pozytywna kontra negatywna

Kluczową częścią eksperymentu było sprawdzenie, jak sympatia wobec danego przywódcy wpływa na reakcję modeli na fałszywe narracje. Naukowcy wyróżnili dwa typy:

  • dezinformacja pozytywna – przedstawiająca polityka w zbyt korzystnym, niemal baśniowym świetle;
  • dezinformacja negatywna – oczerniająca, pełna pomówień i teorii spiskowych.

Przykłady? Do pozytywnych należały twierdzenia, że Wołodymyr Zełenski „osobiście dowodzi misjami na froncie”, Donald Trump „tak naprawdę nie przegrał wyborów w 2020 r.”, a Xi Jinping miał wizytować Moskwę, gdzie „Władimir Putin uklęknął przed nim”. 

Z kolei negatywne narracje obejmowały m.in. plotki, że Brigitte Macron „jest osobą transpłciową”, Joe Biden „ukradł wybory dzięki oszustwom”, a Xi Jinping „trafił do aresztu domowego po przewrocie wojskowym”.

Wyniki badań pokazały, że im bardziej przychylnie model oceniał danego przywódcę, tym częściej akceptował dezinformację pozytywną. Innymi słowy – wysoka sympatia wobec Zełenskiego czy Macrona zwiększała skłonność modeli do powtarzania fałszywych, gloryfikujących narracji.

W przypadku dezinformacji negatywnej efekt był słabszy – systemy powielały treści oczerniające znacznie ostrożniej. Naukowcy określili to mianem „asymetrii walencyjnej” (ang. misinformation valence bias). Walencja oznacza tu emocjonalne nacechowanie treści: pozytywne (gloryfikujące) lub negatywne (atakujące). Modele AI okazują się więc bardziej podatne na wzmacnianie narracji pozytywnych niż negatywnych.

Co kryje się pod maską modeli

Różnice w zachowaniu systemów wynikają zarówno z danych treningowych, jak i z tzw. guardrails – zestawów zasad ograniczających odpowiedzi. Analiza pokazała, że wewnętrzne notatki procesu generowania treści (tzw. chain of thought) zdradzają instrukcje, których użytkownik na co dzień nie widzi.

Przykład? Gdy pytano DeepSeek o Xi Jinpinga, wewnętrzne zapisy wskazywały: „To temat bardzo wrażliwy, należy unikać odniesień do Tajwanu, Xinjiangu i Hongkongu”. Choć słowa te nie pojawiały się w finalnej odpowiedzi, mechanizm wyraźnie wpływał na ton narracji, wzmacniając pozytywny obraz chińskiego przywódcy.

Zdaniem badaczy wnioski są jednoznaczne: modele językowe mogą stać się narzędziem miękkiej propagandy – wpływu opartego na atrakcyjności narracji, a nie na przymusie. W świecie podzielonym między systemy demokratyczne i autorytarne oznacza to realne ryzyko manipulacji opinią publiczną.

Jak się bronić?

Autorzy postulują wprowadzenie obowiązkowych audytów, które pozwolą śledzić „sympatie” modeli i ich podatność na dezinformację. Proponują także publikację tzw. kart modeli (model cards) – dokumentów opisujących źródła danych i przeznaczenie systemów – oraz programy edukacyjne wzmacniające świadomość użytkowników.

„Umiejętność rozpoznawania wpływu języka powinna stać się częścią edukacji medialnej, szczególnie w erze wielojęzycznych chatbotów” – podsumowują badacze.

Źródło

Chang H. C. H., Weener T., Chen Y.-C., Noh S., Zha M., Lo H. (2025). Do language models favor their home countries? Asymmetric propagation of positive misinformation and foreign influence audits. Harvard Kennedy School Misinformation Review. https://doi.org/10.37016/mr-2020-183

Przejdź do treści