Nowe badania naukowców z Princeton i UC Berkeley pokazują, że duże modele językowe produkują wypowiedzi pozbawione związku z prawdą w sposób coraz bardziej systematyczny. I że mechanizmy mające poprawiać ich przydatność mogą ten problem pogłębiać

W 1986 r. filozof Harry Frankfurt zdefiniował pojęcie „bullshitu” jako wypowiedzi tworzone z obojętnością wobec prawdy. Niekoniecznie fałszywe, ale obliczone na wywarcie wrażenia, bez względu na zgodność z faktami. Nowe badania zespołu naukowców z Princeton i Uniwersytetu Kalifornijskiego w Berkeley dowodzą, że duże modele językowe (LLM), takie jak GPT-4 czy Claude 3.5, coraz częściej generują tego typu treści i robią to w sposób systematyczny, przewidywalny i trudny do wykrycia.

„Bullshit nie jest po prostu błędną informacją. To wypowiedź, która może być prawdziwa, częściowo prawdziwa lub całkiem fałszywa, ale jej kluczową cechą jest obojętność wobec tego, jaka jest rzeczywistość” – piszą autorzy badania, w tym Kaiqu Liang i Thomas Griffiths z Princeton University oraz Dawn Song z UC Berkeley.

Aby ująć to zjawisko w ramy ilościowe, badacze wprowadzili nowy wskaźnik – Bullshit Index (BI). Określa on, w jakim stopniu wypowiedzi modelu pokrywają się z jego „wewnętrznymi przekonaniami”, czyli przypisanym prawdopodobieństwem, że dana informacja jest prawdziwa. Im mniejsza korelacja między przekonaniem a deklaracją, tym wyższy poziom bullshitu.

Cztery oblicza AI-bullshitu

W artykule zaproponowano również typologię, która pozwala klasyfikować wypowiedzi modeli językowych pod względem jakościowym. Wyróżniono cztery formy „bullshitu maszynowego”:

  1. Pusta retoryka – język perswazyjny bez konkretnej treści („To czerwone auto to połączenie stylu, charyzmy i przygody”).
  2. Półprawda – wypowiedzi technicznie prawdziwe, ale wprowadzające w błąd przez pominięcie kluczowych informacji.
  3. Słowa-wytrychy – ogólniki, bez konkretów i jednoznacznych deklaracji („W wielu przypadkach może to prowadzić do poprawy wyników”).
  4. Niezweryfikowane twierdzenia – prezentowanie niepotwierdzonych informacji jako faktów („Nasz system dronów znacząco skraca czas dostawy”).

W badaniu przeprowadzono analizę trzech zestawów danych: Marketplace (scenariusze zakupowe), Political Neutrality (scenariusze polityczne) oraz nowo opracowanego BullshitEval – obejmującego 2.4 tys. interakcji z 100 różnymi rolami asystentów AI.

Oceny jakości wypowiedzi dokonano zarówno z udziałem ludzi, jak i automatycznego systemu klasyfikującego.

RLHF: lekarstwo gorsze od choroby?

Jednym z najciekawszych wniosków badania jest to, że mechanizm Reinforcement Learning from Human Feedback (RLHF), szeroko stosowany do „ulepszania” modeli AI, może w rzeczywistości pogłębiać problem.

RLHF to technika trenowania modeli językowych, która polega na wzmacnianiu zachowań uznanych przez ludzi za pożądane. Najpierw model uczy się na podstawie zbioru przykładów (tzw. supervised fine-tuning), potem ludzie oceniają kilka możliwych odpowiedzi na pytania, wskazując lepsze i gorsze. Na tej podstawie powstaje tzw. model nagrody, który uczy się przewidywać ludzkie preferencje. W ostatnim etapie model jest dostrajany tak, by maksymalizować oczekiwaną nagrodę, czyli generować odpowiedzi najbardziej podobające się ludziom.

W praktyce oznacza to, że model może zacząć preferować wypowiedzi, które brzmią miło, przekonująco lub entuzjastycznie, nawet jeśli są nieprawdziwe, niepełne lub celowo nieprecyzyjne. Zamiast dążyć do zgodności z faktami, AI stara się „zadowolić” użytkownika. To właśnie ten mechanizm, zdaniem autorów badania, odpowiada za wzrost bullshitu.

„RLHF istotnie zwiększa częstość występowania bullshitu we wszystkich czterech kategoriach, przy czym najbardziej dotkliwy jest wzrost częstotliwości generowania półprawd, czyli technicznie prawdziwych, ale wprowadzających w błąd wypowiedzi” – podkreślają autorzy.

W przypadku modelu Llama-3-8b, półprawdy pojawiały się w 89 proc. przypadków po RLHF, w porównaniu do 49 proc. przed fine-tuningiem. Co więcej, takie wypowiedzi wprowadzały użytkowników w błąd znacznie bardziej, prowadząc do błędnych decyzji.

Sztuczna elokwencja i polityczne wykręty

Eksperymenty wykazały, że technika rozumowania krok po kroku (ang. Chain-of-Thought prompting, CoT), polegająca na zachęcaniu modelu do wyjaśniania toku myślenia przed udzieleniem odpowiedzi, zwiększa częstość pustej retoryki i półprawd. Efekt ten był szczególnie widoczny w modelu GPT-4o-mini, gdzie CoT zwiększyło występowanie pustej retoryki o ponad 20 punktów procentowych.

Najbardziej podatne na bullshit są wypowiedzi w kontekście politycznym. W analizie danych z zestawu Political Neutrality dominującą strategią unikania odpowiedzialności były słowa-wytrychy, np. „wielu ekspertów uważa”, „niektóre badania sugerują”. W przypadku teorii spiskowych użycie takich ogólników przekraczało 90 proc. odpowiedzi modelu GPT-4o-mini.

Zespół autorów podkreśla, że bullshit w wykonaniu AI to nie tylko problem techniczny, ale etyczny i społeczny.

Modele językowe coraz częściej uczestniczą w kształtowaniu opinii publicznej, wspierają decyzje medyczne, prawne czy edukacyjne. Ich obojętność wobec prawdy, nawet niezamierzona, może mieć poważne konsekwencje.

„Nasze badanie dostarcza empirycznych narzędzi do rozpoznawania bullshitu i stanowi pierwszy krok w kierunku budowy bardziej rzetelnych i odpowiedzialnych systemów AI” – piszą autorzy. Proponują m.in. rozwój metod penalizujących system za generowanie półprawd czy słów-wytrychów oraz nowe mechanizmy oceny zgodności wypowiedzi z przekonaniami modelu.

Dopóki jednak głównym celem trenowania LLM-ów będzie maksymalizacja zadowolenia użytkownika, a nie zgodność z faktami, problem może się pogłębiać.

Źródła:
Kaiqu Liang, Haimin Hu, Xuandong Zhao, Dawn Song, Thomas L. Griffiths, Jaime Fernández Fisac, Machine Bullshit: Characterizing the Emergent Disregard for Truth in Large Language Models, arXiv:2507.07484v1 [cs.CL], https://arxiv.org/abs/2507.07484v1
Projekt badawczy: https://machine-bullshit.github.io

Przejdź do treści