Adobe Firefly

Jeśli pojawi się ból, wysypka albo inny niepokojący objaw, coraz częściej zamiast wpisywać pytanie do wyszukiwarki pytamy ChatGPT. W ciągu zaledwie kilku lat chatboty stały się dla wielu osób jednym z podstawowych źródeł informacji o zdrowiu. Badacze z Penn State sprawdzili, jak współczesne modele językowe radzą sobie z codziennymi pytaniami zdrowotnymi

„Nasza praca koncentruje się bezpośrednio na sytuacjach zdrowotnych, z którymi może zetknąć się przeciętny użytkownik internetu. To perspektywa, której wcześniejsze badania dużych modeli językowych w ochronie zdrowia zwykle nie uwzględniały” – powiedział prof. Amulya Yadav z College of Information Sciences and Technology na Penn State. „Chcieliśmy sprawdzić, jak dokładne są odpowiedzi modeli takich jak ChatGPT, gdy ludzie używają ich do sprawdzania objawów podobnie, jak wcześniej korzystali z Google. Interesowało nas również, jak poważne mogą być konsekwencje ich błędów.

Dobre wyniki, ale daleko do lekarza

Aby sprawdzić możliwości sztucznej inteligencji, zespół zorganizował konkurs nazwany „Diagnose-a-thon”. Wzięły w nim udział 34 osoby – pracownicy uczelni, studenci i doktoranci. Uczestnicy przygotowali łącznie 212 zapytań dotyczących rzeczywistych i hipotetycznych problemów zdrowotnych. Pytania formułowano zarówno z perspektywy pacjentów, jak i lekarzy. 

Do dyspozycji były cztery popularne modele językowe: ChatGPT-4o, ChatGPT-3.5, Gemini 1.5 Pro oraz Llama 3 8B. Naukowcy nie narzucali uczestnikom żadnego szczególnego sposobu pracy. Chodziło o możliwie wierne odtworzenie codziennych zachowań użytkowników. 

„Poprosiliśmy uczestników, aby sami wybrali model i korzystali z niego dokładnie tak, jak robią to na co dzień. Takie badania partycypacyjne są bardzo ważne, jeśli chcemy zrozumieć, w jaki sposób społeczeństwo wykorzystuje sztuczną inteligencję w codziennym życiu”  – wyjaśnił główny autor pracy Bonam Mingole, doktorant w dziedzinie nauk informacyjnych.

Odpowiedzi wygenerowane przez modele zostały następnie ocenione przez certyfikowanych lekarzy specjalistów. Analizowali  zarówno ich poprawność medyczną, jak i potencjalne ryzyko wyrządzenia szkody pacjentowi.

Średnia skuteczność modeli okazała się wyższa, niż można by się spodziewać. Badacze oszacowali, że 76,2 proc. odpowiedzi generowanych przez AI zawierało poprawne informacje medyczne.

Nie wszystkie dziedziny medycyny okazały się jednak równie łatwe dla sztucznej inteligencji. Najlepiej modele radziły sobie z pytaniami dotyczącymi ginekologii, położnictwa oraz chorób uszu, nosa i gardła. W tych obszarach odpowiedzi były częściej poprawne i rzadziej mogły prowadzić do niebezpiecznych konsekwencji.

Znacznie gorzej wypadły neurologia, dermatologia i choroby wewnętrzne. To właśnie tam lekarze częściej wskazywali błędy oraz większe ryzyko potencjalnej szkody dla pacjentów.

Badacze zauważyli również, że duże znaczenie ma sposób zadawania pytań. Najlepsze rezultaty dawały stosunkowo konkretne zapytania liczące od 60 do 250 znaków. Zbyt ogólne lub nieprecyzyjne pytania prowadziły do wyraźnie gorszych odpowiedzi.

AI nadal nie zastępuje lekarza

Autorzy badania podkreślają, że sztuczna inteligencja może odegrać ważną rolę w przyszłości medycyny, ale raczej jako narzędzie wspierające lekarzy niż zastępujące ich w kontakcie z pacjentami. „Wkraczamy w nową erę ochrony zdrowia, a sztuczna inteligencja jest jej istotną częścią. Pojawia się realna szansa na transformację opieki zdrowotnej i integrację nowych narzędzi w taki sposób, aby lekarze mogli wykorzystywać je do poprawy opieki nad pacjentami” – powiedziała prof. Jennifer Kraschnewski z Penn State College of Medicine. 

Jednocześnie badacze zwracają uwagę, że mimo stosunkowo wysokiej skuteczności błędy modeli AI nadal występują w ponad 20 proc. przypadków. To około dwukrotnie częściej niż w przypadku lekarzy.

Część tych pomyłek może prowadzić do szkodliwych decyzji zdrowotnych, szczególnie jeśli użytkownik potraktuje odpowiedź chatbota jako pełnoprawną diagnozę. 

Podobne rezultaty przyniosły również inne badania. W lutym 2026 r. zespół naukowców z Uniwersytetu Oksfordzkiego opublikował na łamach Nature Medicine największe jak dotąd badanie dotyczące wykorzystania dużych modeli językowych przez osoby poszukujące porad medycznych. W eksperymencie uczestniczyło blisko 1300 osób rozwiązujących przygotowane przez lekarzy scenariusze zdrowotne. Okazało się, że uczestnicy korzystający z chatbotów AI nie podejmowali lepszych decyzji niż osoby polegające na wyszukiwarkach internetowych lub własnej ocenie sytuacji. Innymi słowy, dostęp do zaawansowanego modelu językowego nie przełożył się automatycznie na trafniejsze decyzje zdrowotne.

Zespół z Oksfordu wskazał trzy powtarzające się problemy. Po pierwsze, użytkownicy często nie wiedzieli, jakie informacje powinni przekazać modelowi, aby uzyskać trafną odpowiedź. Po drugie, same modele potrafiły udzielać różnych rekomendacji przy niewielkich zmianach w sposobie zadania pytania. Po trzecie, odpowiedzi często mieszały poprawne i błędne wskazówki, które dla osoby bez wiedzy medycznej były trudne do odróżnienia.

„Pomimo całego szumu wokół tej technologii sztuczna inteligencja po prostu nie jest jeszcze gotowa, by przejąć rolę lekarza” – powiedziała dr Rebecca Payne z Nuffield Department of Primary Care Health Sciences na Uniwersytecie Oksfordzkim. „Pacjenci powinni mieć świadomość, że pytanie dużego modelu językowego o swoje objawy może być niebezpieczne, prowadzić do błędnych diagnoz i przeoczenia sytuacji wymagających pilnej pomocy.

Autorzy badania z Penn State nie mają jednak złudzeń, że pacjenci przestaną korzystać z takich narzędzi. „Czy nam się to podoba, czy nie, ludzie będą nadal używać sztucznej inteligencji do diagnozowania swoich problemów zdrowotnych” – stwierdził prof. S. Shyam Sundar z Penn State. „Dzięki analizie sposobów korzystania z tych narzędzi i ocenie jakości ich odpowiedzi nasz projekt pomaga lepiej zrozumieć zarówno najlepsze, jak i najgorsze zastosowania sztucznej inteligencji w udzielaniu porad medycznych”.

Przejdź do treści