Artykuł

Pacjent pyta, AI odpowiada. Czy można jej zaufać?

5 czerwca 2026

Udostępnij:

Jeśli pojawi się ból, wysypka albo inny niepokojący objaw, coraz częściej zamiast wpisywać pytanie do wyszukiwarki pytamy ChatGPT. W ciągu zaledwie kilku lat chatboty stały się dla wielu osób jednym z podstawowych źródeł informacji o zdrowiu. Badacze z Penn State sprawdzili, jak współczesne modele językowe radzą sobie z codziennymi pytaniami zdrowotnymi

„Nasza praca koncentruje się bezpośrednio na sytuacjach zdrowotnych, z którymi może zetknąć się przeciętny użytkownik internetu. To perspektywa, której wcześniejsze badania dużych modeli językowych w ochronie zdrowia zwykle nie uwzględniały” – powiedział prof. Amulya Yadav z College of Information Sciences and Technology na Penn State. „Chcieliśmy sprawdzić, jak dokładne są odpowiedzi modeli takich jak ChatGPT, gdy ludzie używają ich do sprawdzania objawów podobnie, jak wcześniej korzystali z Google. Interesowało nas również, jak poważne mogą być konsekwencje ich błędów.

Dobre wyniki, ale daleko do lekarza

Aby sprawdzić możliwości sztucznej inteligencji, zespół zorganizował konkurs nazwany „Diagnose-a-thon”. Wzięły w nim udział 34 osoby – pracownicy uczelni, studenci i doktoranci. Uczestnicy przygotowali łącznie 212 zapytań dotyczących rzeczywistych i hipotetycznych problemów zdrowotnych. Pytania formułowano zarówno z perspektywy pacjentów, jak i lekarzy.

Do dyspozycji były cztery popularne modele językowe: ChatGPT-4o, ChatGPT-3.5, Gemini 1.5 Pro oraz Llama 3 8B. Naukowcy nie narzucali uczestnikom żadnego szczególnego sposobu pracy. Chodziło o możliwie wierne odtworzenie codziennych zachowań użytkowników.

„Poprosiliśmy uczestników, aby sami wybrali model i korzystali z niego dokładnie tak, jak robią to na co dzień. Takie badania partycypacyjne są bardzo ważne, jeśli chcemy zrozumieć, w jaki sposób społeczeństwo wykorzystuje sztuczną inteligencję w codziennym życiu” – wyjaśnił główny autor pracy Bonam Mingole, doktorant w dziedzinie nauk informacyjnych.

Odpowiedzi wygenerowane przez modele zostały następnie ocenione przez certyfikowanych lekarzy specjalistów. Analizowali zarówno ich poprawność medyczną, jak i potencjalne ryzyko wyrządzenia szkody pacjentowi.

Średnia skuteczność modeli okazała się wyższa, niż można by się spodziewać. Badacze oszacowali, że 76,2 proc. odpowiedzi generowanych przez AI zawierało poprawne informacje medyczne.

Nie wszystkie dziedziny medycyny okazały się jednak równie łatwe dla sztucznej inteligencji. Najlepiej modele radziły sobie z pytaniami dotyczącymi ginekologii, położnictwa oraz chorób uszu, nosa i gardła. W tych obszarach odpowiedzi były częściej poprawne i rzadziej mogły prowadzić do niebezpiecznych konsekwencji.

Znacznie gorzej wypadły neurologia, dermatologia i choroby wewnętrzne. To właśnie tam lekarze częściej wskazywali błędy oraz większe ryzyko potencjalnej szkody dla pacjentów.

Badacze zauważyli również, że duże znaczenie ma sposób zadawania pytań. Najlepsze rezultaty dawały stosunkowo konkretne zapytania liczące od 60 do 250 znaków. Zbyt ogólne lub nieprecyzyjne pytania prowadziły do wyraźnie gorszych odpowiedzi.

AI nadal nie zastępuje lekarza

Autorzy badania podkreślają, że sztuczna inteligencja może odegrać ważną rolę w przyszłości medycyny, ale raczej jako narzędzie wspierające lekarzy niż zastępujące ich w kontakcie z pacjentami. „Wkraczamy w nową erę ochrony zdrowia, a sztuczna inteligencja jest jej istotną częścią. Pojawia się realna szansa na transformację opieki zdrowotnej i integrację nowych narzędzi w taki sposób, aby lekarze mogli wykorzystywać je do poprawy opieki nad pacjentami” – powiedziała prof. Jennifer Kraschnewski z Penn State College of Medicine.

Jednocześnie badacze zwracają uwagę, że mimo stosunkowo wysokiej skuteczności błędy modeli AI nadal występują w ponad 20 proc. przypadków. To około dwukrotnie częściej niż w przypadku lekarzy.

Część tych pomyłek może prowadzić do szkodliwych decyzji zdrowotnych, szczególnie jeśli użytkownik potraktuje odpowiedź chatbota jako pełnoprawną diagnozę.

Podobne rezultaty przyniosły również inne badania. W lutym 2026 r. zespół naukowców z Uniwersytetu Oksfordzkiego opublikował na łamach Nature Medicine największe jak dotąd badanie dotyczące wykorzystania dużych modeli językowych przez osoby poszukujące porad medycznych. W eksperymencie uczestniczyło blisko 1300 osób rozwiązujących przygotowane przez lekarzy scenariusze zdrowotne. Okazało się, że uczestnicy korzystający z chatbotów AI nie podejmowali lepszych decyzji niż osoby polegające na wyszukiwarkach internetowych lub własnej ocenie sytuacji. Innymi słowy, dostęp do zaawansowanego modelu językowego nie przełożył się automatycznie na trafniejsze decyzje zdrowotne.

Zespół z Oksfordu wskazał trzy powtarzające się problemy. Po pierwsze, użytkownicy często nie wiedzieli, jakie informacje powinni przekazać modelowi, aby uzyskać trafną odpowiedź. Po drugie, same modele potrafiły udzielać różnych rekomendacji przy niewielkich zmianach w sposobie zadania pytania. Po trzecie, odpowiedzi często mieszały poprawne i błędne wskazówki, które dla osoby bez wiedzy medycznej były trudne do odróżnienia.

„Pomimo całego szumu wokół tej technologii sztuczna inteligencja po prostu nie jest jeszcze gotowa, by przejąć rolę lekarza” – powiedziała dr Rebecca Payne z Nuffield Department of Primary Care Health Sciences na Uniwersytecie Oksfordzkim. „Pacjenci powinni mieć świadomość, że pytanie dużego modelu językowego o swoje objawy może być niebezpieczne, prowadzić do błędnych diagnoz i przeoczenia sytuacji wymagających pilnej pomocy.

Autorzy badania z Penn State nie mają jednak złudzeń, że pacjenci przestaną korzystać z takich narzędzi. „Czy nam się to podoba, czy nie, ludzie będą nadal używać sztucznej inteligencji do diagnozowania swoich problemów zdrowotnych” – stwierdził prof. S. Shyam Sundar z Penn State. „Dzięki analizie sposobów korzystania z tych narzędzi i ocenie jakości ich odpowiedzi nasz projekt pomaga lepiej zrozumieć zarówno najlepsze, jak i najgorsze zastosowania sztucznej inteligencji w udzielaniu porad medycznych”.

Polecane:

Artykuł
/ Nauka i odkrycia

„Czołgający się pionier” sprzed 400 mln lat zmienia historię wyjścia kręgowców na ląd Przejdź do publikacji: „Czołgający się pionier” sprzed 400 mln lat zmienia historię wyjścia kręgowców na ląd
Artykuł
/ Aktualności PAN, Nauka i odkrycia

„System zakłada, że naukowca trzeba przede wszystkim pilnować”. Prof. Pałys o polskiej nauce Przejdź do publikacji: „System zakłada, że naukowca trzeba przede wszystkim pilnować”. Prof. Pałys o polskiej nauce
Artykuł
/ Społeczeństwo i kultura, Technologia i przyszłość

AI nie musi się mylić, żeby szkodzić Przejdź do publikacji: AI nie musi się mylić, żeby szkodzić

Udostępnij:

Podobne artykuły

Artykuł

/ Medycyna i zdrowie, Nauka i odkrycia

AI czasem diagnozuje lepiej niż lekarz. I to problem Przejdź do publikacji: AI czasem diagnozuje lepiej niż lekarz. I to problem

Artykuł

/ Społeczeństwo i kultura

AI pisze szybciej, taniej i bez przerw na kawę. Czy człowiek ma jeszcze coś do dodania? Przejdź do publikacji: AI pisze szybciej, taniej i bez przerw na kawę. Czy człowiek ma jeszcze coś do dodania?

Francesco Agnellini

Podcast

/ Nauka i odkrycia

Czy sztuczna inteligencja umie zadawać pytania lepiej niż ludzie? Ankiety, kłamstwa i nowe narzędzia badawcze Przejdź do publikacji: Czy sztuczna inteligencja umie zadawać pytania lepiej niż ludzie? Ankiety, kłamstwa i nowe narzędzia badawcze

Popularne wyszukiwania:

Pacjent pyta, AI odpowiada. Czy można jej zaufać?

Polecane:

„Czołgający się pionier” sprzed 400 mln lat zmienia historię wyjścia kręgowców na ląd Przejdź do publikacji: „Czołgający się pionier” sprzed 400 mln lat zmienia historię wyjścia kręgowców na ląd

„System zakłada, że naukowca trzeba przede wszystkim pilnować”. Prof. Pałys o polskiej nauce Przejdź do publikacji: „System zakłada, że naukowca trzeba przede wszystkim pilnować”. Prof. Pałys o polskiej nauce

AI nie musi się mylić, żeby szkodzić Przejdź do publikacji: AI nie musi się mylić, żeby szkodzić

Podobne artykuły

AI czasem diagnozuje lepiej niż lekarz. I to problem Przejdź do publikacji: AI czasem diagnozuje lepiej niż lekarz. I to problem

AI pisze szybciej, taniej i bez przerw na kawę. Czy człowiek ma jeszcze coś do dodania? Przejdź do publikacji: AI pisze szybciej, taniej i bez przerw na kawę. Czy człowiek ma jeszcze coś do dodania?

Czy sztuczna inteligencja umie zadawać pytania lepiej niż ludzie? Ankiety, kłamstwa i nowe narzędzia badawcze Przejdź do publikacji: Czy sztuczna inteligencja umie zadawać pytania lepiej niż ludzie? Ankiety, kłamstwa i nowe narzędzia badawcze