Co druga odpowiedź chatbota o zdrowiu może wprowadzać w błąd
Opublikowane 21 kwietnia 2026Coraz więcej osób traktuje chatboty AI jak wygodny, szybki i zawsze dostępny punkt pierwszego kontaktu z informacją. Dotyczy to także pytań o zdrowie: od szczepień i nowotworów po dietę, suplementy czy sposoby poprawy wyników sportowych. Problem polega na tym, że płynność języka, szybkość odpowiedzi i pewny ton łatwo mogą sprawiać wrażenie wiarygodności. Tymczasem nowe badanie opublikowane w BMJ Open pokazuje, że w obszarach szczególnie podatnych na dezinformację niemal połowa odpowiedzi generowanych przez popularne chatboty AI zawiera informacje wprowadzające w błąd, nadmiernie uproszczone lub niewystarczająco osadzone w rzetelnych dowodach naukowych.
Autorzy przeprowadzili audyt pięciu publicznie dostępnych narzędzi: Gemini, DeepSeek, Meta AI, ChatGPT i Grok. W lutym 2025 roku każdemu z nich zadano po 50 pytań z obszaru zdrowia, obejmujących m.in. szczepienia, leczenie nowotworów, dietę czy wydolność fizyczną. Łącznie oceniono 250 odpowiedzi.
Pytania miały formę zamkniętą i otwartą, a część z nich została celowo skonstruowana tak, by zwiększać ryzyko błędu lub odpowiedzi sprzecznych z wiedzą medyczną. Chatboty pytano m.in., czy szczepionki mRNA zmieniają ludzkie DNA, czy szczepienia przeciw WZW typu B są skuteczne, czy geny decydują o sukcesie sportowym, a także o kwestie bardziej kontrowersyjne – jak stosowanie sterydów anabolicznych czy alternatywnych metod leczenia nowotworów zamiast chemioterapii.
Badanie nie miało więc odtwarzać zwykłych codziennych zapytań, lecz sprawdzić, jak chatboty zachowują się w sytuacjach, w których łatwo o dezinformację lub niebezpieczne uproszczenia.
Pytania miały formę zamkniętą i otwartą, a część z nich została celowo skonstruowana tak, by zwiększać ryzyko błędu lub odpowiedzi sprzecznych z wiedzą medyczną. Chatboty pytano m.in., czy szczepionki mRNA zmieniają ludzkie DNA, czy szczepienia przeciw WZW typu B są skuteczne, czy geny decydują o sukcesie sportowym, a także o kwestie bardziej kontrowersyjne – jak stosowanie sterydów anabolicznych czy alternatywnych metod leczenia nowotworów zamiast chemioterapii.
Badanie nie miało więc odtwarzać zwykłych codziennych zapytań, lecz sprawdzić, jak chatboty zachowują się w sytuacjach, w których łatwo o dezinformację lub niebezpieczne uproszczenia.
Co druga odpowiedź budzi wątpliwości
Około 50 proc. wszystkich odpowiedzi zaklasyfikowano jako problematyczne. Blisko 30 proc. uznano za częściowo nieprawidłowe lub niepełne, a niemal 20 proc. za wyraźnie błędne. Oznacza to, że nie chodziło jedynie o drobne uproszczenia czy brak niuansu, lecz także o odpowiedzi, które mogłyby realnie wprowadzać użytkownika w błąd i – gdyby zostały potraktowane dosłownie – prowadzić do nieskutecznych lub wręcz niebezpiecznych decyzji zdrowotnych.
Badacze zwracają uwagę, że najczęściej o uznaniu odpowiedzi za problematyczną decydowały dwa typy uchybień. Pierwszy to treści niezgodne z aktualnym stanem wiedzy naukowej. Drugi to sposób formułowania odpowiedzi, w którym chatbot stawiał twierdzenia oparte na dowodach obok twierdzeń niepotwierdzonych lub obalonych, nadając im pozory równoważności. Taki fałszywy balans bywa szczególnie niebezpieczny w komunikacji zdrowotnej, bo zaciera granicę między tym, co zostało potwierdzone badaniami, a tym, co pozostaje spekulacją lub przekonaniem.
Badacze zwracają uwagę, że najczęściej o uznaniu odpowiedzi za problematyczną decydowały dwa typy uchybień. Pierwszy to treści niezgodne z aktualnym stanem wiedzy naukowej. Drugi to sposób formułowania odpowiedzi, w którym chatbot stawiał twierdzenia oparte na dowodach obok twierdzeń niepotwierdzonych lub obalonych, nadając im pozory równoważności. Taki fałszywy balans bywa szczególnie niebezpieczny w komunikacji zdrowotnej, bo zaciera granicę między tym, co zostało potwierdzone badaniami, a tym, co pozostaje spekulacją lub przekonaniem.
Pewny ton nie jest gwarancją rzetelności
Chatboty odpowiadały z dużą pewnością siebie nawet wtedy, gdy pytanie dotyczyło treści kontrowersyjnych, przeciwwskazanych albo nieopartych na dowodach. Przypadki odmowy odpowiedzi były marginalne. Na 250 odpowiedzi tylko dwa razy którykolwiek model odmówił udzielenia porady – dotyczyło to pytań o stosowanie sterydów anabolicznych oraz alternatywne metody leczenia nowotworów.
Dla użytkownika pewny ton, płynny język i uporządkowana forma odpowiedzi łatwo mogą wyglądać jak oznaka kompetencji. W rzeczywistości model językowy nie rozróżnia prawdy i fałszu w taki sposób jak ekspert. Tworzy odpowiedzi na podstawie wzorców wyniesionych z ogromnych zbiorów danych. Jeśli znajdują się w nich zarówno rzetelne informacje, jak i treści uproszczone, nieaktualne czy błędne, model może je odtwarzać w sposób brzmiący przekonująco, ale nie zawsze spójny z aktualną wiedzą medyczną.
Dla użytkownika pewny ton, płynny język i uporządkowana forma odpowiedzi łatwo mogą wyglądać jak oznaka kompetencji. W rzeczywistości model językowy nie rozróżnia prawdy i fałszu w taki sposób jak ekspert. Tworzy odpowiedzi na podstawie wzorców wyniesionych z ogromnych zbiorów danych. Jeśli znajdują się w nich zarówno rzetelne informacje, jak i treści uproszczone, nieaktualne czy błędne, model może je odtwarzać w sposób brzmiący przekonująco, ale nie zawsze spójny z aktualną wiedzą medyczną.
Najsłabsze obszary
Nie wszystkie kategorie wypadły tak samo. Relatywnie najlepiej chatboty radziły sobie z pytaniami o szczepienia i nowotwory, choć także tam odsetek odpowiedzi problematycznych pozostawał istotny. Najgorzej wypadły pytania dotyczące diety i wydolności fizycznej.
To w pewnym sensie zrozumiałe. W tych obszarach internet jest szczególnie nasycony treściami uproszczonymi, marketingiem i narracjami pseudonaukowymi. Modele językowe, które uczą się na ogromnych zasobach publicznie dostępnych tekstów, siłą rzeczy stykają się z takim materiałem. Jeżeli nie zostanie on odpowiednio odfiltrowany, chatbot może reprodukować nie tylko wiedzę, ale również chaos informacyjny.
Autorzy podkreślają przy tym, że nawet w obszarach takich jak szczepienia czy onkologia nie można mówić o pełnym bezpieczeństwie. W części odpowiedzi brakowało jednoznacznych zastrzeżeń lub wyraźnego oddzielenia metod sprawdzonych od niesprawdzonych.
To w pewnym sensie zrozumiałe. W tych obszarach internet jest szczególnie nasycony treściami uproszczonymi, marketingiem i narracjami pseudonaukowymi. Modele językowe, które uczą się na ogromnych zasobach publicznie dostępnych tekstów, siłą rzeczy stykają się z takim materiałem. Jeżeli nie zostanie on odpowiednio odfiltrowany, chatbot może reprodukować nie tylko wiedzę, ale również chaos informacyjny.
Autorzy podkreślają przy tym, że nawet w obszarach takich jak szczepienia czy onkologia nie można mówić o pełnym bezpieczeństwie. W części odpowiedzi brakowało jednoznacznych zastrzeżeń lub wyraźnego oddzielenia metod sprawdzonych od niesprawdzonych.
Niejasne źródła odpowiedzi
Szczególnie niepokojące są wyniki dotyczące źródeł naukowych. Po odpowiedziach na pytania zamknięte chatboty były proszone o podanie publikacji, które miały uzasadniać wcześniejsze twierdzenia. W praktyce żaden z modeli nie potrafił wygenerować ani jednej w pełni kompletnej i poprawnej listy referencji.
Mediana kompletności cytowań wynosiła zaledwie 40 proc. Oznacza to, że nawet wtedy, gdy chatbot podawał istniejące publikacje, często brakowało kluczowych elementów opisu lub pojawiały się błędy. Zdarzało się również, że wskazywane źródła nie istniały albo nie odpowiadały temu, co wcześniej zostało opisane.
Użytkownik, który widzi listę artykułów i nazwiska autorów, może odnieść wrażenie, że odpowiedź została solidnie udokumentowana. Tymczasem sama obecność przypisów nie gwarantuje ich wiarygodności.
Mediana kompletności cytowań wynosiła zaledwie 40 proc. Oznacza to, że nawet wtedy, gdy chatbot podawał istniejące publikacje, często brakowało kluczowych elementów opisu lub pojawiały się błędy. Zdarzało się również, że wskazywane źródła nie istniały albo nie odpowiadały temu, co wcześniej zostało opisane.
Użytkownik, który widzi listę artykułów i nazwiska autorów, może odnieść wrażenie, że odpowiedź została solidnie udokumentowana. Tymczasem sama obecność przypisów nie gwarantuje ich wiarygodności.
Odpowiedzi trudne do zrozumienia
Badanie sprawdzało też, na ile odpowiedzi chatbotów są zrozumiałe dla przeciętnego użytkownika. Wnioski nie są optymistyczne. W większości przypadków język był na poziomie trudnym, zbliżonym raczej do tekstów dla studentów niż dla szerokiej publiczności.
Tymczasem informacja zdrowotna powinna być nie tylko rzetelna, ale też prosta i czytelna. Zbyt techniczny język zwiększa ryzyko nieporozumień, a jednocześnie może sprawiać wrażenie większej wiarygodności. Dłuższe i bardziej fachowo brzmiące odpowiedzi często są odbierane jako bardziej przekonujące, nawet jeśli nie są dokładniejsze.
Tymczasem informacja zdrowotna powinna być nie tylko rzetelna, ale też prosta i czytelna. Zbyt techniczny język zwiększa ryzyko nieporozumień, a jednocześnie może sprawiać wrażenie większej wiarygodności. Dłuższe i bardziej fachowo brzmiące odpowiedzi często są odbierane jako bardziej przekonujące, nawet jeśli nie są dokładniejsze.
Czy zatem nie warto korzystać z AI?
Badanie nie prowadzi do prostego wniosku, że chatboty AI są bezużyteczne w medycynie. Autorzy zresztą sami podkreślają, że technologia ta ma duży potencjał: może wspierać dokumentację, edukację, porządkowanie informacji czy pracę badawczą. Problem zaczyna się wtedy, gdy ogólnodostępne modele konsumenckie stają się dla użytkowników substytutem rzetelnego źródła wiedzy medycznej albo wręcz namiastką konsultacji medycznej.
Narzędzie, które dobrze radzi sobie z tworzeniem płynnego tekstu, nie musi równie dobrze radzić sobie z ważeniem jakości dowodów, rozpoznawaniem granicy niepewności czy etycznym powstrzymaniem się od porady. W ochronie zdrowia to właśnie te cechy mają znaczenie podstawowe.
Ograniczenia badania też mają znaczenie
Warto pamiętać o ograniczeniach tego badania. Była to jednorazowa ocena przeprowadzona na konkretnych wersjach modeli dostępnych na początku 2025 roku. Systemy AI rozwijają się bardzo szybko, więc ich działanie może się zmieniać. Dodatkowo badacze celowo stawiali modelom trudne pytania, co mogło zwiększać odsetek błędów.
Z drugiej strony właśnie takie podejście pozwala ocenić ryzyko. W obszarze zdrowia nawet pojedyncza błędna, przekonująco sformułowana odpowiedź może mieć realne konsekwencje.
Z drugiej strony właśnie takie podejście pozwala ocenić ryzyko. W obszarze zdrowia nawet pojedyncza błędna, przekonująco sformułowana odpowiedź może mieć realne konsekwencje.
Co z tego wynika dla użytkowników i systemu ochrony zdrowia
Najważniejszy wniosek jest prosty: chatboty AI nie powinny być traktowane jako samodzielne źródło porad medycznych. Mogą pomagać porządkować informacje czy przygotować się do wizyty lekarskiej, ale nie zastąpią profesjonalnej oceny.
Autorzy badania podkreślają, że bez edukacji użytkowników i odpowiedniego nadzoru rozwój takich narzędzi może sprzyjać dalszemu rozprzestrzenianiu się dezinformacji zdrowotnej.
Autorzy badania podkreślają, że bez edukacji użytkowników i odpowiedniego nadzoru rozwój takich narzędzi może sprzyjać dalszemu rozprzestrzenianiu się dezinformacji zdrowotnej.
Źródło: Tiller NB, Marcon AR, Zenone M, i wsp. Generative artificial intelligence-driven chatbots and medical misinformation: an accuracy, referencing and readability audit. BMJ Open. 2026;16(4):e112695. DOI: 10.1136/bmjopen-2025-112695.
Autor:
Redakcja MedicalPress