AI w medycynie: Modele językowe dobrze radzą sobie z rozpoznaniem końcowym, ale słabiej z różnicowaniem diagnoz
Opublikowane 15 kwietnia 2026Najnowsze duże porównanie 21 modeli językowych pokazuje, że nawet najbardziej zaawansowane systemy AI osiągają dobre wyniki wtedy, gdy mają wskazać końcowe rozpoznanie, ale znacznie gorzej radzą sobie na wcześniejszych etapach myślenia klinicznego. Największą słabością okazało się tworzenie diagnostyki różnicowej i poruszanie się w warunkach niepewności. Autorzy badania podkreślają, że właśnie te elementy są kluczowe w realnej praktyce medycznej, dlatego wysokie wyniki w pojedynczych zadaniach nie oznaczają jeszcze gotowości modeli do samodzielnego wykorzystania w opiece nad pacjentem.
Ocena modeli poza testem wielokrotnego wyboru
Autorzy badania opublikowanego w JAMA Network Open zwracają uwagę, że wiele wcześniejszych analiz dotyczących AI w medycynie opierało się na pytaniach testowych, które nie oddają rzeczywistej złożoności pracy klinicznej. W praktyce lekarz nie odpowiada przecież na pojedyncze pytanie z jedną poprawną odpowiedzią, lecz stopniowo zbiera dane, rozważa kilka możliwych rozpoznań, decyduje o dalszych badaniach, a następnie wybiera sposób postępowania.
Aby lepiej ocenić takie wieloetapowe rozumowanie, badacze porównali 21 ogólnodostępnych modeli językowych, w tym m.in. GPT-5, GPT-4.5, Claude 4.5 Opus, Gemini 3.0 Flash i Pro, DeepSeek R1 oraz Grok 4. Wszystkie modele oceniano na podstawie 29 standaryzowanych winiet klinicznych z aktualizacji podręcznika MSD Manual z stycznia 2025 r. Każdy przypadek zawierał kolejne elementy typowego procesu klinicznego: wywiad, badanie przedmiotowe, wyniki badań laboratoryjnych i pytania prowadzące od diagnostyki różnicowej do rozpoznania końcowego i planu postępowania.
Pięć etapów rozumowania klinicznego
Modele oceniano w pięciu obszarach: diagnostyce różnicowej, doborze badań diagnostycznych, rozpoznaniu końcowym, postępowaniu oraz dodatkowych pytaniach z zakresu rozumowania klinicznego. Odpowiedzi porównywano z kluczami odpowiedzi MSD Manual, a pełny punkt przyznawano tylko wtedy, gdy model wskazał wszystkie poprawne odpowiedzi i nie dodał błędnych.
Autorzy badania opublikowanego w JAMA Network Open zwracają uwagę, że wiele wcześniejszych analiz dotyczących AI w medycynie opierało się na pytaniach testowych, które nie oddają rzeczywistej złożoności pracy klinicznej. W praktyce lekarz nie odpowiada przecież na pojedyncze pytanie z jedną poprawną odpowiedzią, lecz stopniowo zbiera dane, rozważa kilka możliwych rozpoznań, decyduje o dalszych badaniach, a następnie wybiera sposób postępowania.
Aby lepiej ocenić takie wieloetapowe rozumowanie, badacze porównali 21 ogólnodostępnych modeli językowych, w tym m.in. GPT-5, GPT-4.5, Claude 4.5 Opus, Gemini 3.0 Flash i Pro, DeepSeek R1 oraz Grok 4. Wszystkie modele oceniano na podstawie 29 standaryzowanych winiet klinicznych z aktualizacji podręcznika MSD Manual z stycznia 2025 r. Każdy przypadek zawierał kolejne elementy typowego procesu klinicznego: wywiad, badanie przedmiotowe, wyniki badań laboratoryjnych i pytania prowadzące od diagnostyki różnicowej do rozpoznania końcowego i planu postępowania.
Pięć etapów rozumowania klinicznego
Modele oceniano w pięciu obszarach: diagnostyce różnicowej, doborze badań diagnostycznych, rozpoznaniu końcowym, postępowaniu oraz dodatkowych pytaniach z zakresu rozumowania klinicznego. Odpowiedzi porównywano z kluczami odpowiedzi MSD Manual, a pełny punkt przyznawano tylko wtedy, gdy model wskazał wszystkie poprawne odpowiedzi i nie dodał błędnych.
Badacze zaproponowali również nowy wskaźnik nazwany PrIME-LLM. Nie opiera się on wyłącznie na średniej trafności odpowiedzi, lecz ma pokazywać, jak równomiernie model radzi sobie na wszystkich etapach pracy klinicznej. Taka konstrukcja miała ujawnić sytuacje, w których model osiąga dobre wyniki w jednym obszarze, ale ma wyraźne luki w innym.
Najlepsze wyniki osiągnął Grok 4, ale różnice nie dotyczyły wszystkich etapów tak samo
W analizie obejmującej 29 winiet i 16 254 odpowiedzi wartości PrIME-LLM wahały się od 0,64 dla Gemini 1.5 Flash do 0,78 dla Grok 4. Wśród najlepiej ocenionych modeli znalazły się także GPT-5, GPT-4.5, Claude 4.5 Opus oraz Gemini 3.0 Flash i Gemini 3.0 Pro. Autorzy zauważyli również, że nowsze wersje modeli w obrębie tych samych rodzin z reguły wypadały lepiej niż starsze.
Jednocześnie badanie pokazało, że tradycyjna średnia trafność odpowiedzi słabiej różnicowała modele niż wskaźnik PrIME-LLM. Średnia ogólna trafność mieściła się bowiem w dość wąskim przedziale od 0,81 do 0,90, podczas gdy nowy wskaźnik lepiej ujawniał różnice związane z bardziej złożonym rozumowaniem klinicznym.
Najsłabszy punkt: diagnostyka różnicowa
Najbardziej powtarzalnym wynikiem w całym badaniu było to, że modele najgorzej radziły sobie z diagnostyką różnicową. To właśnie ten etap wymaga utrzymania kilku możliwych rozpoznań jednocześnie, pracy w warunkach niepewności i stopniowego zawężania hipotez wraz z napływem nowych danych.
W niemal wszystkich modelach trafność odpowiedzi była wyższa dla rozpoznania końcowego niż dla doboru badań diagnostycznych, a dobór badań wypadał lepiej niż diagnostyka różnicowa. Autorzy podkreślają, że jest to istotna różnica między sposobem działania modeli językowych a rozumowaniem klinicznym lekarzy. Klinicyści utrzymują niepewność i stale korygują listę możliwych rozpoznań, natomiast modele mają skłonność do zbyt szybkiego przechodzenia do jednej odpowiedzi końcowej.
Wskaźnik niepowodzeń, definiowany jako odsetek pytań, na które model nie odpowiedział w pełni poprawnie, również był najwyższy właśnie dla diagnostyki różnicowej. Dla wszystkich modeli przekraczał on 0,80, a w części przypadków sięgał nawet 0,90–1,00. Dla rozpoznania końcowego wartości te były wyraźnie niższe.
Modele zoptymalizowane pod kątem rozumowania wypadały lepiej
Autorzy porównali także modele określane przez producentów jako zoptymalizowane do wieloetapowego rozumowania z modelami, które nie były w ten sposób pozycjonowane. Do tej pierwszej grupy zaliczono m.in. GPT-5, GPT-o1, GPT-o1-Pro, Claude 4.5 Opus, Gemini 2.5 Pro, Gemini 3.0 Pro, Gemini 3.0 Flash, DeepSeek R1 i Grok 4.
Średni wynik modeli „reasoning” był istotnie wyższy niż modeli bez takiej optymalizacji. Różnica była statystycznie bardzo wyraźna, ale autorzy zaznaczają, że nawet te lepsze modele nie zniwelowały podstawowego problemu, czyli słabszego radzenia sobie z diagnostyką różnicową i niepewnością kliniczną.
Obrazy pomagały części modeli, ale nie wszystkim
W badaniu oceniono również 18 modeli multimodalnych, zdolnych do analizy pytań zawierających obrazy, takie jak zdjęcia radiologiczne, tomografia komputerowa czy elektrokardiogramy. W części modeli odpowiedzi na pytania obrazowe były trafniejsze niż na pytania tekstowe. Dotyczyło to m.in. GPT-4.5, GPT-o3-Mini, Claude 3 Opus, Gemini 2.5 Pro, Gemini 3.0 Pro, Gemini 3.0 Flash oraz Grok 4.
Najlepsze wyniki osiągnął Grok 4, ale różnice nie dotyczyły wszystkich etapów tak samo
W analizie obejmującej 29 winiet i 16 254 odpowiedzi wartości PrIME-LLM wahały się od 0,64 dla Gemini 1.5 Flash do 0,78 dla Grok 4. Wśród najlepiej ocenionych modeli znalazły się także GPT-5, GPT-4.5, Claude 4.5 Opus oraz Gemini 3.0 Flash i Gemini 3.0 Pro. Autorzy zauważyli również, że nowsze wersje modeli w obrębie tych samych rodzin z reguły wypadały lepiej niż starsze.
Jednocześnie badanie pokazało, że tradycyjna średnia trafność odpowiedzi słabiej różnicowała modele niż wskaźnik PrIME-LLM. Średnia ogólna trafność mieściła się bowiem w dość wąskim przedziale od 0,81 do 0,90, podczas gdy nowy wskaźnik lepiej ujawniał różnice związane z bardziej złożonym rozumowaniem klinicznym.
Najsłabszy punkt: diagnostyka różnicowa
Najbardziej powtarzalnym wynikiem w całym badaniu było to, że modele najgorzej radziły sobie z diagnostyką różnicową. To właśnie ten etap wymaga utrzymania kilku możliwych rozpoznań jednocześnie, pracy w warunkach niepewności i stopniowego zawężania hipotez wraz z napływem nowych danych.
W niemal wszystkich modelach trafność odpowiedzi była wyższa dla rozpoznania końcowego niż dla doboru badań diagnostycznych, a dobór badań wypadał lepiej niż diagnostyka różnicowa. Autorzy podkreślają, że jest to istotna różnica między sposobem działania modeli językowych a rozumowaniem klinicznym lekarzy. Klinicyści utrzymują niepewność i stale korygują listę możliwych rozpoznań, natomiast modele mają skłonność do zbyt szybkiego przechodzenia do jednej odpowiedzi końcowej.
Wskaźnik niepowodzeń, definiowany jako odsetek pytań, na które model nie odpowiedział w pełni poprawnie, również był najwyższy właśnie dla diagnostyki różnicowej. Dla wszystkich modeli przekraczał on 0,80, a w części przypadków sięgał nawet 0,90–1,00. Dla rozpoznania końcowego wartości te były wyraźnie niższe.
Modele zoptymalizowane pod kątem rozumowania wypadały lepiej
Autorzy porównali także modele określane przez producentów jako zoptymalizowane do wieloetapowego rozumowania z modelami, które nie były w ten sposób pozycjonowane. Do tej pierwszej grupy zaliczono m.in. GPT-5, GPT-o1, GPT-o1-Pro, Claude 4.5 Opus, Gemini 2.5 Pro, Gemini 3.0 Pro, Gemini 3.0 Flash, DeepSeek R1 i Grok 4.
Średni wynik modeli „reasoning” był istotnie wyższy niż modeli bez takiej optymalizacji. Różnica była statystycznie bardzo wyraźna, ale autorzy zaznaczają, że nawet te lepsze modele nie zniwelowały podstawowego problemu, czyli słabszego radzenia sobie z diagnostyką różnicową i niepewnością kliniczną.
Obrazy pomagały części modeli, ale nie wszystkim
W badaniu oceniono również 18 modeli multimodalnych, zdolnych do analizy pytań zawierających obrazy, takie jak zdjęcia radiologiczne, tomografia komputerowa czy elektrokardiogramy. W części modeli odpowiedzi na pytania obrazowe były trafniejsze niż na pytania tekstowe. Dotyczyło to m.in. GPT-4.5, GPT-o3-Mini, Claude 3 Opus, Gemini 2.5 Pro, Gemini 3.0 Pro, Gemini 3.0 Flash oraz Grok 4.
Nie był to jednak efekt powszechny. W wielu innych modelach nie odnotowano istotnych różnic między zadaniami tekstowymi i obrazowymi, co według autorów pokazuje, że zdolność do stabilnego przetwarzania danych multimodalnych pozostaje nierówna.
Co wynika z badania
Autorzy podsumowują, że współczesne modele językowe osiągają wysoką trafność tam, gdzie mają wskazać ostateczne rozpoznanie na podstawie dostarczonych danych, ale nadal mają ograniczenia na wcześniejszych etapach procesu diagnostycznego. W praktyce oznacza to, że dobrze radzą sobie z końcowym „domknięciem” przypadku, lecz słabiej z etapem budowania listy możliwych przyczyn i wyboru właściwej ścieżki dalszej diagnostyki.
Badacze zaznaczają również, że ich analiza dotyczyła modeli ogólnodostępnych, bez dodatkowych narzędzi wspierających, takich jak dostęp do wytycznych, kalkulatorów klinicznych, systemów wyszukiwania wiedzy czy mechanizmów retrieval-augmented generation. Wyniki pokazują więc bazową zdolność modeli do rozumowania klinicznego, a nie maksymalny poziom osiągalny po dodatkowym rozszerzeniu systemu.
Ograniczenia analizy
Autorzy wskazują kilka ograniczeń pracy. Po pierwsze, modele oceniano z użyciem różnych interfejsów, zarówno API, jak i wersji webowych. Po drugie, nie można całkowicie wykluczyć, że część publicznie dostępnych winiet klinicznych była obecna w danych treningowych modeli. Po trzecie, badanie nie porównywało modeli bezpośrednio z lekarzami i nie miało na celu ustalenia równoważności względem klinicystów.
Mimo to autorzy podkreślają, że zaproponowany wskaźnik PrIME-LLM może być użyteczny jako powtarzalne narzędzie do śledzenia postępów kolejnych generacji modeli oraz do oceny, czy dodatkowe funkcje rzeczywiście poprawiają jakość rozumowania klinicznego.
Źródło: Rao AS, Esmail KP, Lee RS, et al. Large Language Model Performance and Clinical Reasoning Tasks. JAMA Network Open. 2026;9(4):e264003. doi:10.1001/jamanetworkopen.2026.4003.
Co wynika z badania
Autorzy podsumowują, że współczesne modele językowe osiągają wysoką trafność tam, gdzie mają wskazać ostateczne rozpoznanie na podstawie dostarczonych danych, ale nadal mają ograniczenia na wcześniejszych etapach procesu diagnostycznego. W praktyce oznacza to, że dobrze radzą sobie z końcowym „domknięciem” przypadku, lecz słabiej z etapem budowania listy możliwych przyczyn i wyboru właściwej ścieżki dalszej diagnostyki.
Badacze zaznaczają również, że ich analiza dotyczyła modeli ogólnodostępnych, bez dodatkowych narzędzi wspierających, takich jak dostęp do wytycznych, kalkulatorów klinicznych, systemów wyszukiwania wiedzy czy mechanizmów retrieval-augmented generation. Wyniki pokazują więc bazową zdolność modeli do rozumowania klinicznego, a nie maksymalny poziom osiągalny po dodatkowym rozszerzeniu systemu.
Ograniczenia analizy
Autorzy wskazują kilka ograniczeń pracy. Po pierwsze, modele oceniano z użyciem różnych interfejsów, zarówno API, jak i wersji webowych. Po drugie, nie można całkowicie wykluczyć, że część publicznie dostępnych winiet klinicznych była obecna w danych treningowych modeli. Po trzecie, badanie nie porównywało modeli bezpośrednio z lekarzami i nie miało na celu ustalenia równoważności względem klinicystów.
Mimo to autorzy podkreślają, że zaproponowany wskaźnik PrIME-LLM może być użyteczny jako powtarzalne narzędzie do śledzenia postępów kolejnych generacji modeli oraz do oceny, czy dodatkowe funkcje rzeczywiście poprawiają jakość rozumowania klinicznego.
Źródło: Rao AS, Esmail KP, Lee RS, et al. Large Language Model Performance and Clinical Reasoning Tasks. JAMA Network Open. 2026;9(4):e264003. doi:10.1001/jamanetworkopen.2026.4003.
Autor:
Redakcja MedicalPress
Powiązane hasła:
#sztuczna-inteligencja
#LLM
#medycyna
#rozumowanie-kliniczne
#diagnostyka
#JAMA-Network-Open