Najnowsza wersja ChatGPT, mimo zdania egzaminu z radiologii, nadal nie jest w pełni wiarygodna - informuje pismo „Radiology”. Badania przeprowadzone przez dr Rajesha Bhayanę i jego zespół ukazują potencjał i ograniczenia modeli językowych, takich jak ChatGPT, w kontekście radiologii.
Badania polegały na przetestowaniu ChatGPT opartego na GPT-3.5, najpopularniejszej wersji, na pytaniach egzaminacyjnych Canadian Royal College i American Board of Radiology. ChatGPT poprawnie odpowiedział na 69% pytań, co było blisko minimalnego wymaganego progu 70% Royal College w Kanadzie. Miał jednak trudności w pytaniach dotyczących bardziej zaawansowanego myślenia, kalkulacji, klasyfikacji i stosowania pojęć.
W kolejnym badaniu, w którym wykorzystano płatną usługę GPT-4, ChatGPT poprawnie odpowiedział na 81% tych samych pytań, przekraczając próg zaliczenia. GPT-4 działał znacznie lepiej w przypadku bardziej skomplikowanych czynności intelektualnych, zwłaszcza opisu wyników badań obrazowych i stosowania pojęć.
Wykorzystanie dużych modeli językowych, takich jak ChatGPT, rośnie i będzie rosło. Nasze badania dają wgląd w możliwości ChatuGPT w kontekście radiologii, podkreślając niesamowity potencjał dużych modeli językowych, wraz z obecnymi ograniczeniami, które czynią go niewiarygodnym.
powiedział główny autor, dr Rajesh Bhayana, radiolog z University Medical Imaging w Toronto (Kanada)
Mimo poprawy wydajności wersji GPT-4, ChatGPT nadal wykazywał niepewność, generując czasem niedokładne odpowiedzi. Ta tendencja do generowania wprowadzających w błąd wypowiedzi ogranicza jego użyteczność w edukacji medycznej i praktyce klinicznej.
Nasze badanie pokazuje imponującą poprawę wydajności ChatuGPT w radiologii w krótkim okresie, podkreślając rosnący potencjał dużych modeli językowych w tym kontekście. Początkowo byliśmy zaskoczeni dokładnymi i pewnymi odpowiedziami ChatuGPT na niektóre trudne pytania radiologiczne, ale potem równie zaskoczeni niektórymi bardzo nielogicznymi i niedokładnymi twierdzeniami
Wnioskiem z badań jest to, że ChatGPT może być użyteczny do inspiracji i pomocy w rozpoczęciu pisania medycznego oraz podsumowywania danych. Jednak w przypadku szybkiego pobierania informacji zawsze należy je zweryfikować, ponieważ ChatGPT może wydawać się pewny, nawet gdy nie ma racji.
Dla mnie jest to jego największe ograniczenie. Obecnie ChatGPT najlepiej nadaje się do pobudzania pomysłów, pomagania w rozpoczęciu procesu pisania medycznego i podsumowywania danych. Jeśli jest używany do szybkiego przywoływania informacji, zawsze musi być zweryfikowany.