Zkoušku z bariatrické chirurgie nejlépe složil ChatGPT-4. Za ním zůstaly Bing a Bard

30. 9. 2024

Velké jazykové modely, jako jsou ChatGPT, Bing nebo Bard, se stávají součástí každodenního života mnohých z nás. Tomu, jak prospěšné a spolehlivé může být jejich využívání při studiu a přípravě na zkoušku, se věnovala nedávná kanadsko-americká studie.

Šprtání z učebnice

Učebnice Americké společnosti pro metabolickou a bariatrickou chirurgii (ASMBS) představuje komplexní zdroj znalostí bariatrické chirurgie, který zahrnuje i nejnovější poznatky a klinické otázky. Studie publikovaná v časopisu Surgery for Obesity and Related Diseases zkoumala schopnost velkých jazykových modelů (LLMs – large language models) správně odpovědět na otázky obsažené v této knize. Cílem studie bylo zjistit kvalitu a porovnat schopnosti různých LLMs reagovat na učebnicové otázky týkající se bariatrické chirurgie.

Odpovědi založené na výchozím nastavení

Do 3 modelů (ChatGPT společnosti OpenAI, Bing společnosti Microsoft, Bard společnosti Google) byly v jednom týdnu na konci května 2023 zadány stejné prompty: 200 testových otázek s výběrem možných odpovědí převzatých z druhého vydání zmíněné učebnice. Modely LLM nebyly nijak trénované na obsah učebnice, a tak jejich schopnost generovat odpovědi byla založená čistě na jejich výchozím nastavení. K dispozici měly jak samotné otázky, tak možnosti odpovědí, včetně těch správných. Pro každou otázku byla vytvořena nová chatová konverzace, zahájená pokynem: „Odpověz na tuto otázku s výběrem z více možností:”

Pokud jazykové modely neposkytly jednu z uvedených možností jako odpověď, byly maximálně 3× vyzvány k výběru jedné odpovědi. Vygenerované odpovědi byly porovnány se správnými odpověďmi uvedenými v učebnici a hodnoceny na základě celkové přesnosti, počtu správných odpovědí podle tématu a počtu správných odpovědí podle typu otázky.

Výsledky

Přesnost odpovědí

Z hlediska přesnosti odpovědí byly mezi jednotlivými modely celkově významné rozdíly. Nejlépe si vedl ChatGPT-4 s přesností 83 % (166 správných odpovědí) následovaný Bardem (76 %) a Bingem (66 %). Na rozdíl od ostatních ChatGPT-4 nenechal žádnou otázku bez odpovědi. V případě, kdy si napoprvé nevěděl s otázkou rady, dokázal vybrat odpověď po následné výzvě (celkem 5 odpovědí však v tomto případě bylo náhodně vybraných).

Tab. Přesnost poskytnutých odpovědí různými LLMs

AI model	správně n (%)	p	nesprávně n (%)	p	náhodný výběr n (%)	bez odpovědi n (%)
ChatGPT-4	166 (83 %)	< 0,001	34 (17 %)	< 0,001	5 (2,5 %)	0
Bard	152 (76 %)		48 (24 %)		0	5 (2,5 %)
Bing	131 (65,5 %)		69 (34,5 %)		0	1 (0,5 %)

Témata otázek

U jednotlivých podskupin otázek byla provedena samostatná analýza. Tyto podskupiny zahrnují kazuistiky (například otázky týkající se dalšího postupu na základě popisu případu a stavu pacienta), studie/pokyny (například otázky týkající se pokynů organizací nebo vlády, významné studie týkající se bariatrické chirurgie, otázky týkající se předpisů a programů), léčebné a chirurgické postupy (například otázky týkající se výsledků různých léčebných postupů či specifických chirurgických technik), komplikace a nežádoucí příhody, biochemie a farmakologie (například otázky týkající se hormonů, biochemických pochodů a léčiv), diagnostiky a evaluace (například otázky na použití diagnostického testu nebo sledování pacienta s určitým onemocněním), definice a epidemiologické a socioekonomické otázky (například otázky týkající se statistiky a veřejného zdraví nebo týkající se rasy či etnicity).

Analýza podskupin odhalila významný rozdíl mezi výkonností modelů v různých kategoriích otázek. ChatGPT-4 si vedl nejlépe, přičemž vykazoval nejvyšší podíl správných odpovědí v otázkách týkajících se léčebných a chirurgických postupů (83,1 %; p = 0,012) a komplikací/nežádoucích příhod (91,7 %; p = 0,022). Bing si v těchto dvou kategoriích vedl nejhůře (63,3 a 62,5 %).

Typy otázek

Otázky byly kategorizovány na základě typů jako inkluzivní (identifikace správné odpovědi z více možností), exkluzivní (identifikace nesprávné odpovědi z více možností) a pravdivé/nepravdivé. Mezi jednotlivými LLM se projevily významné rozdíly. Nejlépe si vedl ChatGPT-4, který vykazoval vynikající výkon v inkluzivních otázkách (83 % správných odpovědí; p = 0,002). Nejnižší podíl správných odpovědí (65 % a 2 nezodpovězené otázky) naopak vykazoval Bing. Bard sice správně odpověděl v 76 % případů, na 6 otázek však nedokázal odpovědět vůbec.

Slibný začátek

Celkově se ukázalo, že velké jazykové modely, zejména ChatGPT-4, projevily slibnou přesnost při zodpovězení klinických otázek souvisejících s bariatrickou chirurgií. Pro potenciální aplikaci LLMs ve výcviku a vzdělávání je ovšem nutný neustálý pokrok a výzkum AI.

(lexi)

Zdroj: Lee Y., Tessier L., Brar K. et al. Performance of artificial intelligence in bariatric surgery: comparative analysis of ChatGPT-4, Bing, and Bard in the American Society for Metabolic and Bariatric Surgery textbook of bariatric surgery questions. Surg Obes Relat Dis. 2024; S1550-7289(24)00169-2, doi: 10.1016/j.soard.2024.04.014.

Líbil se Vám článek? Rádi byste se k němu vyjádřili? Napište nám − Vaše názory a postřehy nás zajímají. Zveřejňovat je nebudeme, ale rádi Vám na ně odpovíme.

Kongresy

Odborné události ze světa medicíny

11. 4.

Zkoušku z bariatrické chirurgie nejlépe složil ChatGPT-4. Za ním zůstaly Bing a Bard

Šprtání z učebnice

Odpovědi založené na výchozím nastavení

Výsledky

Přesnost odpovědí

Témata otázek

Typy otázek

Slibný začátek

14. NEUROKAZUISTICKÝ SJEZD

Páteřní semináře: Neonatologie

Školení primářů neurologie I 2025