Zkoušku z bariatrické chirurgie nejlépe složil ChatGPT-4. Za ním zůstaly Bing a Bard
Velké jazykové modely, jako jsou ChatGPT, Bing nebo Bard, se stávají součástí každodenního života mnohých z nás. Tomu, jak prospěšné a spolehlivé může být jejich využívání při studiu a přípravě na zkoušku, se věnovala nedávná kanadsko-americká studie.
Šprtání z učebnice
Učebnice Americké společnosti pro metabolickou a bariatrickou chirurgii (ASMBS) představuje komplexní zdroj znalostí bariatrické chirurgie, který zahrnuje i nejnovější poznatky a klinické otázky. Studie publikovaná v časopisu Surgery for Obesity and Related Diseases zkoumala schopnost velkých jazykových modelů (LLMs – large language models) správně odpovědět na otázky obsažené v této knize. Cílem studie bylo zjistit kvalitu a porovnat schopnosti různých LLMs reagovat na učebnicové otázky týkající se bariatrické chirurgie.
Odpovědi založené na výchozím nastavení
Do 3 modelů (ChatGPT společnosti OpenAI, Bing společnosti Microsoft, Bard společnosti Google) byly v jednom týdnu na konci května 2023 zadány stejné prompty: 200 testových otázek s výběrem možných odpovědí převzatých z druhého vydání zmíněné učebnice. Modely LLM nebyly nijak trénované na obsah učebnice, a tak jejich schopnost generovat odpovědi byla založená čistě na jejich výchozím nastavení. K dispozici měly jak samotné otázky, tak možnosti odpovědí, včetně těch správných. Pro každou otázku byla vytvořena nová chatová konverzace, zahájená pokynem: „Odpověz na tuto otázku s výběrem z více možností:”
Pokud jazykové modely neposkytly jednu z uvedených možností jako odpověď, byly maximálně 3× vyzvány k výběru jedné odpovědi. Vygenerované odpovědi byly porovnány se správnými odpověďmi uvedenými v učebnici a hodnoceny na základě celkové přesnosti, počtu správných odpovědí podle tématu a počtu správných odpovědí podle typu otázky.
Výsledky
Přesnost odpovědí
Z hlediska přesnosti odpovědí byly mezi jednotlivými modely celkově významné rozdíly. Nejlépe si vedl ChatGPT-4 s přesností 83 % (166 správných odpovědí) následovaný Bardem (76 %) a Bingem (66 %). Na rozdíl od ostatních ChatGPT-4 nenechal žádnou otázku bez odpovědi. V případě, kdy si napoprvé nevěděl s otázkou rady, dokázal vybrat odpověď po následné výzvě (celkem 5 odpovědí však v tomto případě bylo náhodně vybraných).
Tab. Přesnost poskytnutých odpovědí různými LLMs
AI model |
správně n (%) |
p |
nesprávně n (%) |
p |
náhodný výběr n (%) |
bez odpovědi n (%) |
ChatGPT-4 |
166 (83 %) |
< 0,001 |
34 (17 %) |
< 0,001 |
5 (2,5 %) |
0 |
Bard |
152 (76 %) |
48 (24 %) |
0 |
5 (2,5 %) |
||
Bing |
131 (65,5 %) |
69 (34,5 %) |
0 |
1 (0,5 %) |
Témata otázek
U jednotlivých podskupin otázek byla provedena samostatná analýza. Tyto podskupiny zahrnují kazuistiky (například otázky týkající se dalšího postupu na základě popisu případu a stavu pacienta), studie/pokyny (například otázky týkající se pokynů organizací nebo vlády, významné studie týkající se bariatrické chirurgie, otázky týkající se předpisů a programů), léčebné a chirurgické postupy (například otázky týkající se výsledků různých léčebných postupů či specifických chirurgických technik), komplikace a nežádoucí příhody, biochemie a farmakologie (například otázky týkající se hormonů, biochemických pochodů a léčiv), diagnostiky a evaluace (například otázky na použití diagnostického testu nebo sledování pacienta s určitým onemocněním), definice a epidemiologické a socioekonomické otázky (například otázky týkající se statistiky a veřejného zdraví nebo týkající se rasy či etnicity).
Analýza podskupin odhalila významný rozdíl mezi výkonností modelů v různých kategoriích otázek. ChatGPT-4 si vedl nejlépe, přičemž vykazoval nejvyšší podíl správných odpovědí v otázkách týkajících se léčebných a chirurgických postupů (83,1 %; p = 0,012) a komplikací/nežádoucích příhod (91,7 %; p = 0,022). Bing si v těchto dvou kategoriích vedl nejhůře (63,3 a 62,5 %).
Typy otázek
Otázky byly kategorizovány na základě typů jako inkluzivní (identifikace správné odpovědi z více možností), exkluzivní (identifikace nesprávné odpovědi z více možností) a pravdivé/nepravdivé. Mezi jednotlivými LLM se projevily významné rozdíly. Nejlépe si vedl ChatGPT-4, který vykazoval vynikající výkon v inkluzivních otázkách (83 % správných odpovědí; p = 0,002). Nejnižší podíl správných odpovědí (65 % a 2 nezodpovězené otázky) naopak vykazoval Bing. Bard sice správně odpověděl v 76 % případů, na 6 otázek však nedokázal odpovědět vůbec.
Slibný začátek
Celkově se ukázalo, že velké jazykové modely, zejména ChatGPT-4, projevily slibnou přesnost při zodpovězení klinických otázek souvisejících s bariatrickou chirurgií. Pro potenciální aplikaci LLMs ve výcviku a vzdělávání je ovšem nutný neustálý pokrok a výzkum AI.
(lexi)
Zdroj: Lee Y., Tessier L., Brar K. et al. Performance of artificial intelligence in bariatric surgery: comparative analysis of ChatGPT-4, Bing, and Bard in the American Society for Metabolic and Bariatric Surgery textbook of bariatric surgery questions. Surg Obes Relat Dis. 2024; S1550-7289(24)00169-2, doi: 10.1016/j.soard.2024.04.014.
Líbil se Vám článek? Rádi byste se k němu vyjádřili? Napište nám − Vaše názory a postřehy nás zajímají. Zveřejňovat je nebudeme, ale rádi Vám na ně odpovíme.
Odborné události ze světa medicíny
Všechny kongresy
Nejčtenější tento týden
- S diagnostikou Parkinsonovy nemoci může nově pomoci AI nástroj pro hodnocení mrkacího reflexu
- Proč při poslechu některé muziky prostě musíme tančit?
- Chůze do schodů pomáhá prodloužit život a vyhnout se srdečním chorobám
- Metamizol jako analgetikum první volby: kdy, pro koho, jak a proč?
- Není statin jako statin aneb praktický přehled rozdílů jednotlivých molekul