Jazykové modely mění svět akademických publikací. Je to dobře?

Large language models are changing landscape of academic publications. A positive transformation?

The advent of large language models (LLMs) based on neural networks marks a significant shift in academic writing, particularly in medical sciences. These models, including OpenAI's GPT-4, Google's Bard, and Anthropic’s Claude, enable more efficient text processing through transformer architecture and attention mechanisms. LLMs can generate coherent texts that are indistinguishable from human-written content. In medicine, they can contribute to the automation of literature reviews, data extraction, and hypothesis formulation. However, ethical concerns arise regarding the quality and integrity of scientific publications and the risk of generating misleading content.

This article provides an overview of how LLMs are changing medical writing, the ethical dilemmas they bring, and the possibilities for detecting AI-generated text. It concludes with a focus on the potential future of LLMs in academic publishing and their impact on the medical community.

Keywords:

large language models (LLMs), neural networks, academic writing, artificial intelligence, transformer architecture, scientific research automation, publishing ethics, detection of AI-generated text

Autoři: Martin Májovský; Martin Černý; David Netuka
Působiště autorů: Neurochirurgická a neuroonkologická klinika 1. LF UK a ÚVN Praha
Vyšlo v časopise: Čas. Lék. čes. 2023; 162: 294-297
Kategorie: Přehledový článek

Souhrn

Příchod velkých jazykových modelů (LLMs) založených na neuronových sítích představuje zásadní změnu v akademickém psaní, zejména v lékařských vědách. Tyto modely, např. GPT-4 od OpenAI, Google’s Bard či Claude od Anthropic, umožňují efektivnější zpracování textu díky architektuře transformátorů a mechanismu pozornosti. LLMs jsou schopny generovat koherentní texty, které se těžko rozeznávají od lidských. V medicíně mohou přispět k automatizaci rešerší, extrakci dat a formulaci hypotéz. Současně však vyvstávají etické otázky týkající se kvality a integrity vědeckých publikací a rizika generování zavádějícího obsahu.

Článek poskytuje přehled o tom, jak LLMs mění psaní odborných textů, etická dilemata a možnosti detekce generovaného textu. Závěrem se zaměřuje na potenciální budoucnost LLMs v akademickém publikování a jejich dopad na lékařskou komunitu.

Klíčová slova:

velké jazykové modely (LLMs), neuronové sítě, akademické psaní, umělá inteligence, transformátorová architektura, automatizace vědeckého výzkumu, etika publikování, detekce textu generovaného AI

ÚVOD

Příchod velkých jazykových modelů (LLMs – large language models) založených na neuronových sítích mění způsob, jakým se píší odborné články. LLMs jako GPT-4 od OpenAI, Bard od Google či Claude od Anthropic a jejich různé deriváty jsou technologickými průkopníky v oblasti zpracování přirozeného jazyka (NLP). Tyto modely jsou postaveny na architektuře transformátorů, což je typ neuronové sítě specializovaný na zpracování sekvencí dat, jako je text. Transformátory se liší od svých předchůdců – rekurentních neuronových sítí (RNN) – tím, že umožňují paralelní zpracování sekvencí a využívají tzv. mechanismus pozornosti (attention mechanism). Tento mechanismus modelu umožňuje efektivněji se vypořádávat se sémanticky souvisejícími, ale v textu vzdálenými informacemi.

LLMs jsou trénovány na základě obrovského množství textů, což může zahrnovat knihy, články, webové stránky a další podoby psaného obsahu. Trénování modelu probíhá technikou nazývanou unsupervised learning, při kterém se model snaží předpovědět nejpravděpodobnější další slovo ve větě na základě kontextu poskytnutého předchozími slovy. Tento proces se opakuje miliardkrát, nebo dokonce triliónkrát, čímž model získává schopnost generovat text, který je koherentní a často nerozeznatelný od textu vytvořeného člověkem.

V lékařských vědách mohou LLMs přispět k automatizaci a zdokonalení procesů, jako je rešerše literatury, extrakce dat, syntéza studií a dokonce formulace hypotéz, což výzkumníkům umožňuje věnovat více času kritické analýze a interpretaci výsledků. Současně se však objevují otázky týkající se vlivu těchto modelů na kvalitu a integritu vědeckých publikací, jejich schopnosti objektivní interpretace odborných textů a rizik spojených s potenciálním zneužitím v podobě generování zavádějícího nebo neetického obsahu.

Rozprava o LLMs v kontextu medicínské literatury je tedy nejen aktuální, ale i nezbytná. V tomto sdělení si klademe za cíl poskytnout komplexní přehled o tom, jak LLMs mění krajinu lékařského psaní, jaká etická dilemata s sebou přinášejí a zda a jak lze rozpoznat text generovaný těmito modely. Závěrem se budeme věnovat možné budoucnosti LLMs ve vědeckém publikování a jejich dopadu na lékařskou komunitu.

PŘÍNOS

Potenciál využití LLMs v akademické sféře je ohromný. Jedním z mnoha přínosů LLMs je jejich schopnost generovat návrhy názvů pro akademické články. Mohou navrhnout názvy, které jsou nejen přitažlivé a informativní, ale také optimalizované pro vyhledávací algoritmy, což zvyšuje viditelnost článků v akademických databázích.

Dále LLMs mohou pomoci vytvářet abstrakty, které jasně a stručně shrnují výzkum a jeho výsledky. Tyto modely mohou analyzovat rozsáhlý text a identifikovat jeho nejdůležitější aspekty, čímž značně urychlují proces psaní a zajišťují, že abstrakty jsou reprezentativní pro celý článek.

V generování samotného obsahu medicínských článků mají LLMs své místo především v přípravných fázích tvorby. Mohou poskytnout první návrhy sekcí, které mohou sloužit jako kostra pro další rozvoj a doplnění odbornými informacemi. Nicméně je nutné mít na paměti, že i při správně zvolených instrukcích (prompts) může být výsledek obecný a vyžaduje důkladnou revizi a úpravu odborníkem v dané oblasti.

Někdy lze LLMs naopak využít pro dokončení již existujícího textu a jeho vylepšování. Pokud autoři disponují základní strukturou či kostrou článku obsahující hlavní myšlenky a argumenty, LLMs mohou pomoci s jejich rozšířením a zdokonalením. Tyto modely jsou schopné upravit a zpřesnit jazyk tak, aby odpovídal specifickým požadavkům akademického psaní. Nejen že dokáží identifikovat a opravit gramatické chyby, ale také mohou zlepšit styl psaní a zvýšit celkovou plynulost textu. Tyto modely mohou analyzovat a porovnat strukturu vět a odstavců s obecně přijímanými standardy v medicínském psaní, což může vést k vyšší srozumitelnosti a lépe strukturovanému článku.

LLMs dokážou rovněž rozvíjet a prohlubovat myšlenky, poskytovat dodatečné kontextové informace a pomáhat s formulací komplexních argumentů, což je zvláště užitečné ve fázích, kdy autor potřebuje přeformulovat nebo rozšířit stávající obsah.

Dalším přínosem je pomoc s literární rešerší. LLMs mohou procházet a syntetizovat klíčové informace z velkého množství zdrojů, což usnadňuje identifikaci relevantních prací a urychluje proces shromažďování dat.

ETICKÉ OTÁZKY

Spoluautorství textu vytvořeného AI

Často se objevuje otázka, zda použití LLM při tvorbě odborného textu nepředstavuje tak významný zásah, že by jazykový model měl být uveden jako spoluautor. Použití LLMs při psaní odborných textů je nepochybně formou asistence, avšak máme za to, že umělá inteligence nemůže být považována za spoluautora ve smyslu, jakým je tento termín tradičně chápán. Spoluautorství obecně vyžaduje schopnost přispět intelektuálním vkladem, což zahrnuje nejen tvorbu obsahu, ale také schopnost provádět nezávislé myšlenkové úvahy a etické rozhodování, což jsou atributy, které LLMs zatím postrádají. V neposlední řadě je na spoluautory článku kladena odpovědnost za publikovanou práci, což LLMs rovněž postrádají. Například největší nakladatelství odborné literatury Springer-Nature ve svém prohlášení vyloučilo možnost uvést LLM za spoluautora, ale vyžaduje na konci textu poznámku, že byl jazykový model použit (1, 2).

Smyšlené (podvodné) články

Schopnost LLMs vytvářet texty, jež jsou na první pohled nerozeznatelné od těch, které napsal člověk, přináší nové výzvy pro integritu akademického publikování. V našich předchozích publikacích jsme ukázali, že již GPT-3.5 byl schopen vytvořit velmi přesvědčivý falzifikát odborného článku, a to jak v angličtině (3), tak stejně dobře i v češtině (4). Skutečnost, že jazykové modely mohou generovat články s vysokou úrovní koherence i detailů, může ztěžovat proces peer review, kde mohou mít recenzenti potíže s odlišením autentického lidského textu od textu generovaného AI (5, 6).

Je důležité si uvědomit, že to nebyl až příchod LLMs, co umožnilo vědcům podvádět; vědecký podvod existoval dlouho před jejich vznikem (7). Dostupnost LLMs a jejich schopnost generovat přirozený jazyk pouze podvod usnadňují.

Jedná se o složitý problém, který nemá jednoduché řešení. Máme za to, že absolutní zákaz používání LLMs není řešením; spíše se příjemci odborných textů (vydavatelství, univerzity) budou muset této situaci přizpůsobit řadou kroků. Navrhujeme následující opatření, která by mohla pomoci snížit počet podvodných článků generovaných AI (8):

Zveřejňování zdrojových datových sad: Autoři by měli spolu s článkem předložit anonymizované datové sady se všemi informacemi o subjektech jako doplňkový materiál. Toto opatření může odradit od předkládání zcela podvodných článků.
Přísný proces recenzí: Seriózní nakladatelé by měli klást důraz na kvalitní proces recenzí výběrem a vzděláváním svých recenzentů. Mohl by být zaveden systém odměn pro recenzenty, který by zvýšil motivaci potenciálních recenzentů. Kromě systému odměn by mohl být zaveden také systém hodnocení recenzentů založený na kvalitě recenzních zpráv.
Přísná etická pravidla na úrovni nakladatelů: Do dotazníku k etice publikování by měly být zahrnuty otázky týkající se používání LLM.
Přísná etická pravidla na úrovni akademických institucí: Výzkumníci by měli být na úrovni svých institucí (např. univerzit) maximálně motivováni k publikování vysoce kvalitního, originálního výzkumu v uznávaných časopisech.
Sankce pro výzkumníky, kteří se dopustí etického pochybení: Výzkumníci, kteří jsou usvědčeni z etického podvodu, by měli být potrestáni. To by mohlo být provedeno formou dočasného či trvalého zákazu publikování u určitých nakladatelů, omezením indexace atd.

DETEKCE GENEROVANÉHO TEXTU

Z předchozí části vyplývá, že redakce časopisů a vědecké knihovny univerzit jsou vystaveny problému jak detekovat generovaný text.

Mnoho společností tvrdí, že dokáže spolehlivě identifikovat text generovaný AI pomocí svých nástrojů. Například jeden z nejpopulárnějších a nejpoužívanějších softwarů pro kontrolu plagiátorství Turnitin tvrdí, že jeho přesnost v detekci textu generovaného AI dosahuje 98 %. Někteří výzkumníci představili vlastní nástroje s pozoruhodně slibnými výsledky dosahujícími až 99 % přesnosti (9). Je však třeba poznamenat, že vědecké důkazy pro tato tvrzení o vysoké přesnosti nástrojů pro detekci rovněž chybějí.

Weberová-Wulffová et al. rigorózně zkoumali výkonnost 14 nejmodernějších nástrojů pro detekci textu generovaného AI a zjistili, že tyto nástroje často vykazují falešné pozitivní i falešné negativní výsledky a jsou zaujaté směrem ke klasifikaci výstupu jako člověkem psaného spíše než k detekci textu generovaného AI (10). Autoři dospěli k závěru, že tyto nástroje nejsou vhodné k získání důkazu o akademickém podvodu.

Věříme, že existují zásadní překážky pro vytvoření spolehlivého detektoru textu generovaného AI. Naše argumenty jsou shrnuty v následujících bodech:

V krátkých větách je detekce textu generovaného AI nespolehlivá. Když model vytvoří větu, která se podobá typickému internetovému diskurzu, prakticky neexistuje žádný rozdíl mezi lidským a počítačově generovaným výstupem.
U delších textů může detekce textu generovaného AI dosáhnout pouze určitého stupně přesnosti. Například pokud model v krajním případě zkopíruje stránku Wikipedie slovo od slova, rozdíl mezi počítačově a lidsky generovaným obsahem zůstává nulový.
Možnost identifikace textu pravděpodobně generovaného AI lidskými posuzovateli může být proveditelná. Posuzovatelé mohou zaznamenat logické nesrovnalosti v textu vyplývající z omezení zobecňování podkladového matematického modelu. Avšak stále existuje možnost, že text napsal člověk, který dělá podobné chyby.
Snaha o algoritmickou detekci textu generovaného AI (pouze na základě statistiky) je primárním cílem současného úsilí, ale toto úsilí vykazuje zásadní chybu: Pokud je možné vytvořit generativní jazykový model (G) a společně s ním diskriminátorový model (D), který dokáže určit, zda text pochází od člověka, nebo od generátoru, pak lze D okamžitě použít ke zlepšení kvality výstupu G, čímž se D stane neúčinným.
Dále, jak se D učí rozpoznat vzorce v textech generovaných AI, bylo by možné vyvinout třetí model, který by analyzoval, které vzorce by vedly ke klasifikaci textu jako generovaného AI. Takový model by mohl uživatele upozornit, že musí text upravit ručně. Můžeme si také představit situaci, kdy G vygeneruje více verzí stejného textu a třetí model vybere verzi s nejnižší pravděpodobností, že bude klasifikována jako „generovaná“.

Tyto argumenty naznačují, že vytvoření spolehlivého detektoru textu generovaného AI je velice obtížné, ne-li nemožné.

BUDOUCNOST

Vývoj LLMs je natolik rychlý, že se brzy stanou integrálními nástroji v různých fázích tvorby akademických textů, od počátečního výzkumu až po finální publikaci.

Jedním z očekávaných trendů je vznik doménově specifických LLMs, jež budou trénovány na úzkém výběru odborných textů, aby poskytovaly více relevantních a přesných informací v konkrétních oblastech medicíny (11). Tyto nástroje by mohly zahrnovat funkcionality pro dynamické generování hypotéz, navrhování experimentálních designů, a dokonce simulaci výsledků.

Dále čekáváme vznik nástrojů pro interaktivní psaní, kdy LLMs budou fungovat jako spolupracující asistenti poskytující okamžité návrhy a opravy v reálném čase během psaní článku. Díky přístupu do databází článků mohou tyto nástroje nalézt relevantní publikace a vytvořit diskusi k připravovanému článku s ohledem na vlastní výsledky.

Potenciál jazykových modelů přesahuje samotnou oblast akademického psaní. LLMs mají například velký potenciál pro extrakci dat pacientů z elektronické zdravotnické dokumentace. V každodenní praxi je vytvářeno ohromné množství záznamů, většinou ve formě nestrukturovaného textu. V případě analýzy pacientských dat (např. příprava retrospektivní studie) je nutné je ručně procházet školeným zaměstnancem. Díky LLMs by tato činnost mohla být zautomatizována a extrakce dat významně zjednodušena.

Možnost využití vidíme i v samotné klinické praxi, kde LLMs mohou pomoci při tvorbě zdravotnické dokumentace. Představme si situaci, kdy nemocniční lékař píše příjmovou zprávu pacienta. Může zkopírovat některé starší zápisy, které již v nemocničním systému jsou, a v lepším případě je aktualizuje, případně opraví, zatímco v tom horším případě musí informace ze stávající dokumentace opisovat. Multimodální modely již dnes teoreticky umožňují vložit obrázek (v našem příkladu vyfocenou překladovou zprávu) a na jeho základě vytvořit text nové příjmové zprávy. Tento postup by patrně vyžadoval určitou korekci ze strany lékaře, ale určitě by práci výrazně zefektivnil.

ZÁVĚR

V kontextu akademického psaní a výzkumu představují LLMs doslova disruptivní technologii, která signalizuje novou éru v oblasti medicíny. Integrace těchto nástrojů do vědecké práce již nyní demonstruje jejich schopnost efektivně asistovat ve výzkumných procesech, zjednodušovat analýzu a interpretaci rozsáhlých datových souborů a zvyšovat přesnost akademických studií. Jako každá nová technologie přinášejí LLMs i potenciální rizika, o nichž je třeba diskutovat a přijmout eventuální opatření, aby se minimalizovala možnost jejich zneužití.

Poznámka

Při tvorbě tohoto textu byl využit ChatGPT ve verzi GPT-4.

Poděkování

Tato publikace byla podpořena z programu Cooperatio 1.LF a MO1012 a Donatio Universitatis Carolinae: „Právní podpora nových technologií a inovací v medicíně“.

Čestné prohlášení

Autoři práce prohlašují, že v souvislosti s tématem, vznikem a publikací tohoto článku nejsou ve střetu zájmů a vznik ani publikace článku nebyly podpořeny žádnou farmaceutickou firmou.

Adresa pro korespondenci:

pplk. MUDr. Martin Májovský, Ph.D., FEBNS
Neurochirurgická a neuroonkologická klinika 1. LF UK a ÚVN
U Vojenské nemocnice 1200, 162 00 Praha 6
Tel.: 973 202 963
e-mail: martin.majovsky@uvn.cz

Zdroje

Stokel-Walker C. ChatGPT listed as author on research papers: many scientists disapprove. Nature 2023; 613 (7945): 620–621.
Editorial. Tools such as ChatGPT threaten transparent science; here are our ground rules for their use. Nature 2023; 613: 612.
Májovský M, Černý M, Kasal M et al. Artificial intelligence can generate fraudulent but authentic-looking scientific medical articles: Pandora’s box has been opened. J Med Internet Res 2023; 25: e46924.
Májovský M, Černý M, Netuka D. Umělá inteligence při tvorbě odborného medicínského textu – dobrý sluha, ale zlý pán. Česká a slovenská neurologie a neurochirurgie 2023; 86 (3): 205–207.
Gao CA, Howard FM, Markov NS et al. Comparing scientific abstracts generated by ChatGPT to real abstracts with detectors and blinded human reviewers. NPJ Digit Med 2023; 6 (1): 75.
Dathathri S, Madotto A, Lan J et al. Plug and play language models: simple approach to controlled text generation. arXiv 2019: 1912.02164.
Else H, Van Noorden R. The fight against fake-paper factories that churn out sham science. Nature 2021; 591 (7851): 516–519.
Májovský M, Mikolov T, Netuka D. AI is changing the landscape of academic writing: what can be done? Authors’ reply to: AI increases the pressure to overhaul the scientific peer review process. Comment on "artificial intelligence can generate fraudulent but authentic-looking scientific medical articles: Pandora's box has been opened". J Med Internet Res 2023; 25: e50844.
Desaire H, Chua AE, Isom M et al. Distinguishing academic science writing from humans or ChatGPT with over 99% accuracy using off-the-shelf machine learning tools. Cell Rep Phys Sci 2023; 4 (6): 101426.
Weber-Wulff D, Anohina-Naumeca A, Bjelobaba S et al. Testing of detection tools for AI-generated text. arXiv 2023: 2306.15666.
Pal S, Bhattacharya M, Lee SS, Chakraborty C. A domain-specific next-generation large language model (LLM) or ChatGPT is required for biomedical engineering and research. Ann Biomed Eng 2024 Mar; 52 (3): 451–454.

Štítky

Adiktologie Alergologie a imunologie Angiologie Audiologie a foniatrie Biochemie Dermatologie Dětská gastroenterologie Dětská chirurgie Dětská kardiologie Dětská neurologie Dětská otorinolaryngologie Dětská psychiatrie Dětská revmatologie Diabetologie Farmacie Chirurgie cévní Algeziologie Dentální hygienistka

Článek Úvodem

Článek Umělá inteligence v medicíně a zdravotnictví: Příležitost a/nebo hrozba?

Článek Využití umělé inteligence v zobrazovacích metodách

Článek Role umělé inteligence v časném záchytu ložiskových změn plicního parenchymu při rtg vyšetření hrudníku: zkušenosti z retrospektivních studií na české populaci

Článek Umělá inteligence ve screeningu diabetické retinopatie: od nápadu po zdravotnický prostředek v klinické praxi

Článek Aktuální pohled na změny v reprodukčním chování v Česku

Článek Trendy plodnosti a potratovosti v Česku

Článek Změny v antikoncepčním chování populace v Česku

Článek Reprodukční plány žen v Česku v kontextu pozdního reprodukčního režimu a pandemie COVID-19

Článek Problémy s neplodností v kontextu reprodukčního stárnutí

Článek Věk nástupu menopauzy v závislosti na věku prvního porodu

Článek Otazníky kolem akutního klimakterického syndromu