Statistika v klinické a experimentální medicíně
:
Jozef Rosina 1,2; Jiří Horák 3; Miluše Hendrichová 3; Karolína Krátká 3; Antonín Vrána 4; Jozef Živčák 5
:
Univerzita Karlova v Praze, 3. lékařská fakulta, Ústav lékařské biofyziky a lékařské informatiky, Česká republika
1; České vysoké učení technické v Praze, Fakulta biomedicínského inženýrství v Kladně, Česká republika
2; Univerzita Karlova v Praze, 3. lékařská fakulta, I. interní klinika FNKV, Česká republika
3; Univerzita Karlova v Praze, 2. lékařská fakulta, Česká republika
4; Technická univerzita v Košiciach, Strojnícka fakulta, Katedra biomedicínského inžinierstva a merania, Slovenská republika
5
:
Čas. Lék. čes. 2012; 151: 383-388
:
Review Articles
V práci je uveden krátký přehled statistických metod používaných v klinické a experimentální medicíně, a to od základních ukazatelů a parametrů popisné statistiky, přes testování hypotéz (parametrické i neparametrické metody), až po popis nejčastěji používané mnohorozměrné metody v lékařských vědeckých publikacích, po logistickou regresi. Je také představena analýza hlavních komponent, která je jednou z metod používaných ke snížení dimenze úlohy čili k redukci počtu vstupních nezávislých proměnných. Správné použití statistických metod je demonstrováno na konkrétních klinických případech a výsledcích.
Klíčová slova:
průměr, medián, t-test, Mannův-Whitneyův U-test, ANOVA, Kruskal-Wallisova ANOVA, Pearsonův χ2-test, logistické regrese, analýza hlavních komponent.
ÚVOD
Statistická analýza medicínských dat je v současnosti především vědou modelovací, vědou hledající příčiny, souvislosti, vědou hodnotící rizikové faktory vzniku a vývoje nemocí apod. Od dob, kdy se statistika poprvé podílela na výzkumu v oblasti medicíny nebo kdy poprvé prokázala klinické medicíně službu, se stala nástrojem, bez kterého moderní klinický vědec nemůže často své výsledky a závěry, svá tvrzení správně interpretovat.
Při přípravě statistického zpracování získáváme data (měřením, pozorováním), která jsou nepřehledná, velkoobjemová, nebo naopak je jich málo a v mnoha případech jsou neúplná. Tato nepřehledná čísla, ze kterých obyčejně nevyčteme žádné souvislosti a zákonitosti, až statistická analýza přemění na soubor tabulek, grafů a obrázků, o kterých lze diskutovat, na základě kterých lze vytvářet hypotézy a o které se již můžeme podělit se svými kolegy i pacienty.
Experimentální činnost i práce klinického lékaře – vědce je z pohledu statistiky velmi náročná. Než lékař (nebo také experimentální vědec) uvidí výsledky své práce, musí někdy čekat i celé roky. Je nutné plánovat experimenty, trávit dlouhé hodiny v laboratoři. Lékař musí vyšetřit mnoho pacientů i zdravých jedinců, aby získal data pro porovnání mezi oběma skupinami, pro potvrzení svých předpokladů atd. Uvědomění si tohoto úsilí a námahy učí analytiky dat – statistiky úctě ke každému číslu, které jim lékař předloží.
Dnes již umíme nadefinovat lékařské informační systémy tak, aby databáze byly ideální a obsahovaly úplná data, přesto se setkáváme s daty neúplnými – děravými, a to nejen při retrospektivních studiích, ale velmi často i u pečlivě naplánovaných prospektivních studií, kdy právě až statistické zpracování dat odhalí nové možnosti, vnukne lékařům nové hypotézy, které bude nutné testovat, postaví je před řadu nových problémů. Dobrý statistik by měl umět zvolit takové statistické metody, které dokážou získat relevantní informace i z neúplných dat, měl by ale také umět nadefinovat další požadavky pro to, abychom našli odpovědi na nově vzniklé otázky.
Všechny tyto skutečnosti ukazují na potřebu úzké spolupráce mezi lékaři a statistiky, a to nejenom až při samotném zpracování dat, ale již na počátku při plánování studie. Při tom je nutné, aby statistik chápal podstatu problému i z medicínského hlediska. Může potom lékaře lépe vést při přípravě požadavků na sběr dat při tvorbě nových studií, ale také při zpracování dat po ukončení studie je pro něj jednodušší přesné a korektní výsledky správně interpretovat.
Existence mnoha kvalitních profesionálních statistických programů umožňuje zpracování dat kýmkoliv v podstatě bez znalostí statistické metodologie. To s sebou přináší nebezpečí výběru a použití nesprávné metody zpracování dat a z toho plynoucích nesprávných závěrů. Proto ve svém článku představíme na konkrétních příkladech postupně několik statistických metod – od těch základních a jednodušších až po ty složitější – přičemž se zaměříme především na výběr správné statistické metody pro danou medicínskou problematiku a na interpretaci výsledků.
ANALÝZA DAT
Statistiku dělíme do dvou základních částí, a to na popisnou (deskriptivní) statistiku a na statistiku induktivní, která umožňuje z pozorovaných dat vytvářet zobecňující závěry (predikce) pro jednotlivé další případy – pacienty, a to s udáním stupně spolehlivosti. Induktivní statistika je objektivní, je založená na poznatcích teorie pravděpodobnosti a má magické kouzlo matematické přesnosti (1).
Nejjednoduššími výstupy statistické analýzy jsou popisné statistiky (aritmetické průměry, směrodatné odchylky, mediány, četnosti a procenta), těmi složitějšími jsou metody, které již patří do induktivní statistiky. Jsou to metody testování hypotéz (t-testy, U-testy, parametrická i neparametrická analýza rozptylu), různé parametry měřící sílu závislosti sledovaných veličin (Pearsonovy a Spearmanovy korelační koeficienty) až po ty nejsložitější modely funkční závislosti vhodné například pro další predikci (regresní modely, logistická regrese, diskriminační analýza).
Popisné statistiky
Pokud popisujeme to, co jsme pozorovali nebo to, co jsme zjistili ve sledovaném souboru, bez toho abychom výsledky nějakým způsobem zobecňovali, používáme metody popisné statistiky. Tyto metody používáme také téměř vždy před započetím jakékoliv statistické analýzy, abychom získali informace o struktuře vstupních dat, abychom zjistili, zda vstupní data splňují podmínky normálního rozložení, tj. zda na základě naměřených nebo pozorovaných hodnot můžeme přijmout předpoklad o Gaussově rozdělení v cílové populaci.
Toto zjištění potom sehrává důležitou úlohu při rozhodnutí, zda pro následující statistickou analýzu použít metodu parametrickou (v případě splnění podmínek normality) nebo neparametrickou (při nesplnění podmínky normality). Parametrické testy můžeme použít i při dalších rozděleních známého typu – jako je Poissonovo, binomické, multinomické, log-normální, exponenciální atd.
Mezi popisné statistické metody patří četnostní tabulky, absolutní a relativní četnosti, procenta, indexy, ukazatele polohy (aritmetický průměr, modus, medián a další) a ukazatele variability (směrodatná odchylka, rozptyl, rozpětí atd.) a také grafy, které slouží ke grafickému znázornění zjištěných výsledků. Jsou to například histogramy, bodové grafy, grafy rozpětí, grafy průměrů s odchylkami, grafy krabicové a mnoho jiných.
Do četnostních tabulek obyčejně vkládáme jak absolutní četnosti, tak také procentuální vyjádření, které patří k nejjednodušším a k nejoblíbenějším ukazatelům v publikovaných článcích z biomedicínského výzkumu vůbec (2–5). Četnostní tabulky nám slouží k jedné ze základních metod, kterou používáme pro hodnocení získaných výsledků, a to ke srovnávání. Srovnávat můžeme své výsledky s výsledky jiných autorů, se svými vlastními výsledky, které jsme získali v předchozích studiích za jiných podmínek, nebo také s nějakým způsobem stanovenou normou. V některých případech můžeme již na základě srovnání absolutních četností nebo procentuálního vyjádření činit správné závěry, přitom musíme mít však vždy na paměti, že pokud porovnáváme výsledky v procentech ze souborů různé velikosti, musíme již vždy použít některou z metod testování hypotéz. Vhodným nástrojem pro srovnání výsledků pozorování, a to jak pro absolutní četnosti, tak i pro procentuální vyjádření, je grafické zobrazení pomocí sloupcového grafu (6–9). Tento způsob interpretace výsledků je často daleko názornější, než pokud tyto výsledky prezentujeme pouze jako číselné hodnoty v tabulkách.
K základním výběrovým parametrům popisné statistiky patří aritmetický průměr (střední hodnota) se směrodatnou odchylkou, nebo medián, při uvedení kterého se nejčastěji uvádí buď rozpětí, tj. maximální a minimální hodnota, nebo 25% a 75% kvartil. Příklady uvedení těchto základních charakteristik běžně nacházíme v článcích z biomedicínského výzkumu. Jako příklad uvádíme studie (10–12). Úkolem statistika je rozhodnout, který z uvedených způsobů použít, kdy opět záleží na normalitě získaných vstupních dat. Aritmetický průměr dobře charakterizuje totiž pouze homogenní soubory. V opačném případě, kdy jsou soubory značně nehomogenní (obsahují například extrémní hodnoty, a to jak velmi velké nebo naopak velmi malé), udává aritmetický průměr velmi zkreslenou představu o sledované veličině, také navíc vůbec není obecnou pravdou, že polovina souboru je menších a polovina větších než střední hodnota. Tato skutečnost nás vede k nutnosti použit další statistické charakteristiky. Tou nejpovolanější je medián, který skutečně dělí vstupní data na dvě stejné poloviny, je necitlivý vůči extrémním hodnotám, a proto jej také nazýváme robustním odhadem střední hodnoty. Posledním významným parametrem deskriptivní statistiky, a to především u kvalitativních proměnných, je modus, hodnota nejčastěji se vyskytující ve výběru. Modus má význam například při hodnocení dotazníkových šetření, kdy nás zajímá, která odpověď na jednotlivé otázky byla nejčastější (7, 13).
Všechny výše uvedené parametry jsou bodovým odhadem, který má ze statistického hlediska malý význam, protože neříká nic o tom, kde skutečně leží hodnoty parametrů. Více informací poskytuje intervalový odhad, který určuje interval, v němž se bude se zadanou pravděpodobností 1 – α nacházet skutečná hodnota parametru. Neznámý parametr odhadujeme dvěma číselnými hodnotami LD a LH, které tvoří dolní a horní mez intervalu spolehlivosti (konfidenční intervalu) CI. Interval spolehlivosti pokryje neznámý odhadovaný parametr rozdělení základního souboru s předem zvolenou, dostatečně velkou pravděpodobností P = 1 – α, která se nazývá koeficient spolehlivosti nebo statistická jistota (obyčejně se volí 0,95 nebo 0,99). Parametr α se nazývá hladina významnosti. Koeficient spolehlivosti říká, že pravděpodobnost, s jakou se bude skutečná hodnota daného parametru nacházet v mezích LD, LH, je právě rovna 1 – α (14).
Testování hypotéz
Na počátku klinické studie (klinického výzkumu) vždy stojí hypotéza – tvrzení, týkající se určité cílové skupiny pacientů. Toto tvrzení se týká sledovaných veličin v cílové skupině:
- např. hodnot biochemických testů, které můžeme porovnat s hodnotami pozorovanými nebo naměřenými v jiné skupině, například může jít o porovnání mezi skupinami pacientů s různými diagnózami, nebo mezi pacienty a zdravými kontrolami;
- měřených hodnot diagnostických testů – porovnání jejich výsledků s cílem určit, zda jsou testy ekvivalentní (zaměnitelné), nebo zda je některá z diagnostických metod lepší;
- porovnání četností odpovědí při dotazníkovém šetření mezi různými skupinami respondentů atd.
Při testování hypotéz rozeznáváme hypotézu nulovou H0, kterou chceme nejčastěji svou studií popřít, vynulovat. Tato hypotéza obyčejně zní: „Neexistuje rozdíl ve sledované veličině mezi skupinami pacientů“, nebo „Pacienti i zdravé kontroly tvoří z pohledu sledované veličiny jednu populaci“, nebo „Oba diagnostické testy jsou ekvivalentní“ atd. Oproti této hypotéze stavíme hypotézu alternativní HA, kterou chceme svými výsledky potvrdit. Její znění může být následující: „Mezi skupinami pacientů existuje významný rozdíl ve sledované veličině“, nebo „Pacienti a zdravé kontroly patří z pohledu sledované veličiny do dvou různých populací“, nebo „Nový diagnostický test je lepší než dosavadní diagnostická metoda“ apod.
Výzkum má tedy danou hypotézu buď potvrdit, nebo zamítnout. Při tomto rozhodování se můžeme dopustit dvou chyb, a to chyby I. druhu (α), kdy zamítneme nulovou hypotézu v případě, kdy platí, a chyby II. druhu (ß), kdy přijmeme nulovou hypotézu, i když ve skutečnosti neplatí. Poté, co zformulujeme nulovou a alternativní hypotézu a nasbíráme data, spočteme pravděpodobnost, s jakou bychom mohli obdržet pozorovaná data nebo data stejně, či ještě více odporující nulové hypotéze, za předpokladu, že je nulová hypotéza pravdivá. Tato pravděpodobnost se nazývá dosažená hladina významnosti (α) a značí se p (p-value, p-level). Čím menší je p, tím neudržitelnější čili méně důvěryhodná je nulová hypotéza.
K tomu, abychom správně rozhodli o nulové a alternativní hypotéze a abychom se co nejvíce vyvarovali obou chyb (přičemž chybou, které se chceme vyvarovat především je chyba I. druhu), se používá řada statistických testů se svými testovacími kritérii. Těmi nejvíce používanými jsou parametrické testy a ukazatele: t-test, ANOVA (analýza rozptylu při jednoduchém třídění, z angl. analysis of variance), Pearsonův korelační koeficient a neparametrické testy a ukazatele: Mannův-Whitneyův U-test, Kruskalova-Wallisova ANOVA a Spearmanovy korelace. K neparametrickým metodám patří také analýza kontingenčních tabulek – testy homogenity a nezávislosti – Pearsonův χ2-test, nebo Fisherův exaktní test. Dále pak nastupují již metody složitější, v mnoha případech mnohonásobné a mnohorozměrné – regresní modely, diskriminační analýza, logistická regrese, analýza přežití a mnoho metod používaných pro snížení rozměru úlohy, tj. ke snížení počtu proměnných, jako například metoda hlavních komponent, faktorová analýza atd. Ve všech těchto metodách neustále testujeme hypotézy.
Je potřeba, aby statistik vybral vhodnou statistickou metodu, aby správně rozhodl, zda použít parametrický nebo neparametrický test, aby ale naopak také věděl, kdy lze použít parametrický test i v případě nesplnění podmínky normality, kdy použít test párový a kdy nepárový, kdy lze použít χ2-test i Mannův-Whitneyův U-test, aby uměl přesvědčit lékaře, že je nutné použít ANOVu, místo několikanásobného opakování t-testů atd. Je tedy zřejmé, že členem řešitelského kolektivu by měl být nejenom lékař, ale také statistik, a to především při použití složitých statistických metod. Jeho erudice a schopnost rozhodnout o použití optimální metody je zárukou, že získané výsledky budou správně posouzeny a také interpretovány.
Parametrický vs. neparametrický test
Základním předpokladem použití parametrických metod (t test, ANOVA, Pearsonovy korelace) vůči neparametrickým metodám (Mann-Whitneyův U-test, Kruskalova-Wallisova ANOVA, Spearmanovy korelace) je normalita rozdělení sledovaného znaku ve všech skupinách. Ke zjištění normality sledovaných dat se využívá mnoho metod – například Kolmogorovův-Smirnovův test, Lillieforsova verze Kolmogorovova-Smirnovova testu, Shapiro-Wilksův test atd. Výsledky těchto testů se však většinou v publikacích neuvádějí. Podmínku normality je potřebné splnit především u výběrů malých rozměrů, kdy N ≤ 15. V tomto případě je nutno striktně použít testy neparametrické. V případě, kdy máme velký soubor pacientů, tj., N je větší než 15, je naopak použití neparametrických testů nevhodné, a to vzhledem ke skutečnosti, že neparametrické testy nepracují se skutečnými naměřenými hodnotami, ale pouze s pořadovými hodnotami, nebo se znaménky apod., čímž dochází k velké ztrátě informace. Navíc v případě velkého rozsahu souboru lze extrémní data z následující analýzy vyloučit.
Mannův-Whitneyův U-test je vždy nutné použít, pokud jsou data diskrétní nebo ordinální. V posledním případě je nutné kvalitativním proměnným přiřadit číselné hodnoty – kódy.
Mannův-Whitneyův U-test vs. Pearsonův χ2-test
Nejčastěji používanou analytickou metodou sledovaných kvalitativních proměnných je analýza kontingenčních tabulek, kdy předpokládáme, že každý jedinec populace může být klasifikován podle dvou rozdílných faktorů (A a B, např. zvýšená nebo normální hodnota systolického a diastolického tlaku (A) u pacientů s různou diagnózou (B), u zdravých a nemocných (B), u vyléčených a zemřelých (B), u dvou skupin pacientů léčených dvěma různými metodami (B) atd.). Každý z faktorů přitom může mít obecně různý počet tříd (úrovní). Po vytvoření kontingenční tabulky (zařazení všech jednotlivců do příslušných tříd obou faktorů) zkoumáme vzájemný vztah obou faktorů A a B, a to v pojmech: 1. stochastické nezávislosti – zkoumáme, zda hodnoty faktoru A neovlivňují hodnoty faktoru B a naopak a 2. pomocí testování hypotézy homogenity – relativní četnosti prvků v dané subpopulaci (daná úrovní faktoru A i B) jsou stejné pro všechny subpopulace (pro všechny úrovně faktorů A a B) (15). Pro oba případy používáme Pearsonův nebo Fisherův χ2-test (v případě malého obsazení některého z políček kontingenční tabulky – lze použít pouze pro tabulku 2 × 2).
Správné použití Pearsonova χ2-testu vidíme například ve studii (16), cílem které bylo porovnat prevalenci mutace HFE genu u pacientů s porfyrií a u kontrolní skupiny pacientů. Výsledky Pearsonova χ2-testu ukázaly signifikantně vyšší výskyt mutace HFE genu u pacientů s porfyriÍ. V další studii (6) byl sledován výskyt léčebného efektu, ale také nežádoucích účinků (ztráta pigmentu, vznik jizvy v místě aplikace) při terapii hemangiomu čtyřmi různými typy laserů. Na základě porovnání se podařilo určit, který z laserů je tím nejvhodnějším pro terapii daného onemocnění. Ve studii (17) bylo hlavním cílem zjistit, zda má jednonukleotidový polymorfismus vliv na klinický obraz pacientů a zda zvyšuje riziko vzniku nežádoucích účinků po aortokoronárním bypassu. V další studii (18) byla porovnána mortalita u dvou skupin žen s karcinomem prsu, a to u žen, u kterých byl zjištěn karcinom prsu při screeningovém (preventivním) vyšetření, a u žen, které přišly s již zřetelným karcinomem prsu, a onemocnění bylo u nich již jen potvrzeno. Ve studii (19) byl použit Pearsonův χ2-test a Fisherův exaktní test k porovnání fenotypizace erytrocytů mezi zdravými kontrolami (dárci krve) a pacienty se srpkovou anémií. Ze všech výše uvedených klinických příkladů je zřejmé, že způsob analýzy použitím Pearsonova χ2-testu je vhodný především v případech, kdy sledovaná veličina má kvalitativní charakter – přítomnost genu (ano/ne), ztráta pigmentu (ano/ne), pacientka zemřela (ano/ne) atd., tj., kdy ke statistické analýze máme k dispozici pouze počty pacientů v jednotlivých kategoriích sledované veličiny.
Pro analýzu kvalitativních dat můžeme použít i Mannův-Whitneyův U-test, a to v případě, kdy jsou kvalitativní data výsledkem skórovacího systému, např. porovnání histopatologického gradingu u dvou různých onkologických diagnóz, výskyt a stupeň genitourinární a gastrointestinální toxicity a její porovnání mezi onkologickými pacienty, kteří byli ozářeni velkoobjemovou a maloobjemovou technikou (20). Pearsonův χ2 test (analýza metodou kontingenčních tabulek) by byl metodou první volby, my však můžeme skórovací grading převést na celočíselné hodnoty a použít Mann-Whitneyův U-test, který podle některých studií (21) má daleko větší senzitivitu, tj. schopnost rozlišit mezi skupinami pacientů, než Pearsonův χ2-test. Při použití Mann-Whitneyova testu v případě ordinálních dat a především převodu kvalitativních dat na číselné kódy však musíme být velmi opatrní. Měli bychom dbát na to, aby rozdíly mezi jednotlivými stupni skórovacího sytému (např. stupeň diferenciace nádoru, rozsah poškození, míra potíží apod.) byly aspoň přibližně stejné.
ANOVA vs. t-test (resp. Kruskalova-Wallisova ANOVA vs. Mannův-Whitneyův U-test)
Lékaři se často dopouštějí té chyby, že při porovnávání sledovaných veličin mezi třemi a více skupinami pacientů chtějí použít „zcela logicky“ opakovaný t-test anebo neparametrický U-test postupně mezi všemi dvojicemi skupin. Zde je na statistikovi, aby lékaři vysvětlil narůstající chybu I. druhu při použití opakovaného t-testu na tom samém souboru dat (vysvětlení tohoto nárůstu přesahuje rámec předkládaného článku). Správné použití neparametrické Kruskalovy-Wallisovy analýzy rozptylu a neparametrické korelační analýzy (Spearmanův korelační koeficient) vidíme ve studii (22). V této studii byla zkoumána genová exprese transportních molekul pro železo v duodenu a hepcidinu u pacientů s hereditární hemochromatózou (HCC) (léčení a neléčení pacienti) zahrnující různé genotypy (byly zkoumány genotypy představující riziko pro HCC) a u pacientů s anémií z nedostatku železa (IDA – iron deficiency anemia).
Správný postup analýzy rozptylu je přitom následovný: V prvním kroku provedeme analýzu rozptylu, a pokud je test statisticky významný, provedeme testy mnohonásobného porovnávání, tzv. post-hoc testy – LSD (least significance difference) nejmenší významná diference, Scheffeho, Bonferroniho test atd. V současnosti několik autorů (21, 23, 24) uvádí, že není zapotřebí provést samotnou analýzu rozptylu, ale je možné přistoupit přímo k testům mnohonásobného porovnávání (multiple comparison tests). Tímto způsobem můžeme snížit pravděpodobnost výskytu chyby II. druhu.
Parametrické vs. neparametrické korelace
V mnoha pracích je zkoumán vztah dvou veličin měřených na objektech (pacientech) vstupujících do studie. Zde opět podle toho, zda měřené veličiny jsou kvantitativní a normální, nebo naopak hodnoty jsou diskrétní, ordinální (kódované do číselné podoby), a tedy nesplňují podmínky normality, počítáme buď parametrický korelační koeficient – Pearsonův, nebo neparametrický – Spearmanův. Pearsonův korelační koeficient je mírou lineárního vztahu mezi sledovanými veličinami. Spearmanův korelační koeficient nám říká, že dvojice naměřených hodnot leží na nějaké vzestupné nebo klesající funkci. Oba korelační koeficienty vyjadřují pouze funkční závislost mezi sledovanými proměnnými, neříkají však nic o kauzalitě. Nalezený vztah mezi proměnnými může znamenat že: 1. skutečně existuje kauzální vztah mezi proměnnými; 2. existuje třetí proměnná, která má vliv na ovlivňující i vysvětlovanou proměnnou – zdánlivá asociace; 3. pozorovaný vztah vzniká pouze v důsledku koincidence – náhodné variace. Příklady korelační analýzy jsou opět uvedeny v mnoha studiích (25–30).
Mnohorozměrné metody
Nejkomplikovanějšími metodami jsou mnohorozměrné statistické postupy, kdy popisujeme změnu jedné nebo více proměnných v případě, kdy dojde ke změně jedné nebo více jiných proměnných. Nejčastěji však máme na jedné straně jednu výstupní, závislou proměnnou a na druhé straně mnoho vstupních nezávislých ovlivňujících proměnných, které mohou být navíc jakékoliv – spojité, diskrétní, kvalitativní atd. V tomto případě mluvíme o mnohonásobných statistických metodách.
Pokud je výstupní proměnná spojitá a nás zajímá, jak se tato proměnná mění vlivem vstupních proměnných, můžeme použít obecné lineární nebo nelineární modely, obecné regresní modely atd. Pro klasifikační účely, tj. pro nalezení vstupních proměnných, které se nějakým způsobem podílejí na klasifikaci pacientů, respondentů do dvou a více skupin, používáme v případě spojitých ovlivňujících faktorů splňujících navíc podmínku normality diskriminační analýzu. Alternativou k této metodě při nesplnění podmínky normality je logistická regrese, která je zároveň nejčastěji používanou mnohorozměrnou metodou v biomedicínském výzkumu.
Logistická regrese
Logistická regrese byla navržena v šedesátých letech minulého století jako alternativa k diskriminační analýze pro případ, že vysvětlovaná proměnná je binární, tj., může nabývat pouze dvou hodnot. V klinické medicíně může tato výstupní proměnná nabývat například hodnoty: pacient žije nebo zemřel, přítomnost nebo nepřítomnost nemoci, remise nebo relaps onemocnění atd. V současnosti, při existenci mnoha profesionálních statistických programů, může výstupní proměnná nabývat i více stavů. Podle jejího charakteru potom mluvíme vedle binární také o ordinální nebo nominální logistické regresi. Nezávislé ovlivňující proměnné mohou být libovolné – spojité, diskrétní, kategorické. Logistický model odhaluje, zda nezávislé proměnné rozlišují dostatečně dobře mezi jednotlivými třídami (nebo stavy), které definuje výstupní proměnná. V mnoha případech slouží k predikci určitého jevu (zda nastal nebo nikoliv), dokáže dokonce říci, která z daných proměnných je tou nejvíce ovlivňující.
K posouzení, zda je logistický model statisticky signifikantní, a také, zda jeho klasifikační a diskriminační schopnost je dostatečná, existuje řada testů, které po vytvoření logistického modelu musíme spočítat a správně interpretovat. Charakteristikami, které zkoumají statistickou významnost logistického modelu, jsou:
- 1. odchylka (deviance) –2LL (–2 log likelihood), která představuje míru těsnosti proložení dat logistickým regresním modelem. Pomocí odchylky můžeme porovnávat dva regresní modely stejně dobře jako pomocí jejich rozdílu, jenž představuje změnu těsnosti proložení od jednoho modelu ke druhému. Rozdíl v odchylce, který odpovídá věrohodnostním poměru, je definován následovně: Nejprve se určí hodnota této statistiky pro model, který obsahuje pouze absolutní člen, potom pro model, který obsahuje zvolenou skupinu vysvětlujících proměnných (regresních koeficientů). Tento rozdíl má asymptoticky χ2 rozdělení a testuje nulovou hypotézu H0: „Všechny regresní koeficienty jsou nulové“ proti alternativní HA: „Alespoň jeden regresní koeficient je různý od nuly“ – říká nám tedy, zda je vytvořený logistický model lepší než model obsahující pouze absolutní člen.
- 2. Waldovo kritérium, které testuje statistickou významnost každého koeficientu.
- 3. Hosmerův-Lemeshowův test dobré shody, který nám říká, zda námi vytvořený model dobře prokládá data, nebo nikoliv.
U logistické regrese se navíc může stát, že model je statisticky významný, avšak pro klasifikaci nemusí mít žádný praktický význam. K posouzení právě predikční a klasifikační schopnosti modelu slouží další nástroje: a) klasifikační tabulka, která porovnává modelem predikované a skutečně pozorované zařazení do tříd výstupní proměnné; b) plocha pod ROC (Receiver Operating Characteristic) křivkou – přesnou interpretaci velikosti této plochy nalezneme v (31, 32).
U všech modelů statistické analýzy, které slouží ke klasifikaci objektů, je důležité jejich ověření, tj. zjištění, zda vytvořený model skutečně zařazuje jednotlivé prvky (pacienty) do správných tříd. Model můžeme ověřit na těch samých datech, avšak daleko cennější je ověření na datech úplně jiných, nových, která nebyla použita při vytváření modelu. S tímto ověřením se však v medicínských publikacích téměř nesetkáváme.
Logistickou regresi nalezneme v mnoha publikacích (33). V práci (33) vidíme nejenom použití logistického modelu při rozlišení mezi benigní a maligní tkáni u kolorektálního karcinomu metodou autofluorescence (autofluorescenci definujeme jako schopnost různých tkání spontánně emitovat světlo o různých vlnových délkách – vždy v určitém spektru), ale také potvrzení diskriminační síly vytvořeného modelu na souboru histologických vzorků (tyto vzorky nebyly použity při tvorbě logistického modelu). Navíc v této studii vidíme také použití analýzy hlavních komponent (PCA – Principle Component Analysis) pro nalezení vlnových délek záření, které mají pro diagnózu rozhodující význam.
Analýza hlavních komponent (PCA)
V závěru svého článku představíme jednu z nejstarších a nejvíce používaných metod vícerozměrné analýzy, a to metodu hlavních komponent.
V analýze hlavních komponent nejsou znaky děleny na závislé a nezávisle proměnné jako v regresi. Hlavní princip metody spočívá v lineární transformaci původních znaků na nové nekorelované proměnné – hlavní komponenty. Základní charakteristikou každé hlavní komponenty je její míra variability, čili rozptyl. Protože jsou hlavní komponenty seřazeny podle důležitosti, tj. podle klesajícího rozptylu (od největšího k nejmenšímu), je nejvíce informace o variabilitě původních dat soustředěno do první hlavní komponenty, nejméně potom do poslední. Standardním použitím PCA je snížení dimenze úlohy při minimální ztrátě informace.
Využití analýzy hlavních komponent vidíme ve výše vzpomínané studii (33), kde autoři vybrali z 200 různých vlnových délek emitovaného autofluorescenčního spektra záření benigní a maligní tkáně 30, resp. 40 nejdůležitějších vlnových délek pro rozlišení mezi nemocnou a zdravou tkání. Tyto vlnové délky byly následně použity k vytvoření logistického regresního modelu.
ZÁVĚR
Ve své práci jsme se snažili představit čtenáři, zejména klinickému a experimentálnímu lékaři, některé statistické metody používané v biomedicínském výzkumu, v klinických studiích, se kterými se navíc nejčastěji setkáváme v publikovaných statích, a to od těch nejjednodušších až po složitější, vícerozměrné. Naším cílem bylo, aby se čtenář zorientoval v těchto statistických metodách, aby dokázal správně číst a analyzovat výsledky z lékařských publikací, ale aby se také sám uměl správně rozhodnout, kterou z nabízených metod statistické analýzy použít. Ve svém článku jsme ukázali rozdíl mezi parametrickými a neparametrickým metodami, vysvětlili jsme nutnost použít analýzu rozptylu (ANOVA) v případě, kdy porovnáváme sledovanou veličinu mezi více než dvěma skupinami pacientů, a také jsme představili nejčastěji používanou vícerozměrnou statistickou metodou lékařských publikací – logistickou regresí.
Zkratky
- ANOVA – analysis of variance (analýza rozptylu)
- CABG – coronary artery bypass graft (aortokoronární bypass)
- HCC – hereditary hemochormotosis (hereditární hemochromatóza)
- HFE – human hemochromatosis protein
- IDA – iron deficiency anemia (anémie z nedostatku železa)
- LSD – least significance difference (nejmenší významná diference)
- PCA – principal component analysis (analýza hlavních komponent)
- ROC – receiver operating characteristic (prahová operační charakteristika)
- SNP – single nucleotide polymorphism (jednonukleotidový polymorfizmus)
Adresa pro korespondenci:
doc. MUDr. Jozef Rosina, Ph.D.
Ústav lékařské biofyziky a lékařské informatiky 3. LF UK
Ruská 87, 100 00 Praha 10
e-mail: jozef.rosina@lf3.cuni.cz
Sources
1. Zvárová J. Biomedicínská statistika I. Praha: Karolinum 2011.
2. Majumdar A, Singh TA. Comparison of clinical features and health manifestations in lean vs. obese Indian women with polycystic ovarian syndrome. J Hum Reprod Sci 2009; 2(1): 12–17.
3. Vogl TJ, traub R, ichler K, oitaschek D, ack MG. Malignant liver tumors treated with MR imaging-guided aser-induced thermotherapy: experience with complications in 899 patients (2,520 lesions). Radiology 2002; 2): 367–377.
4. Remlová E, Vránová J, Rosina J, Navrátil L. nalysis of therapeutical effects of Er:YAG and CO aser post treatments of small hemangiomas. Laser Physics 2011; 21(9): 1665–1669.
5. Slavíčková R, Monhart V, Žabka J, Suchanová J, Ryba M, Peiskerová M, Trojánková M, Zahálková J, Sobotová D, Horáčková M, Ságová M, Jirovec M, Hajný J, Vránová J, Dusilová-Sulková S. Anemia and iron metabolism in predialysis CKD 2–5 chronic kidney disease patients (Anémie a metabolismus železa u nemocných dispenzarizovaných pro chronické onemocnění ledvin Stadia 2–5). Aktuality v Nefrologii 2009; 15(2): 53–62.
6. Remlova E, Dostalová T, Michalusová I, Vránová J, Navrátil L, Rosina J. Hemangioma curative effect of PDL, alexandrite, Er:YAG and CO2 asers. Photomedicine and Laser Surgery 2011; 29(12): 815–825.
7. Vranova J, renbergerova M, renberger P, tanek J, rana A, ivcak J, osina J. Incidence of cutaneous malignant melanoma in the Czech Republic: The risks of sun exposure for adolescents. Neoplasma 2012; 59: 316–325, Feb 2:1-2. doi: 10.4149/neo_2012_041 (Epub ahead of print).
8. Hill S, pink J, adilhac D, dwards A, aufman C, ogers S, yan R, onkin A. Absolute risk representation in cardiovascular disease prevention: comprehension and preferences of health care consumers and general practitioners involved in a focus group study. BMC Public Health 2010; 10: 108.
9. Elting LS, artin CG, antor SB, ubenstein EB. Influence of data display formats on physician investigators‘ decisions to stop clinical trials: prospective trial with repeated measures. BMJ 1999; 318(7197): 1527–1531.
10. Yeh EA, einstock-Guttman B, amanathan M, amasamy DP, illis L, ox JL, ivadinov, R. Magnetic resonance imaging characteristics of children and adults with paediatric-onset multiple sclerosis. Brain 2009; 32(Pt 12): 3392–3400.
11. McMahon LP, ent AB, err PG, ealy H, rish AB, ooper B, ark A, oger SD. Maintenance of elevated versus physiological iron indices in non-anaemic patients with chronic kidney disease: a randomized controlled trial. Nephrol Dial Transplant 2010; 5(3): 920–926.
12. Málek F, Havrda M, Fruhaufová Z, Vránová J. Short-term effect of evidence-based medicine heart failure therapy on glomerular filtration rate in elderly patients with chronic cardiorenal syndrome. Journal of the American Geriatrics Society 2009; 57(12): 2385–2386.
13. Finestone A, chlesinger T, mir H, ichter E, Milgrom C. Do physicians correctly estimate radiation risks from medical imaging? Arch Environ Health 2003; 58(1): 59–61.
14. Meloun M, Militký J. Statistická analýza experimentálních dat. Praha: Academia 2004.
15. Kubánková V, Hendl J. Statistika pro zdravotníky. Praha: Avicenum 1986.
16. Kratka K, Dostalikova-Cimburova M, Michalikova H, Stransky J, Vranova J, Horak J. High prevalence of HFE gene mutations in patients with porphyria cutanea tarda in the Czech Republic. British Journal of Dermatology 2008; 159(3): 585–590.
17. Emiroglu O, urdu S, gin Y, kar AR, lakoc YD, aim C, zyurda U, kar N. Thrombotic ene olymorphisms and postoperative outcome after coronary artery bypass graft surgery. J Cardiothorac Surg 011; 6: 120.
18. Bílková A, Zemanová M, Janík V, Vránová J. Comparison of women‘s mortality of breast cancer identified in the screening and diagnostic examinations (Porovnání úmrtnosti žen na karcinom prsu zjištěným při screeningovém a diagnostickém vyšetření). Ces Radiol 2011; 65(4): 272–278.
19. Pinto PC, raga JA, antos AM. Risk factors for alloimmunization in patients with sickle cell nemia. Rev Assoc Med Bras 011; 57(6): 668–673.
20. Vranova J, Vinakurau S, Richter J, Starec M, Fiserova A, Rosina J. The evolution of rectal and urinary toxicity and immune response in prostate cancer patients treated with two three-dimensional conformal radiotherapy techniques. Radiat. Oncol 2011 27; 6: 87.
21. Kobayashi K, Pillai KS, Sakuratami Y, Takemaru A, Kamata E, Hayashi M: Evaluation of statistical tools used in short-term repeated dose administration toxicity studies with rodents. J. Toxicol. Sci. 2008; 33(1): 97–104.
22. Dostalikova-Cimburova M, ratka K, alusikova K, hmelikova J, ejda V, nanicek J, eubauerova J, ranova J, ovar J, orak J. Duodenal expression of iron transport molecules in patients with hereditary hemochromatosis or iron deficiency. J Cell Mol Med 011. doi: 10.1111/j.1582‑4934. 2011.01458.x (Epub ahead of print).
23. Hamada C, Yoshino K, Matsumoto K, Nomura M, Yoshimura I. Three type algorithm for statistical analysis in chronic toxicity studies. J. Toxicol. Sci. 2008; 23: 173–181.
24. Kobayashi K, Kanamori M, Ohori K, Takeuchi H: A new decision tree method for statistical analysis of quantitative data obtained in toxicity studies on rodents. San Ei Shi 2000; 42: 125–129.
25. Long AC, ‘Neal HR Jr, eng S, ane KB, ight RW. Comparison of pleural fluid N-terminal pro-brain natriuretic peptide and brain natriuretic-32 peptide levels. Chest 2010; 137(6): 1369–1374 (Epub 2010 Feb 5).
26. Andrade H, orillas P, astillo J, oldán J, ateo I, gudo P, uiles J, ertomeu-Martínez V. [Diagnostic accuracy of T-proBNP ompared with electrocardiography in detecting left ventricular hypertrophy of hypertensive origin]. Rev Esp Cardiol 011; 64(10): 939–941 (Epub 2011 Jun 12).
27. Kim WS, ark SH. Correlation etween N-Terminal Pro-Brain Natriuretic Peptide and Doppler Echocardiographic Parameters of Left Ventricular Filling Pressure in Atrial Fibrillation. J Cardiovasc Ultrasound 011; 19(1): 26–31 (Epub 2011 Mar 31).
28. Vondráková D, Málek F, Ošťádal P, Vránová J, Miroslav P, Schejbalová M, Neužil P. Correlation of NT-proBNP, proANP and novel biomarkers: Copeptin and proadrenomedullin with LVEF and NYHA in patients with ischemic CHF, non-ischemic CHF and arterial hypertension. International Journal of Cardiology 2011; 150(4): 343–344.
29. Hendrichová M, Málek F, Kopřivová H, Vránová J, Ošťádal P, Krátká K, Sedláková M, Horák J. Correlation of NT-proBNP with metabolic liver function as assessed with 3C-methacetin breath test in patients with acute decompensated heart failure. International Journal of Cardiology 2010; 144(2): 321–322.
30. Ředinová-Vokrojová M, Šach J, Součkova I, Baráková D, Vránová J, Kuchynka P. The correlation between echographic and histopathological findings in uveal melanoma. Neuroendocrinology Letters 2008; 29(4): 536–546.
31. Vránová J, Horák J, Krátká K, Hendrichová M, Kovaříková K. Operating characteristic analysis and tne cost - benetit analysis in determination of the optimal cut-off point (ROC analýza a využití analýzy nákladů a přinosů k určení Optimálního dělícího bodu. Čas. Lék. čes. 2009; 48(9): 410–415.
32. The Magnificent ROC, http://www.anaesthetist.com/mnm/stats/ roc/Findex.htm
33. Ducháč V, avadil J, ránová J, irásek T, Štukavec J, orák L. Peroperative optical autofluorescence biopsy-verification of its diagnostic potential. Lasers in Medical Science 2011; 26(3): 325–333.
Labels
Addictology Allergology and clinical immunology Anaesthesiology, Resuscitation and Inten Angiology Audiology Clinical biochemistry Dermatology & STDs Paediatric dermatology & STDs Paediatric gastroenterology Paediatric gynaecology Paediatric surgery Paediatric cardiology Paediatric nephrology Paediatric neurology Paediatric clinical oncology Paediatric ENT Paediatric pneumology Paediatric psychiatry Paediatric radiology Paediatric rheumatology Paediatric urologist Diabetology Endocrinology Pharmacy Clinical pharmacology Physiotherapist, university degree Gastroenterology and hepatology Medical genetics Geriatrics Gynaecology and obstetrics Haematology Hygiene and epidemiology Hyperbaric medicine Vascular surgery Chest surgery Plastic surgery Surgery Medical virology Intensive Care Medicine Cardiac surgery Cardiology Clinical speech therapy Clinical microbiology Nephrology Neonatology Neurosurgery Neurology Nuclear medicine Nutritive therapist Obesitology Ophthalmology Clinical oncology Orthodontics Orthopaedics ENT (Otorhinolaryngology) Anatomical pathology Paediatrics Pneumology and ftiseology Burns medicine Medical assessment General practitioner for children and adolescents Orthopaedic prosthetics Clinical psychology Radiodiagnostics Radiotherapy Rehabilitation Reproduction medicine Rheumatology Nurse Sexuology Forensic medical examiner Dental medicine Sports medicine Toxicology Traumatology Trauma surgery Urology Laboratory Home nurse Phoniatrics Pain management Health Care Dental Hygienist Medical studentArticle was published in
Journal of Czech Physicians
Most read in this issue
- Evaluation of malnutrition in hospitalized children by the Screening Tool for the Assessment of Malnutrition in Paediatrics
- Statistics in clinical and experimental medicine
- The transrectal ultrasonography of prostate in men with congenital hypogonadism treated by long term testosterone replacement therapy
- Weight changes of patients in methadone maintenance treatment during four years period