Zašto su linearni mešoviti modeli obično bolji izbor za pre–post podatke sa eksperimentalnom i kontrolnom grupom

Studentski predlog i poznat metodološki problem

Nedavno mi se javio student sa prijavom rada zasnovanom na veoma čestom dizajnu: jedna eksperimentalna grupa, jedna kontrolna grupa, i po dva merenja za svakog ispitanika, jedno pre i jedno posle intervencije. Student je predložio da podatke analizira pomoću t-testa za zavisne uzorke unutar grupa, t-testa za nezavisne uzorke između grupa, a kao neparametarsku alternativu i pomoću Mann–Whitney testa. Cilj je bio sasvim razumljiv: oceniti efekte intervencije i utvrditi da li je eksperimentalna grupa postigla bolje rezultate od kontrolne grupe.

To je veoma česta polazna tačka kod studenata i mladih istraživača. Problem nije u tome što su ti metodi uvek pogrešni, već u tome što ne odgovaraju dobro punoj logici ovakvog dizajna. Kada imamo dve grupe i dva ponovljena merenja na istim osobama, ključno analitičko pitanje nije samo da li se jedna grupa promenila, niti da li se dve grupe razlikuju u jednom trenutku. Ključno pitanje je da li se promena kroz vreme razlikuje između grupa. Upravo za tu vrstu pitanja linearni mešoviti modeli, odnosno LMM, najčešće predstavljaju prikladniji metodološki okvir.

Kratka i intuitivna interpretacija LMM-a

Linearni mešoviti model možemo intuitivno razumeti kao model koji ocenjuje opšte efekte koji nas zanimaju, kao što su efekat grupe, efekat vremena i naročito interakcija grupa × vreme, ali istovremeno priznaje da su ponovljena merenja iste osobe međusobno povezana. U pre–post dizajnu svaki ispitanik daje više od jednog rezultata, a ti rezultati nisu nezavisni. LMM uzima u obzir da svaki ispitanik ima svoju početnu tačku i svoje individualno odstupanje od prosečnog obrasca promene.

To je osnovna intuicija. Model ima fiksni deo, u kome ocenjujemo glavne istraživačke efekte, i slučajni deo, u kome obuhvatamo individualnu varijabilnost među ispitanicima. Umesto da se ponaša kao da su sva merenja nezavisna, LMM prati stvarnu strukturu podataka. Zato je u intervencionim studijama sa ponovljenim merenjima često metodološki primereniji od jednostavnijih testova.

LMM naspram t-testa za zavisne uzorke

t-test za zavisne uzorke odgovara na usko pitanje: da li se prosečan skor u jednoj grupi promenio od pre-testa do post-testa? To može biti korisno kao početni opisni uvid, ali nije glavno pitanje zaključivanja u dizajnu sa dve grupe. Ako uradimo jedan upareni t-test u eksperimentalnoj grupi i drugi u kontrolnoj grupi, možemo doći u iskušenje da kažemo da je jedna promena statistički značajna, a druga nije. Ali to ne dokazuje da se veličina promene statistički značajno razlikuje između grupa.

To je jedna od najčešćih grešaka u primenjenim istraživanjima. Značajna promena u jednoj grupi i neznačajna promena u drugoj grupi nije isto što i značajna razlika u promeni između grupa. LMM izbegava ovaj problem zato što direktno ocenjuje interakciju grupa × vreme. Upravo ta interakcija je u većini intervencionih studija pravi pokazatelj efekta intervencije.

Upareni t-test ipak ima i svoje prednosti. Jednostavan je, poznat i lak za objašnjavanje. Za jednokratno poređenje pre i post rezultata unutar jedne grupe može biti sasvim primeren. Njegova slabost u ovom dizajnu je to što tretira svaku grupu odvojeno i ne modeluje istraživački dizajn kao celinu. Takođe, ne pruža veliku fleksibilnost kada želimo da uključimo kovarijate, razmotrimo individualne razlike ili se nosimo sa nedostajućim post-test podacima. U tom smislu, upareni t-test je lak, ali često suviše ograničen.

LMM naspram t-testa za nezavisne uzorke i Mann–Whitney testa

t-test za nezavisne uzorke poredi dve nezavisne grupe na jednoj meri ishoda. To može biti korisno ako želimo da uporedimo eksperimentalnu i kontrolnu grupu na početnom merenju ili na završnom merenju. Mann–Whitney može poslužiti kada istraživač želi rangovnu alternativu. Međutim, nijedan od ova dva pristupa ne zahvata zaista ponovljenu prirodu podataka.

Ako se grupe porede samo na post-testu, početno stanje se ignoriše ili se koristi veoma slabo. Ako se najpre izračunaju promene poena, pa se zatim oni porede između grupa, cela struktura dizajna svodi se na jednu izvedenu promenljivu. To ponekad može dati grubu ocenu, ali odbacuje deo informacija koje LMM može direktno da modeluje.

Mann–Whitney test ima prednost u tome što je manje osetljiv na stroge pretpostavke normalnosti, ali ne rešava dublji problem dizajna. On ostaje metod za poređenje dve grupe, a ne model za ponovljena merenja. Drugim rečima, može pomoći kod pitanja rasporeda, ali ne rešava zavisnost merenja unutar iste osobe. Zato ga ne treba tretirati kao opštu metodološku zamenu za model koji je specifično razvijen za ponovljene opservacije.

LMM naspram ANOVA i ANOVA ponovljenih merenja

ANOVA i ANOVA ponovljenih merenja (engl. repeated measures ANOVA) su mnogo ozbiljniji konkurenti LMM-u od t-testova, jer mogu istovremeno da analiziraju grupu, vreme i njihovu interakciju. U klasičnom 2 × 2 dizajnu repeated measures ANOVA zaista može testirati osnovno pitanje intervencije. Zato je i dalje veoma prisutna u primenjenim istraživanjima.

Njene prednosti su očigledne. Široko je zastupljena u nastavi, dostupna u gotovo svakom statističkom paketu i poznata čitaocima i recenzentima. U balansiranim skupovima podataka sa kompletnim opservacijama i jednostavnom strukturom može dati sasvim prihvatljive rezultate.

Ipak, LMM je obično bolji izbor zato što je fleksibilniji i realističniji. ANOVA ponovljenih merenja nameće rigidniju strukturu kovarijansi između ponovljenih merenja. Takođe se lošije snalazi kada podaci nisu potpuni, kada neki ispitanici propuste post-test ili kada individualne putanje više odstupaju od proseka nego što klasični okvir pretpostavlja. A u realnim empirijskim istraživanjima upravo su takve komplikacije česte.

Kod tačno dve vremenske tačke poznato pitanje sfericiteta nije presudno ograničenje, jer je sa samo dva merenja ta pretpostavka automatski zadovoljena. Ali i tada LMM ostaje privlačniji zato što prirodnije modeluje individualne razlike među ispitanicima i bolje se prilagođava kada skup podataka nije savršeno balansiran.

Dakle, ispravno poređenje nije “ANOVA loša, LMM dobar”. Bolje je reći da ANOVA ponovljenih merenja može biti prihvatljiva u veoma jednostavnim i čistim slučajevima, dok je LMM obično snažniji opšti metod za ovakav dizajn.

Pretpostavke su važne i kod LMM-a

Veoma je važno naglasiti sledeće: izbor LMM-a ne znači da pretpostavke više nisu važne. Ponekad istraživači pogrešno veruju da su mešoviti modeli toliko fleksibilni da provera pretpostavki postaje suvišna. To nije tačno.

Pretpostavke se i dalje moraju proveravati, ali u odnosu na konkretan prilagođeni model. Kod LMM-a sa kontinuiranim ishodom najčešće su relevantne približna normalnost reziduala, približna normalnost slučajnih efekata, linearnost odnosa između prediktora i ishoda, homoskedastičnost ili makar prihvatljivo ponašanje varijanse reziduala, odgovarajuća specifikacija slučajnog dela modela i odsustvo izrazito uticajnih nestandardnih opservacija (engl. outliers). Kod ANOVA ponovljenih merenja i standardne ANOVA takođe se razmatraju normalnost, homogenost varijansi, uticajne tačke i, u dizajnima sa više od dve ponovljene tačke, sfericitet.

U praksi se ove pretpostavke mogu proveravati pomoću grafika reziduala naspram prilagođene vrednosti, Q–Q grafika reziduala, pregleda slučajnih efekata, dijagnostike uticajnih opservacija i poređenja alternativnih struktura modela. Metodološka poruka je jasna: pretpostavke pripadaju modelu, a ne samo opisu dizajna kao “dve grupe i dva merenja”.

Česte greške koje studenti prave

Jedna česta greška jeste da se urade odvojeni upareni t-testovi i da se ti rezultati predstave kao dokaz efekta intervencije. Druga je da se porede samo post-test sredine, bez ozbiljnog uvažavanja početnih razlika. Treća je verovanje da neparametarski test automatski rešava metodološki problem. Četvrta je da se normalnost proverava samo na sirovim promenljivama, a ne na rezidualima modela. Još jedna česta greška jeste pretpostavka da su ANOVA ponovljenih merenja i LMM praktično isto u svim empirijskim situacijama.

To nisu beznačajne tehničke sitnice. One utiču na samo značenje zaključka. Ako analitički metod ne odgovara strukturi podataka, čak i uredno napisan rezultat može biti metodološki slab.

Završna metodološka preporuka

U pre–post dizajnu sa eksperimentalnom i kontrolnom grupom centralni istraživački interes obično je razlika u promeni kroz vreme između grupa. To je problem interakcije. Upareni t-test, nezavisni t-test i Mann–Whitney test mogu obuhvatiti samo delove tog problema. ANOVA ponovljenih merenja mu je bliža, ali je manje fleksibilna i često manje robusna u realnim istraživačkim uslovima. Zato linearni mešoviti modeli obično zaslužuju prednost. Oni odgovaraju strukturi podataka sa ponovljenim merenjima, direktno ocenjuju ključni efekat grupa × vreme, uzimaju u obzir zavisnost opservacija unutar iste osobe i pružaju bolji okvir za rad sa realnim komplikacijama u podacima. Oni ne ukidaju potrebu za pažljivom proverom pretpostavki i promišljenom interpretacijom, ali istraživaču daju adekvatniji metodološki alat za ovaj posao.