I. Vlahek*, V. Sušić, A. Piplica, A. Ekert Kabalin, S. Menčik i M. Maurić Maljković
Sažetak
P rilikom planiranja istraživanja važno je pravilno odrediti potrebnu veličinu uzorka. Korištenje uzorka neadekvatne veličine može rezultirati gubitkom vremena, novca, ali i etičkim problemima. Ovisno o tipu istraživanja postoje različite metode za izračun veličine uzorka, a sve se temelje na četiri ključna čimbenika: razini statističke značajnosti, snazi statističkog testa, veličini učinka i varijabilnosti svojstva. Cilj je ovog rada znanstvenicima i stručnjacima iz područja veterine pojasniti osnovna načela izračuna veličine uzorka.Ključne riječi: veličina uzorka, razina značajnosti, snaga testa, veličina učinka, varijabilnost svojstva
Uvod
Posljednjih je godina veličina uzroka postala jedno od ključnih pitanja u pogledu ocjene kvalitete istraživanja. Nerijetko se događa da znanstveni rad bude odbijen ili vraćen na doradu jer nije opisano na koji način je određena veličina uzorka i traži se da taj dio bude naveden u metodama. Iako se dodavanjem post hoc izračuna može uvjeriti urednika ili recenzenta u ispravnost odluke o veličini uzorka, takve analize (u pravilu) nisu poželjne jer su konceptualno manjkave (Zhang i sur., 2019.). Istraživači tad dolaze u iskušenje da manipuliraju parametrima potrebnim za izračun dok ne dobiju veličinu uzorka koju su koristili u već provedenom istraživanju (Hoenig i Heisey, 2001.). Samo je u nekim slučajevima, kao što je provjera je li nedovoljna snaga testa bila razlog statistički neznačajnog učinka, opravdano provesti post hoc analizu veličine uzorka (McHugh, 2008.).
Ovaj rad služi kao polazni tekst znanstvenicima i stručnjacima u području veterine koji se prilikom planiranja istraživanja susreću s problemom izračuna veličine uzorka. Naglasak je stavljen na objašnjenja osnovnih čimbenika koji utječu na veličinu uzorka i njihove međusobne odnose jer je razumijevanje tih odnosa osnovna pretpostavka za uspješan izračun. Za one koji žele dodatna objašnjenja navedena je literatura koja se bavi predmetnom tematikom. Primjeri navedeni na kraju rada trebali bi dodatno pomoći u razjašnjavanju izračuna veličine uzorka.
Čimbenici o kojima ovisi veličina uzorka
1. Snaga statističkog testa
Analizom snage testa (engl. power analysis) određuje se vjerojatnost otkrivanja značajnog rezultata (razlika, učinka) u uzorku ako takav učinak postoji u populaciji (McHugh, 2008.). U idealnom bi istraživanju snaga testa trebala biti visoka. To znači da postoji velika vjerojatnost da se istraživanjem utvrde značajne razlike ako one stvarno postoje u populaciji. Suprotno tome, ako se istraživanjem utvrdi da tih razlika nema u ispitivanom uzorku, istraživač može pouzdano tvrditi da tih razlika nema niti u populaciji (Whitley i Ball, 2002.). Snaga testa se izračunava kao 1 – β, gdje je β vjerojatnost za pojavu pogreške tipa II (lažno negativnog rezultata) (Tabela 2.).
Uobičajeno se smatra da je prihvatljiva razina vjerojatnosti počinjenja pogreške tipa II do 20 %, što znači da je prihvatljiva snaga testa 80 % ili više. Dakle, ako specifičnosti istraživanja ne zahtijevaju veću snagu testa, istraživači se mogu koristiti tim usuglašenim standardom. Snaga testa i veličina uzorka su u proporcionalnom odnosu. Ako je željena snaga testa veća, potreban je i veći uzorak da bi se dokazao isti učinak.
Detaljnije o snazi testa može se pročitati u radovima McHugh (2008.) i Whitley i Ball (2002.).
2. Razina statističke značajnosti
Razina statističke značajnosti (α) naziva se i P-razina (engl. P-level), a predstavlja gornju granicu za vjerojatnost počinjenja pogreške tipa I (lažno pozitivnog rezultata) (Tabela 2.).
Uvijek se određuje prije početka istraživanja, a standardna joj vrijednost iznosi P<0,05 (u kliničkim istraživanjima može iznositi P<0,01 ili čak i manje). Što je niža postavljena razina statističke značajnosti, da bismo dokazali isti učinak, potreban je i veći uzorak.
P-vrijednost je jedan od ključnih rezultata inferencijalne statističke analize, a pokazuje kolika je testiranjem zabilježena vjerojatnost počinjenja pogreške tipa I.
Interpretira se u kontekstu nul-hipoteze. To je statistička hipoteza koja se postavlja prije početka statističke analize, a uobičajeno glasi “ne postoji razlika između uzoraka“. U tom slučaju P-vrijednost pokazuje kolika je vjerojatnost za pojavu razlike zabilježene istraživanjem ako je nul-hipoteza točna. Ako je P -vrijednost manja od 0,05 smatra se da je ta vjerojatnost dostatno mala (postoji dostatno dokaza) te da se nul-hipotezu može odbaciti i zaključiti da su zabilježene razlike statistički značajne, odnosno da učinak koji je zabilježen u uzorku postoji u populaciji.
Tada se prihvaća alternativna hipoteza koja glasi „postoji razlika među uzorcima“. Obrnuto, ako je P-vrijednost jednaka ili veća od 0,05, ne postoji dostatno dokaza da se odbaci nul-hipoteza, odnosno ona se prihvaća, a zabilježena razlika nije statistički značajna. Tada se ne može zaključiti da učinak koji je zabilježen na uzorku postoji u populaciji (Frost, 2020.).
3. Veličina učinka i varijabilnost svojstva
Veličina učinka (engl. effect size) predstavlja razliku između skupina koje se promatraju. Na primjer, ako je u pokusnoj skupini pasa koncentracija glukoze 6,2 mmol/L, a u kontrolnoj 4,9 mmol/L, razlika (veličina učinka) iznosi 1,3 mmol/L.
Što je manja razlika koju dokazujemo, potreban je veći uzorak (ako se snaga testa i razina statističke značajnosti ne mijenjaju). Određivanje veličine učinka često je najteži korak u izračunu potrebne veličine uzorka jer se od istraživača očekuje da zna rezultat razlike u istraživanju koje još nije provedeno (Das i sur., 2016.).
Međutim, postoji nekoliko načina kako doskočiti ovom problemu. Može se provesti pilot studija i/ili iskoristiti dostupne podatke iz prijašnjih relevantnih istraživanja (Das i sur., 2016., Frost, 2020., Kang, 2021.). Ako ništa od navedenog nije dostupno ili moguće, istraživač na temelju znanja i iskustva može odrediti minimalnu veličinu učinka od interesa koja predstavlja minimalnu razliku koja se u konkretnom istraživanju može smatrati relevantnom (Whitley i Ball, 2002.). Veličina učinka i njena povezanost s veličinom uzorka pobliže su objašnjeni u radovima Das i sur. (2016.) i McHugh (2008.).
Uz veličinu učinka, na isti je način (pilot studija podatci iz prijašnjih istraživanja, znanje i iskustvo) potrebno procijeniti varijabilnost svojstva koja se najčešće iskazuje u standardnim devijacijama. Što je veća varijabilnost, potreban je veći uzorak da bi se dokazao isti učinak (Frost, 2020.). Dijeljenjem veličine učinka sa standardnom devijacijom dobiva se standardizirana veličina učinka, odnosno Cohenov d. Sve je navedeno važno znati jer neke jednadžbe i računalni programi za izračun veličine uzorka zahtijevaju unos standardizirane veličine učinka, a neki imaju mogućnost unosa veličine učinka i standardne devijacije.
Kako izračunati veličinu uzorka?
1. Jednadžbe
Ovisno o tipu istraživanja postoji velik broj jednadžbi kojima se može izračunati veličina uzorka. Radovi Charan i Biswas (2013.) i Serdar i sur. (2021.) navode najvažnije formule za presječna istraživanja (engl. cross-sectional study), istraživanja parova (engl. case/control study) te kohortna i klinička istraživanja. U nastavku teksta su navedene dvije najčešće korištene formule.
a) Izračun veličine uzorka u istraživanju slučajeva i kontrola (kvantitativna varijabla)
U ovom slučaju veličina uzorka (broj životinja po skupini) računa se po formuli:
- r je omjer broja životinja u pokusnoj i kontrolnoj skupini; ako je broj životinja u obje skupine jednak, r iznosi 1.
- z1-α/2 je vrijednost množitelja (multiplikatora) za zadanu razinu statističke značajnosti (α). Ukoliko α iznosi 0,05, vrijednost multiplikatora u dvosmjernom testu iznosi Z1-α/2 = 1,96 (Tabela 3.).
- zβ je vrijednost množitelja (multiplikatora) za zadanu snagu testa; ako je snaga testa 80%, vrijednost multiplikatora Zβ = 0,84 (Tabela 4.).
- σ je standardna devijacija uzorka.
- δ je veličina učinka (razlika između aritmetičkih sredina pokusne i kontrolne skupine)
b) Izračun veličine uzorka za dvije skupine u istraživanju slučajeva i kontrola (kvalitativna varijabla; proporcije) U ovom slučaju veličina uzorka (broj životinja po skupini) računa se po formuli:
- p je prosječan udio izloženih životinja; računa se kao (udio izloženih životinja u pokusnoj skupini + udio izloženih životinja u kontrolnoj skupini) / 2
- d je veličina učinka (razlika u proporcijama izloženih životinja u pokusnoj i kontrolnoj skupini)
- r, Z1-α/2 i Zβ su objašnjeni u prijašnjoj formuli.
2. Altmanov nomogram
Ako imamo dvije skupine živitinja Altmanov je nomogram (Slika 1.) vrlo praktičan za određivanje veličine uzorka.
On stavlja u odnos ukupan broj životinja (N), snagu testa, razinu statističke značajnosti i standardiziranu veličinu učinka.
Da bi se mogao iščitati ukupan broj životinja potrebno je izračunati standardiziranu veličinu učinka (d) po formuli:
gdje je µ1 = aritmetička sredina promatranog svojstva u pokusnoj skupini; µ2 = aritmetička sredina promatranog svojstva u kontrolnoj skupini, a σ = standardna devijacija svojstva.
Primjer 1. Istraživanjem se želi prije parenja utvrditi hoće li dodatna hranidba (flushing) utjecati na tjelesnu masu odraslih ovaca mesne pasmine. Plan istraživanja je takav da se u jednom stadu nasumično odaberu odrasle, zdrave ovce u dobi od 2 do 3 godine te da se podijele u dvije skupine: pokusnu i kontrolnu. Ovce u pokusnoj skupini bit će podvrgnute dodatnoj hranidbi tijekom 35 dana, dok će ovce u kontrolnoj skupini za to vrijeme dobivati uobičajeni obrok. Iz relevantne je literature utvrđeno da tjelesna masa ovaca neke druge mesne pasmine podvrgnutih dodatnoj hranidbi (pokusna skupina) iznosi 63,15 kg, a onih na uobičajenom režimu prehrane (kontrolna skupina) 61,80 kg. Standardna devijacija tjelesne mase iznosi 1,90 kg. Koliki je uzorak potreban da se navedena razlika dokaže na razini statističke značajnosti od 5% (α=0,05) uz snagu testa od 80 %?
Iz primjera se može iščitati da se radi o istraživanju na dvije nezavisne skupine životinja. Prema ranije navedenoj formuli utvrđeno je da je standardizirana veličina učinka d = 0,71. Povlačeći ravnu crtu koja spaja standardiziranu veličinu učinka i željenu snagu testa uz zadanu razinu značajnosti može se odrediti broj životinja (N). U ovom je primjeru vidljivo da je potreban broj životinja oko 65, odnosno oko 33 po skupini.
3. Računalni programi
Izračun potrebne veličine uzorka danas se najčešće provodi koristeći računalne programe. Pri tome treba istaknuti licencirane statističke programe kao što su Statistica, SAS, SPSS i Minitab koji, između ostalog, nude i mogućnost izračuna veličine uzorka. Postoji i veći broj jednostavnijih programa dostupnih na internetu, a koji mogu poslužiti za tu svrhu.
Nekolicina takvih programa nabrojana je u Tabeli 5.
Korištenjem programa minimalizira se mogućnost pogrešnog rezultata zbog grešaka u računanju, a većina ih ovisno o tipu istraživanja ima mogućnost odabira izračuna.
U nastavku su prikazana dva primjera izračuna veličine uzorka u programu G*Power (https://www.psychologie.hhu.de/arbeitsgruppen/allgemeine-psychologie-und-arbeitspsychologie/gpower).
Ovaj program odabran je, jer je vrlo jednostavan za uporabu i besplatno je dostupan na internetu, a omogućava izračun veličine uzorka za različite statističke metode i tipove istraživanja. Radno sučelje programa prikazano je na Slici 2.
Veličina se uzorka u tom programu se određuje u sljedeća četiri koraka: (1) odabir odgovarajućeg statističkog testa, (2) odabir tipa „power“ analize koja se želi provesti, (3) unos traženih podataka i (4) izračun veličine uzorka. Detaljan opis rada u programu G*Power s primjerima može se pronaći u radovima Faul i sur. (2007.) i Kang (2021.). Za samostalan rad u bilo kojem programu za određivanje veličine uzorka očekuje se da je istraživač upoznat s osnovama testiranja hipoteza i odabirom statističkih testova. Uporaba navedenog programa prikazana je u primjerima 2 i 3.
Primjer 2. Istraživanjem se želi utvrditi razlikuje li se broj spermija mačaka prikupljenih elektroejakulacijom od broja spermija prikupljenih umjetnom vaginom. Za potrebe istraživanja nasumično će biti odabrani zdravi, spolno zreli mačci u dobi od 2 do 3 godine. Potom će biti podijeljeni u dvije skupine: životinje čiji će ejakulat biti uzet umjetnom vaginom i životinje čiji će ejakulat biti uzet elektroejakulacijom. Iz prijašnjih istraživanja utvrđeno je da je prosječan broj spermija (x106) prikupljen umjetnom vaginom 61,34±5,9, a elektroejakulacijom 54,12±6,1. Koliki uzorak je potreban za istraživanje, ako je zadana razina statističke značajnosti 5 % (α=0,05), a snaga testa 80 % (β=0,2)?
Prvi korak jest odabir odgovarajućeg statističkog testa. Vidljivo je da će istraživanjem biti formirane dvije nezavisne skupine mačaka (životinje čiji je ejakulat uzet elektroejakulacijom i životinje čiji je ejakulat uzet umjetnom vaginom). Stoga se u padajućem izborniku pod rubrikom „Test family“ bira „t tests“ (jer se t-test koristi za usporedbu aritmetičkih sredina dvaju nezavisnih uzoraka). U padajućem izborniku pod rubrikom „Statistical tests“ bira se „Means: Difference between two independent means (two groups)“. Nakon toga odabire se tip „power“ analize koju se želi provesti, a to je izračun veličine uzorka. Stoga se u rubrici „Type of power analysis“ bira „A priori: Compute required sample size – given α, power, and effect size“.
U dijelu prozora pod nazivom „Input parameters“ treba unijeti tražene podatke. S obzirom na to da smjer razlike između dviju skupina mačaka nije poznat, u rubrici „Tail(s)“ bira se „Two“. Veličina standardiziranog učinka (d) koju treba unijeti u rubrici „Effect size d“ nije poznata, stoga ju treba izračunati. Za to treba odabrati opciju „Determine =>“ koja se nalazi lijevo od rubrike „Effect size d“.
Odabirom navedene opcije otvara se dodatni prozor (Slika 3.) u kojem se može izračunati standardizirana veličina učinka. Jer je u obje istraživane skupine potreban jednak broj mačaka bira se opcija „n1 = n2“. Nakon toga se u rubrike „Mean group 1“, „Mean group 2“, „SD σ group 1“ i „SD σ group 2“ redom upisuju aritmetička sredina prve skupine mačaka (61,34), aritmetička sredina druge skupine mačaka (54,12), standardna devijacija prve skupine mačaka (5,9) i standardna devijacija druge skupine mačaka (6,1). Odabirom „Calculate and transfer to main window“ izračunava se standardizirana veličina učinka koja iznosi 1,203 i broj se prebacuje u glavni prozor. Pod rubrikom „α err prob“ odabire se željena razina statističke značajnosti (0,05), a u rubrici „Power (1-β) err prob“ odabire se željena snaga testa (0,80). Već je napomenuto da je u svakoj skupini poželjan jednak broj životinja te se stoga u rubrici „Allocation ratio N2/N1“ upisuje 1 (to znači da je omjer broja životinja u prvoj i drugoj skupini jednak 1). Odabirom opcije „Calculate“ u donjem desnom uglu glavnog prozora izračunava se potrebna veličina uzorka. U dijelu prozora „Output parameters“ vidi se ukupan potreban broj životinja pod rubrikom „Total sample size“ te potreban broj životinja po svakoj skupini u rubrikama „Sample size group 1“ i „Sample size group 2“ (Slika 4.).
U ovom primjeru vidi se da je za potrebe istraživanja dovoljno odabrati 12 mačaka po skupini, odnosno ukupno 24 mačka. Protokol analize može se dobiti odabirom opcije „Protocol of power analysis“ (Slika 5.) te ga se odabirom opcije „Save“ može pohraniti na računalu.
Primjer 3. Pretpostavlja se da postoji razlika u prevalenciji Giardije sp. u pasa koji se drže u azilu i pasa koji se drže kao kućni ljubimci. Za potrebe istraživanja nasumično će se uzorkovati odrasli psi koji su proveli barem 30 dana u azilu i psi koji se drže kao kućni ljubimci. Pilot istraživanjem utvrđeno je da je prevalencija Giardije sp. u pasa u azilu 45 %, a u kućnih pasa 19 %. Koliki uzorak je potreban za istraživanje, ako je zadana razina statističke značajnosti 5 % (α=0,05), a snaga testa 80 % (β=0,2)?
Pri izračunu veličine uzorka u ovom primjeru primjenjuju se ista četiri koraka kao i u prethodnom. S obzirom na to da se u ovom slučaju radi o s proporcijama, pod rubrikom „test family“ bira se „z test“, a pod rubrikom „Statistical test“ bira se „Proportions: Difference between two independent proportions“. Nakon toga, pod rubrikom „Power analysis“ bira se „A priori: Compute required sample size – given α, power, and effect size“. Potom u dijelu prozora pod nazivom „Input parameters“ treba unijeti tražene podatke. Kao i u prethodnom primjeru, u rubrici „Tail(s)“ odabire se „Two“, a zatim se u kućicu pored „Proportion p2“ upisuje 0,45, a u kućicu pored „Proportion p1“ 0,19. Razina statističke značajnosti je („α err prob“) 0,05, a snaga testa („Power (1-β) err prob“) 0,80.
Omjer broja životinja po skupini („Allocation ratio N2/N1“) je 1 (Slika 6.). Odabirom „Calculate“ u dijelu prozora „Output parameters“ vidljivo je da je potreban broj pasa po skupini 50 (Slika 7.).
Zaključak
Literatura [… prikaži]
Basic principles of sample size estimation in veterinary research
Ivan VLAHEK, DVM, PhD, Postdoctoral fellow, Velimir SUŠIĆ, DVM, PhD, Full Professor; Aneta PIPLICA, DVM, Assistant; Anamaria EKERT KABALIN, DVM, PhD, Full Professor; Sven MENČIK, DVM, PhD, Associate Professor; Maja MAURIĆ MALJKOVIĆ, DVM, PhD, Associate Professor, Faculty of Veterinary Medicine, University of Zagreb, Croatia
W hen planning research, it is essential to correctly determine the required sample size. Using a sample of inadequate size can result in the loss of time and money, or in ethical problems. Depending on the study design, there are different methods for calculating the sample size. The four critical factors in determining the required sample size are the level of statistical significance, power of the test, effect size, and data variability. The aim of this paper is to explain the basic principles of calculating sample size to veterinary scientists and experts.Key words: sample size; significance level; power of the test; data variability