# esercitiamoci con R a conoscere # quali siano i piu' comuni test statistici # nei design di tipo cross-section # importiamo il dataset studentiannoscorso.txt dalla rete www = "http://www.dmi.units.it/borelli/dataset/studentiannoscorso.txt" studenti = read.table(www, header = TRUE) ### se vogliamo importarlo dal nostro computer invece digitiamo: # # studenti = read.table(file.choose(), header = TRUE) # # 'attacchiamolo' all'interno dell'ambiente di R: attach(studenti) # per esplorare il dataset abbiamo alcuni comandi head(tail) tail(studenti) names(studenti) str(studenti) # vogliamo decidere se il genere abbia un effetto sul peso # ossia che vi sia una differenza statistica di peso tra maschi e femmine # 1. 'decidiamo' se i dati sono normali hist(peso[ genere == "f" ]) hist(peso[ genere == "m" ]) qqnorm(peso[ genere == "f" ]) qqline(peso[ genere == "f" ]) qqnorm(peso[ genere == "m" ]) qqline(peso[ genere == "m" ]) shapiro.test(statura[ genere == "m" ]) shapiro.test(statura[ genere == "f" ]) # se decidiamo di no, allora eseguiamo # 2. il test di Wilcoxon: wilcox.test( peso[ genere == "m" ], peso[ genere == "f" ] ) wilcox.test ( peso ~ genere ) # siccome p-value < 0.001 decidiamo che c'e differenza di peso tra maschi e femmine # se invece riteniamo che i dati di 1. siano normali, # proseguiamo a verificare se siano omoschedastici con il test F sd(peso[ genere == "f" ]) sd(peso[ genere == "m" ]) var.test( peso ~ genere) # siccome p-value = 0.56, decidiamo che NON c'e' differenza di dispersione # quindi sono verificate le ipotesi del test T di student t.test( peso[ genere == "m" ], peso[ genere == "f" ] ) t.test ( peso ~ genere ) # siccome p-value < 0.001 decidiamo che c'e differenza di peso tra maschi e femmine ########################### # vogliamo decidere se vi sia associazione o indipendenza tra il genere ed il fumo table(genere, fumo) chisq.test(table(genere, fumo)) # test asintotico, da evitare fisher.test(table(genere, fumo)) # test esatto, da preferire # siccome p-value < 0.80 decidiamo che NON c'e associazione tra il genere ed il fumo; # sono caratteri statisticamente indipendenti