Indsamling og beregning af statistiske data for at erhverve gennemsnittet er ofte en lang og kedelig proces. T-testen og envejs variansanalysen (ANOVA) er de to mest almindelige test, der bruges til dette formål.
T-testen er en statistisk hypotesetest, hvor teststatistikken følger en elevs t-distribution, hvis nulhypotesen understøttes. Denne test anvendes, når teststatistikken følger en normal fordeling, og værdien af en skaleringsbegivenhed i teststatistikken er kendt. Hvis skaleringsudtrykket er ukendt, erstattes det derefter med et skøn baseret på de tilgængelige data. Teststatistikken følger en studerendes t-distribution.
William Sealy Gosset introducerede t-statistikken i 1908. Gosset var en kemiker for Guinness-bryggeriet i Dublin, Irland. Guinness-bryggeriet havde politikken med at rekruttere de bedste kandidater fra Oxford og Cambridge og vælge blandt dem, der kunne levere anvendelser af biokemi og statistik til virksomhedens etablerede industrielle processer. William Sealy Gosset var en sådan kandidat. I processen udtænkte William Sealy Gosset t-testen, der oprindeligt blev tænkt som en måde at overvåge kvaliteten af stout (det mørke øl, som bryggeriet producerer) på en omkostningseffektiv måde. Gosset offentliggjorde testen under pennavnet 'Student' i Biometrika, omkring 1908. Årsagen til pennavnet var Guinness 'insistering, da virksomheden ønskede at bevare deres politik om anvendelse af statistikker som en del af deres' forretningshemmeligheder '.
T-teststatistikker følger generelt formen T = Z / s, hvor Z og s er funktionerne i dataene. Z-variablen er designet til at være følsom over for den alternative hypotese; effektivt er størrelsen af Z-variablen større, når den alternative hypotese er sand. I mellemtiden er 's' en skaleringsparameter, der tillader distribution af T at bestemmes. Antagelserne, der ligger til grund for en t-test, er, at a) Z følger en standard normalfordeling under nulhypotesen; b) ps2 følger en Ï ‡ 2-fordeling med p frihedsgrader under nulhypotesen (hvor p er en positiv konstant); og c) Z-værdien og s-værdien er uafhængige. I en bestemt type t-test er disse betingelser konsekvenser af befolkningen, der undersøges, samt den måde, hvorpå dataene udtages.
På den anden side er variansanalysen (ANOVA) en samling af statistiske modeller. Mens ANOVA-principper er blevet anvendt af forskere og statistikere i lang tid, var det først i 1918, at Sir Ronald Fisher fremsatte et forslag om at formalisere variansanalyse i en artikel med titlen 'Korrelationen mellem pårørende om antagelsen af Mendelian arv' . Siden da er ANOVA blevet udvidet med hensyn til anvendelsesområdet. ANOVA er faktisk en fejlnummer, da den ikke er afledt af forskellene i afvigelser, men snarere fra forskellene mellem middel til grupper. Det inkluderer de tilknyttede procedurer, hvor den observerede varians i en bestemt variabel er opdelt i komponenter, der kan henføres til forskellige variationskilder.
I det væsentlige tilvejebringer en ANOVA en statistisk test for at bestemme, om middelene i flere grupper alle er ens, og som et resultat generaliserer t-test til mere end to grupper. En ANOVA kan være mere nyttig end en to-prøve-t-test, da den har en mindre chance for at begå en type I-fejl. For eksempel ville det at have flere to-prøve-t-tests have en større chance for at begå en fejl end en ANOVA af de samme variabler involveret for at opnå middelværdien. Modellen er den samme, og teststatistikken er F-forholdet. På enklere vilkår er t-tests bare et specielt tilfælde af ANOVA: at udføre en ANOVA vil have det samme resultat af flere t-tests. Der er tre klasser af ANOVA-modeller: a) Modeller med faste effekter, der antager, at dataene kommer fra normale populationer, der kun adskiller sig i deres midler; b) Tilfældige effektmodeller, der antager, at dataene beskriver et hierarki af forskellige populationer, hvis forskelle er begrænset af hierarkiet; og c) Modeller med blandet effekt, som er situationer, hvor både de faste og tilfældige effekter er til stede.