Članki

1.6.5.3: Intervali zaupanja


Zdaj smo pripravljeni narediti prvi korak v svetu inferencialne statistike in uporabe statistični testi. Izumljeni so bili za rešitev glavnega vprašanja statistične analize (slika ( PageIndex {1} )): kako oceniti kaj o prebivalstva z uporabo samo svojih vzorec? Sliši se kot čarovnija. Na primer, prebivalstvo bi lahko razstavilo enega od standardne distribucije podatkov.

Slika ( PageIndex {1} ) Grafični prikaz glavnega statističnega vprašanja: kako oceniti populacijo (modro) iz vzorca (rdeče)? Rdeča puščica se nanaša na interval zaupanja. Za odgovor na "veliko rdeče" vprašanje potrebujemo vrednost p.

Najprej izračunajmo interval zaupanja. Ta interval napovedovati z določeno verjetnostjo (običajno 95%), kadar je določena osrednja tendenca (srednja ali mediana) znotraj populacije. Ne mešajte ga s 95-odstotno količino, ti ukrepi imajo drugačno naravo.

Začnemo s preverjanjem hipotezo da povprečje prebivalstva je enako 0. To je naše ničelna hipoteza, H (_ 0 ), ki ga želimo sprejeti ali zavrniti na podlagi rezultatov preskusa.

Koda ( PageIndex {1} ) (R):

Tu smo uporabili različico t-test za eno spremenljive podatke, ki nato uporabljajo standard Študentova t-porazdelitev. Prvič, ta test pridobi določeno statistika iz prvotnega nabora podatkov, tako imenovani t-statistika. Testna statistika je eno merilo nekega atributa vzorca; vse podatke zmanjša na eno vrednost in s pomočjo standardne distribucije omogoča ponovno ustvarjanje "virtualne populacije".

Študentski test ima določeno ceno: domnevati morate, da je vaša populacija "parametrična", "normalna", tj. Da jo je mogoče razlagati z normalno porazdelitvijo (distribucija iger s pikado, glej glosar).

Drugič, ta test ocenjuje, ali lahko statistični podatki, ki izhajajo iz naših podatkov, razumno izvirajo iz porazdelitve, ki jo določa naša prvotna predpostavka. To načelo je v središču izračuna p-vrednost. Slednje je verjetnost pridobitve naše testne statistike, če je začetna predpostavka, ničelna hipoteza je bila resnična (v zgornjem primeru je srednja višina drevesa enaka 0).

Kaj vidimo v rezultatih testa? t-statistika je enako 66,41 pri 30 stopinjah svobode (df (= 30 )). Vrednost P je res nizka ( (2,2 krat e ^ {- 16} )), skoraj nič in zagotovo veliko nižja od "svete" stopnje zaupanja 0,05.

Zato zavrnemo nično hipotezo, ali naša začetna predpostavka, da je srednja višina drevesa enaka 0, zato pojdimo z alternativna hipoteza kar je logično nasprotje naše začetne predpostavke (tj. »višina je ne enako 0 "):

Vendar pa je v tem trenutku resnično pomembno interval zaupanja—Razpon, v katerega bi morala resnična povprečna populacija pasti z določeno verjetnostjo (95%). Tu je ozek in obsega od 73,7 do 78,3 in ne vključuje ničle. Zadnje spet pomeni, da nična hipoteza ni podprta.

Če se vaši podatki ob običajni distribuciji ne obnesejo, potrebujete bolj univerzalni (vendar manj zmogljivi) Wilcoxon test z vsoto rangov Uporablja mediana namesto povprečja za izračun testne statistike V. Naša nična hipoteza bo to mediana prebivalstva je enaka nič:

Koda ( PageIndex {2} ) (R):

(Ne upoštevajte opozorilnih sporočil, v njih preprosto pišejo, da so naši podatki povezani: dve plači sta enaki.)

Tu bomo tudi z visoko stopnjo gotovosti zavrnili svojo ničelno hipotezo. Posredovanje argumenta conf.int = TRUE bo vrnilo interval zaupanja za mediano populacije - je širok (ker je velikost vzorca majhna), vendar ne vključuje ničle.


8.6 Interval zaupanja (ženske višine)

Kot sodelavec Amazon zaslužimo s kvalificiranimi nakupi.

Ali želite knjigo citirati, deliti ali spremeniti? Ta knjiga je licenca Creative Commons Attribution 4.0 in morate ji dodeliti OpenStax.

    Če v celoti ali delno distribuirate to knjigo v tiskani obliki, morate na vsaki fizični strani vključiti naslednje atribucije:

  • Za ustvarjanje navedbe uporabite spodnje podatke. Priporočamo uporabo orodja za citiranje, kot je to.
    • Avtorji: Barbara Illowsky, Susan Dean
    • Založnik / spletno mesto: OpenStax
    • Naslov knjige: Uvodna statistika
    • Datum objave: 19. september 2013
    • Lokacija: Houston, Teksas
    • URL knjige: https://openstax.org/books/introductory-statistics/pages/1-introduction
    • URL odseka: https://openstax.org/books/introductory-statistics/pages/8-6-confidence-interval-womens-heights

    © 19. maj 2021 OpenStax. Vsebina učbenikov, ki jo proizvaja OpenStax, je licencirana pod licenco Creative Commons Attribution License 4.0. Za ime OpenStax, logotip OpenStax, naslovnice knjig OpenStax, ime OpenStax CNX in logotip OpenStax CNX ne velja licenca Creative Commons in jih ni dovoljeno reproducirati brez predhodnega in izrecnega pisnega soglasja Rice University.


    Kaj vse boste našli v tej knjigi zyBook:

    Več akcije z manj besedila.

    • Izjemno namenjen študentom uvod v uporabno statistiko.
    • Tradicionalno težke teme so lažje z uporabo animacij in učnih vprašanj.
    • Vključenih je več poglavij o analitiki podatkov in algoritmih podatkovnega rudarjenja.
    • Vseskozi so na voljo okolja za kodiranje Pythona, ki študentom omogočajo eksperimentiranje.
    • Samodejno razvrščene programske dejavnosti so vključene z uporabo vgrajenega programskega okolja.
    • Običajno v kombinaciji z & # 8220Applied Regression Analysis & # 8221 s številnimi možnimi konfiguracijami.

    Inštruktorji: Vas zanima ocena te knjige zyBook za vaš razred? Prijavite se na brezplačni preizkus in si oglejte prvo poglavje katere koli knjige zyBook še danes!


    10.2 Velikosti učinkov

    »Statistični pomen je najmanj zanimiv pri rezultatih. Rezultate bi morali opisati z merili velikosti - ne samo, ali zdravljenje vpliva na ljudi, ampak koliko vpliva nanje. " Gene Glass, citirano v (Sullivan in Feinn 2012)

    V prejšnjem poglavju smo razpravljali o zamisli, da statistična pomembnost morda ne odraža nujno praktične pomembnosti. Za razpravo o praktičnem pomenu potrebujemo standardni način za opis velikosti učinka z dejanskimi podatki, ki jih imenujemo velikost učinka. V tem poglavju bomo predstavili koncept in razpravljali o različnih načinih izračunavanja velikosti učinkov.

    Velikost učinka je standardizirana meritev, ki primerja velikost nekega statističnega učinka z referenčno količino, na primer s spremenljivostjo statistike. Na nekaterih področjih znanosti in tehnike se ta ideja imenuje "razmerje signal / šum". Obstaja veliko različnih načinov za določanje velikosti učinka, ki so odvisni od narave podatkov.

    10.2.1 Cohenov D

    Eno najpogostejših meril velikosti učinka je znano kot Cohenovo d, poimenovan po statistiku Jacobu Cohenu (ki je najbolj znan po članku iz leta 1994 z naslovom "Zemlja je okrogla (p & lt .05)"). Uporablja se za količinsko opredelitev razlike med dvema sredinama glede na njihov standardni odklon:

    kjer je ( bar_1 ) in ( vrstica_2 ) so srednji vrednosti obeh skupin, (s ) pa združeni standardni odklon (ki je kombinacija standardnih odklonov za dva vzorca, ponderirana glede na velikost vzorcev):

    [s = sqrt < frac <(n_1 - 1) s ^ 2_1 + (n_2 - 1) s ^ 2_2>> ] pri čemer sta (n_1 ) in (n_2 ) velikosti vzorcev, (s ^ 2_1 ) in (s ^ 2_2 ) pa standardni odkloni za obe skupini. Upoštevajte, da je to po duhu zelo podobno statistiki t - glavna razlika je, da imenovalec v statistiki t temelji na standardni napaki povprečja, medtem ko imenovalec v Cohenovem D temelji na standardnem odklonu podatkov. To pomeni, da medtem ko bo statistika t naraščala, ko bo velikost vzorca večja, bo vrednost Cohenovega D ostala enaka.

    Tabela 10.1: Interpetacija Cohenovega D
    D Tolmačenje
    0.0 - 0.2 zanemarljivo
    0.2 - 0.5 majhna
    0.5 - 0.8 srednje
    0.8 - velik

    Obstaja pogosto uporabljena lestvica za razlago velikosti učinka v smislu Cohenovega d, prikazana v tabeli 10.1. Koristno je preučiti nekatere splošno razumljive učinke, da bi lažje razumeli te razlage. Na primer, velikost učinka za razlike med spoloma v višini odraslega (d = 2,05) je zelo velika glede na zgornjo tabelo. To lahko vidimo tudi, če pogledamo porazdelitev moške in ženske višine v vzorcu iz nabora podatkov NHANES. Slika 10.3 prikazuje, da sta porazdelitvi precej dobro ločeni, čeprav se še vedno prekrivata, in poudarja dejstvo, da bodo tudi, če bo razlika med skupinama zelo velika, posamezniki iz vsake skupine bolj podobni drugi skupini. .

    Slika 10.3: Zglajeni grafikoni histogramov za višino moških in žensk v naboru podatkov NHANES, ki kažejo jasno ločene, a tudi jasno prekrivajoče se porazdelitve.

    Omeniti velja tudi, da se v znanosti redko srečujemo z učinki te velikosti, deloma zato, ker gre za tako očitne učinke, da za njihovo iskanje ne potrebujemo znanstvenih raziskav. Kot bomo videli v 17. poglavju o ponovljivosti, zelo veliki učinki, o katerih poročajo v znanstvenih raziskavah, pogosto odražajo uporabo vprašljivih raziskovalnih praks in ne resnično velikih učinkov v naravi. Omeniti velja tudi, da se tudi pri tako velikem učinku obe porazdelitvi še vedno prekrivata - nekaj bo samic, ki so višje od povprečnega moškega in obratno. Za najbolj zanimive znanstvene učinke bo stopnja prekrivanja veliko večja, zato ne bi smeli takoj preiskovati močnih sklepov o posameznikih iz različnih populacij, ki temeljijo tudi na velikosti učinka.

    10.2.2 Pearsonov r

    Pearsonovo r, znan tudi kot korelacijski koeficient, je merilo jakosti linearnega razmerja med dvema zveznima spremenljivkama. V korelaciji bomo veliko podrobneje obravnavali v 13. poglavju, zato bomo podrobnosti za to poglavje shranili tukaj, preprosto uvedemo r kot način za kvantificiranje razmerja med dvema spremenljivkama.

    r je mera, ki se spreminja od -1 do 1, kjer vrednost 1 predstavlja popolno pozitivno razmerje med spremenljivkami, 0 ne predstavlja nobenega razmerja in -1 predstavlja popolno negativno razmerje. Slika 10.4 prikazuje primere različnih stopenj korelacije z uporabo naključno generiranih podatkov.

    Slika 10.4: Primeri različnih ravni Pearsonovega r.

    10.2.3 Razmerje verjetnosti

    V prejšnji razpravi o verjetnosti smo razpravljali o konceptu verjetnosti - to je relativni verjetnosti, da se kak dogodek zgodi in ne zgodi:

    Prav tako smo razpravljali o razmerje obetov, kar je preprosto razmerje med dvema kvotama. Razmerje verjetnosti je koristen način za opis velikosti učinkov binarnih spremenljivk.

    Na primer, vzemimo primer kajenja in pljučnega raka. Študija, objavljena v International Journal of Cancer leta 2012 (Pesch in sod. 2012), je združevala podatke o pojavu pljučnega raka pri kadilcih in posameznikih, ki nikoli niso kadili v številnih različnih študijah. Upoštevajte, da ti podatki izhajajo iz študij o kontroli primerov, kar pomeni, da so bili udeleženci v študijah rekrutirani, ker so bodisi imeli ali niso imeli raka, nato pa so preučili njihov status kajenja. Te številke (prikazane v tabeli 10.2) torej ne predstavljajo razširjenosti raka med kadilci v splošni populaciji - lahko pa nam povedo o povezavi med rakom in kajenjem.

    Tabela 10.2: Pojav pljučnega raka ločeno za sedanje kadilce in tiste, ki nikoli niso kadili
    Stanje NeverSmoked CurrentSmoker
    Brez raka 2883 3829
    Rak 220 6784

    Te številke lahko pretvorimo v razmerja verjetnosti za vsako skupino. Verjetnost, da ima nekadilec pljučni rak 0,08, verjetnost, da ima sedanji kadilec pljučni rak, 1,77. Razmerje teh verjetnosti govori o relativni verjetnosti raka med obema skupinama: Razmerje verjetnosti 23,22 nam pove, da je verjetnost pljučnega raka pri kadilcih približno 23-krat večja kot pri nekadilcih.


    Praktična ekonometrija in znanost o podatkih

    Nadaljevali bomo s preučevanjem univariatnega modela linearne regresije: [ mathbf = mathbf boldsymbol < beta> + boldsymbol < varepsilon> ] in predpostavimo, da predpostavke (UR.1) - (UR.4) počakajte

    V tem poglavju bomo predstavili pojem ocena intervala - postopek za ustvarjanje obsegov vrednosti, imenovan intervali zaupanja, v katerem so verjetno neznani parametri. Postopki ustvarjanja intervala zaupanja so v veliki meri odvisni od tega (UR.4) predpostavka.

    3.5.1 Ocena intervala za parametre

    Spomnimo se, da smo v oddelku 3.2 uporabili OLS za oceno neznanega vektorja parametra: [ widehat < boldsymbol < beta >> = left ( mathbf^ top mathbf desno) ^ <-1> mathbf^ top mathbf ] Pokličejo se ocene ( widehat < boldsymbol < beta >> ) točkovne ocene - preko OLS dobimo eno vrednost za vsak parameter. V nasprotju intervalne ocene so obsegi vrednot, pri katerih je prav parametra ( beta_0 ) in ( beta_1 ) bosta verjetno padla (ocene intervalov se izračunajo ločeno za vsak koeficient). Intervalna ocena nam ne omogoča le, da ocenimo, katere druge možne vrednosti bi lahko dobili, ampak tudi natančnost s katero se ocenjujejo trenutni parametri. Te intervalne ocene so znane tudi kot intervali zaupanja.

    Kot smo omenili v poglavju 3.4, če predpostavke (UR.1) - (UR.4) drži res, potem imajo ocenjevalci OLS normalno pogojno porazdelitev: [ širok krog < boldsymbol < beta >> | mathbf sim mathcal left ( boldsymbol < beta>, sigma ^ 2 left ( mathbf^ top mathbf desno) ^ <-1> desno) ] Če se spomnite, smo v oddelku 3.4 omenili tudi, kako lahko standardizirati katero koli normalno porazdelitev z odštevanjem njene srednje vrednosti (v našem primeru ( mathbb( widehat < beta> _i) = beta_i ), (i = 0,1 )) in delitev s standardnim odklonom: [Z_i = dfrac < widehat < beta> _i - beta_i> < sqrt << mathbb< rm ar >> ( mathbf < widehat < beta> _i>) >> sim mathcal(0, 1) ] Upoštevajte, da distribucija (Z_i ) ni pogojena z (X ). To pomeni, da nam, ko dajemo izjave o (Z_i ), ni treba skrbeti, ali je (X ) naključna spremenljivka ali ne.

    Ker (Z_i sim mathcal(0,1) ), lahko uporabimo tabelo običajnih verjetnosti iz katere koli statistične knjige ali na spletu in imamo: [ mathbb

    (-1,96 leq Z_i leq 1,96) = 0,95 ] Če nadomestimo izraz (Z_i ), dobimo: [ begin mathbb

    levo (-1,96 leq dfrac < widehat < beta> _i - beta_i> < sqrt << mathbb< rm ar >> ( mathbf < widehat < beta> _i>) >> leq 1,96 desno) & amp = 0,95 konec ], ki jih lahko prepišemo kot:

    [ mathbb

    levo ( widehat < beta> _i - 1,96 sqrt << mathbb< rm ar >> ( mathbf < widehat < beta> _i>)> leq beta_i leq widehat < beta> _i +1,96 sqrt << mathbb< rm ar >> ( mathbf < widehat < beta> _i>)> desno) = 0,95 ] To določa interval, ki ima 0,95 verjetnosti, da vsebuje parameter ( beta_i ). Z drugimi besedami, končne točke: [ widehat < beta> _i pm 1.96 sqrt << mathbb< rm ar >> ( mathbf < widehat < beta> _i>)>, quad i = 0,1 ] poda intervalni ocenjevalec. Če na ta način konstruiramo intervale z uporabo vsi možni vzorci velikosti (N ) iz populacije, bo (95 \% ) intervalov vseboval pravi parameter ( beta_i ), (i = 0, 1 ) . Upoštevajte, da to predpostavlja poznamo resnično varianco ( mathbb < rm ar> ( mathbf < widehat < beta> _i>) ).

    Kot smo že omenili, ne poznamo prave variance izraza napake v: [ mathbb < rm ar> ( widehat < boldsymbol < beta >>) = začetek mathbb < rm ar> ( widehat < beta> _0) & amp mathbb < rm ov> ( widehat < beta> _0, widehat < beta> _1) mathbb < rm ov> ( widehat < beta> _1, widehat < beta> _0) & amp mathbb < rm ar> ( widehat < beta> _1) konec = sigma ^ 2 levo ( mathbf^ top mathbf desno) ^ <-1> ]

    lahko pa ga ocenimo. Vendar ocena in zamenjava ( widehat < sigma> ^ 2 ) namesto ( sigma ^ 2 ) spremeni verjetnostno porazdelitev (Z_i ) iz standardne normalne v (t ) - distribucija z (N-2 ) stopnje svobode: [t_i = dfrac < widehat < beta> _i - beta_i> < text( widehat < beta> _i)> sim t_ <(N-2)> ] kjer ( besedilo( widehat < beta> _i) = sqrt < widehat < mathbb< rm ar >> ( mathbf < widehat < beta> _i>)> ). To je znano kot t-razmerje (ali t-statistika) in je osnova za ocena intervala in preverjanje hipotez v univariatni linearni regresijski model.

    Dokaz. Dokaz za to je razvidno iz dejstva, da:

    [ začeti epsilon_i sim mathcal(0, sigma ^ 2) iff dfrac < epsilon_i> < sigma> sim mathcal(0,1) konec ] potem ima vsota neodvisnih standardiziranih ostankov na kvadrat porazdelitev hi-kvadrat s stopnjami svobode (N ): [ sum_^ N levo ( dfrac < epsilon_i> < sigma> desno) ^ 2 sim chi ^ 2_N ] Ker resničnih napak ni mogoče opaziti, jih nadomestimo z ostanki OLS, nato naključno spremenljivko ( widehat < sigma> ^ 2 ) ima hi-kvadrat porazdelitev s stopnjami svobode (N-2 ): [V = dfrac < sum_^ N widehat < epsilon> ^ 2_i> < sigma ^ 2> = dfrac <(N-2) widehat < sigma> ^ 2> < sigma ^ 2> = levo ( dfrac< sigma ^ 2> desno) widehat < sigma> ^ 2 sim chi ^ 2_ ] Iz predhodno določenega (Z_i sim mathcal(0,1) ) in na novo definirani (V sim chi ^ 2_) lahko določimo naslednjo naključno spremenljivko: [t_i = dfrac< sqrt> sim t_ <(N-2)> ], ki nadomešča izraza (Z_i ) in (V ), lahko pokažemo, da: [t_i = dfrac < widehat < beta> _i - beta_i> < besedilo( widehat < beta> _i)> ]

    Za 95. percentil (t ) -razdelitve z (N-2 ) stopnjami svobode ima vrednost (t _ <(0,95, N-2)> ) lastnost, ki (0,95 ) od verjetnost pade na levo: ( mathbb

    levo (t_ <(N-2)> leq t_ <(0,95, N-2)> desno) = 0,95 ), pri čemer je (t _ <(N-2)> ) iz (t ) -razdelitev z (N-2 ) stopnjami svobode.

    Če pogledamo statistično tabelo percentilskih vrednosti za (t ) -razdelitev, lahko najdemo kritična vrednost (t_c ), tako da: [ mathbb

    (t_i geq t_c) = mathbb

    (t_i leq -t_c) = dfrac < alpha> <2> ], kjer je ( alpha ) verjetnost, običajno ( alpha = 0,01 ), ( alpha = 0,05 ) ali ( alfa = 0,1 ). Kritična vrednost (t_c ) za (N-2 ) stopinj svobode je percentil vrednost (t ) -razdelitve (t _ <(1- alpha / 2, N-2)> ).


    15.6 Primerjava več kot dveh načinov

    Pogosto želimo primerjati več kot dva načina, da ugotovimo, ali se katero od njih razlikuje. Recimo, da analiziramo podatke iz kliničnega preskušanja za zdravljenje visokega krvnega tlaka. V študiji so prostovoljci randomizirani na enega od treh pogojev: zdravilo 1, zdravilo 2 ali placebo. Ustvarimo nekaj podatkov in jih narišemo (glej sliko 15.4)

    Slika 15.4: Škatle s prikazom krvnega tlaka za tri različne skupine v našem kliničnem preskušanju.

    15.6.1 Analiza variance

    Najprej bi radi preizkusili nično hipotezo, da so sredstva vseh skupin enaka - torej nobeno od zdravljenj ni imelo nobenega učinka v primerjavi s placebom. To lahko storimo z metodo, imenovano analiza variance (ANOVA). To je ena najpogosteje uporabljenih metod v psihološki statistiki in tukaj bomo le opraskali površino. Osnovna ideja, ki stoji za ANOVA, je tista, o kateri smo že govorili v poglavju o splošnem linearnem modelu, v resnici pa je ANOVA le ime za določeno različico takega modela.

    Iz zadnjega poglavja ne pozabite, da lahko razdelimo celotno varianco podatkov ( (SS_)) v varianco, ki jo razlaga model ( (SS_)) in varianco, ki ni ( (SS_)). Nato lahko izračunamo a srednji kvadrat za vsako od teh z delitvijo po stopnjah svobode za napako je to (N - p ) (kjer je (p ) število sredstev, ki smo jih izračunali), za model pa je ( p - 1 ):

    Z ANOVO želimo preizkusiti, ali je varianca, ki jo upošteva model, večja od tiste, ki bi jo pričakovali po naključju, pod ničelno hipotezo, da ni razlik med sredstvi. Medtem ko je za porazdelitev t pričakovana vrednost v ničelni hipotezi enaka nič, tu ni tako, saj so vsote kvadratov vedno pozitivna števila. Na srečo obstaja še ena teoretična porazdelitev, ki opisuje, kako se razmerja vsot kvadratov porazdelijo pod nično hipotezo: F porazdelitev (glej sliko 15.5). Ta porazdelitev ima dve stopnji svobode, ki ustrezata stopnjama svobode števca (ki je v tem primeru model) in imenovalca (kar je v tem primeru napaka).

    Slika 15.5: Porazdelitve F pod ničelno hipotezo za različne vrednosti stopenj svobode.

    Da bi ustvarili model ANOVA, razširimo idejo navidezno kodiranje s katerimi ste se srečali v zadnjem poglavju. Ne pozabite, da smo za t-test, ki je primerjal dve sredstvi, ustvarili eno preskusno spremenljivko, ki je za enega od pogojev sprejela vrednost 1, za ostale pa nič. Tu razširimo to idejo z ustvarjanjem dveh navideznih spremenljivk, ena, ki kodira pogoj Drug 1 in druga, ki kodira pogoj Drug 2. Tako kot v t-testu bomo imeli en pogoj (v tem primeru placebo), ki nima navidezne spremenljivke, in tako predstavlja izhodišče, na podlagi katerega se primerjajo drugi, njegovo povprečje določa presek modela. Z uporabo lažnega kodiranja zdravil 1 in 2 lahko prilagodimo model, ki uporablja enak pristop kot v prejšnjem poglavju:

    Rezultat tega ukaza nam ponuja dve stvari. Najprej nam pokaže rezultat t-testa za vsako preskusno spremenljivko, ki nam v bistvu pove, ali se vsak pogoj ločuje od placeba. Zdi se, da se zdravilo 1 razlikuje, medtem ko zdravilo 2 ne. Vendar ne pozabite, da bi morali, če bi želeli interpretirati te teste, popraviti vrednosti p, da bi upoštevali dejstvo, da smo opravili več testov hipotez, bomo v naslednjem poglavju videli primer, kako to storiti.

    Ne pozabite, da je bila hipoteza, ki smo jo začeli želeti preizkusiti, ali obstaja kakšna razlika med katerim koli pogojem, ki ga navajamo kot omnibus test hipoteze, in to je test, ki ga zagotavlja statistika F. Statistika F nam v bistvu pove, ali je naš model boljši od preprostega modela, ki vključuje samo prestrezanje. V tem primeru vidimo, da je test F zelo pomemben, kar se sklada z našim vtisom, da se zdi, da obstajajo razlike med skupinami (za katere v resnici vemo, da so bile, ker smo ustvarili podatke).


    Interval zaupanja z normalno porazdelitvijo / Z-porazdelitvijo

    Primer si oglejte v videoposnetku:

    Če ne poznate povprečja populacije (& mu), vendar poznate standardni odklon (& sigma), lahko najdete interval zaupanja za povprečje prebivalstva s formulo:
    x & # 772 & plusmn z * & sigma / (& & radicn),

    Primer težave: Zgradite 95-odstotni interval zaupanja, poskus, ki je ugotovil, da je bila povprečna temperatura vzorca za določeno mesto avgusta 101,82, s standardnim odklonom populacije 1,2. V tem poskusu je bilo 6 vzorcev.

    Korak 1: Odštejte stopnjo zaupanja (v vprašanju je 95 odstotkov) in rezultat razdelite na dva. To je vaša raven alfa, ki predstavlja območje v enem repu.
    (1 – .95) / 2 = .025

    2. korak: Odštejte svoj rezultat od 1. koraka od 1 in nato poglejte to območje na sredini z-tabele, da dobite z-rezultat:

    3. korak: Številke priklopite v drugi del formule in rešite:
    z * & sigma / (& & radicn)
    = 1,96 * 1,2 / & radič (6)
    = 1.96 * 0.49
    = 0.96

    4. korak: Za spodnji del območja od povprečja odštejte 3. korak.
    101.82 – 0.96 = 100.86

    5. korak: Za zgornji konec obsega srednji vrednosti dodajte korak 3.
    101.82 + 0.96 = 102.78.


    Razumevanje intervala zaupanja

    Intervali zaupanja merijo stopnjo negotovosti ali gotovosti pri vzorčenju. Zavzamejo lahko poljubno število verjetnostnih omejitev, najpogostejša pa je 95% ali 99% stopnja zaupanja. Intervali zaupanja se izvajajo s statističnimi metodami, kot je t-test.

    Statistiki uporabljajo intervale zaupanja za merjenje negotovosti v vzorčni spremenljivki. Raziskovalec na primer naključno izbere različne vzorce iz iste populacije in izračuna interval zaupanja za vsak vzorec, da ugotovi, kako lahko predstavlja resnično vrednost spremenljivke populacije. Nastali nabori podatkov so različni, nekateri intervali vključujejo pravi parameter populacije, drugi pa ne.

    Interval zaupanja je obseg vrednosti, omejen nad in pod statistično sredino, ki bi verjetno vseboval neznan parameter populacije. Stopnja zaupanja se nanaša na odstotek verjetnosti ali gotovosti, da bo interval zaupanja vseboval pravi parameter populacije, ko večkrat narišete naključni vzorec. Ali v domačem jeziku "smo 99% prepričani (stopnja zaupanja) da je večina teh vzorcev (intervali zaupanja) vsebujejo pravi parameter populacije. "

    Največja napačna predstava o intervalih zaupanja je, da predstavljajo odstotek podatkov iz določenega vzorca, ki pade med zgornjo in spodnjo mejo. Na primer, nekdo bi lahko napačno razlagal zgoraj omenjeni 99-odstotni interval zaupanja od 70 do 78 palcev, kot da kaže, da 99% podatkov v naključnem vzorcu pade med te številke. To ni pravilno, čeprav za takšno določitev obstaja ločena metoda statistične analize. Pri tem gre za opredelitev povprečne vrednosti in standardnega odklona vzorca ter risanje teh številk na zvonasto krivuljo.

    Zaupanje interval in zaupanje ravni so medsebojno povezani, vendar niso popolnoma enaki.


    9.1 Matrični pristop k regresiji

    V našem zgornjem primeru smo uporabili dve napovedni spremenljivki, vendar bo treba le malo več dela, da omogočimo poljubno število napovedovalnih spremenljivk in dobimo njihove ocene koeficientov. Upoštevamo lahko model,

    [Y_i = beta_0 + beta_1 x_ + beta_2 x_ + cdots + beta_ x_ + epsilon_i, qquad i = 1, 2, ldots, n ]

    kjer je ( epsilon_i sim N (0, sigma ^ 2) ). V tem modelu obstajajo napovedovalne spremenljivke (p - 1 ), (x_1, x_2, cdots, x_). Za varianco napak obstaja skupaj (p ) ( beta ) -parametrov in en parameter ( sigma ^ 2 ). (Upoštevati je treba, da bodo avtorji skoraj tako pogosto uporabili (p ) kot število napovedovalcev, s čimer bodo ustvarili skupno število ( beta ) parametrov (p + 1 ). To je vedno nekaj, kar bi morali bodite pozorni na branje o večkratni regresiji. Ni standarda, ki bi bil najpogosteje uporabljen.)

    Če bi linearne enačbe (n ), ki predstavljajo vsako (Y_i ), zložili v vektor stolpca, bi dobili naslednje.

    [ začeti Y_1 Y_2 vdots Y_n konec = začetek 1 & amp x_ <11> & amp x_ <12> & amp cdots & amp x_ <1 (p-1)> 1 & amp x_ <21> & amp x_ <22> & amp cdots & amp x_ <2 (p-1)> vdots & amp vdots & amp vdots & amp & amp vdots 1 & amp x_ & amp x_ & amp cdots & amp x_ konec začeti beta_0 beta_1 beta_2 vdots beta_ konec + začetek epsilon_1 epsilon_2 vdots epsilon_n konec ]

    [Y = začetek Y_1 Y_2 vdots Y_n konec, quad X = začetek 1 & amp x_ <11> & amp x_ <12> & amp cdots & amp x_ <1 (p-1)> 1 & amp x_ <21> & amp x_ <22> & amp cdots & amp x_ <2 (p-1)> vdots & amp vdots & amp vdots & amp & amp vdots 1 & amp x_ & amp x_ & amp cdots & amp x_ konec, quad beta = začetek beta_0 beta_1 beta_2 vdots beta_ konec, quad epsilon = začetek epsilon_1 epsilon_2 vdots epsilon_n end ]

    [y = začetek y_1 y_2 vdots y_n end ]

    Tako kot prej lahko tudi ( beta ) ocenimo tako, da minimiziramo,

    [f ( beta_0, beta_1, beta_2, cdots, beta_) = vsota_^(y_i - ( beta_0 + beta_1 x_ + beta_2 x_ + cdots + beta_ x_))^2, ]

    kar bi zahtevalo jemanje izpeljank (p ), kar ima za posledico naslednje normalne enačbe.

    Normalne enačbe lahko v matričnem zapisu zapišemo veliko bolj jedrnato,

    Ta izraz lahko nato rešimo tako, da obe strani pomnožimo z obratno vrednostjo (X ^ top X ), ki obstaja, če so stolpci (X ) linearno neodvisni. Nato kot vedno svojo rešitev označimo s klobukom.

    [ klobuk < beta> = levo (X ^ zgoraj X desno) ^ <-1> X ^ zgoraj y ]

    Da bi preverili, da je to R storil za nas v primeru dveh napovedovalcev, ustvarimo matriko (X ). Upoštevajte, da so v prvem stolpcu vsi 1, preostali stolpci pa vsebujejo podatke.

    [ klobuk < beta> = začetek -14,6376419 -0,0066349 0,761402 konec ]

    V našem novem zapisu lahko vpišemo vgrajene vrednosti

    Nato lahko ustvarimo vektor za preostale vrednosti,

    [e = začetek e_1 e_2 vdots e_n end = začetek y_1 y_2 vdots y_n end - začeti klobuk_1 klobuk_2 vdots klobuk_n end. ]

    In nazadnje lahko posodobimo oceno za ( sigma ^ 2 ).

    Spomnimo se, ta ocena nam je všeč, ker je nepristranska, to je

    Upoštevajte, da je sprememba ocene SLR do zdaj v imenovalcu. Zdaj delimo z (n - p ) namesto z (n - 2 ). Ali pravzaprav bi morali opozoriti, da v primeru zrcalno-refleksnih slik obstajata dva parametra ( beta ) in s tem (p = 2 ).

    Upoštevajte tudi, da če ustrezimo modelu (Y_i = beta + epsilon_i ), ta ( hat = bar) in (p = 1 ) in (s_e ^ 2 ) bi postala

    kar je verjetno prvi vzorec standardnega odklona, ​​ki ste ga videli pri pouku matematične statistike. Enak razlog za (n - 1 ) v tem primeru je, da smo ocenili en parameter, zato izgubimo eno stopnjo svobode. Zdaj na splošno ocenjujemo parametre (p ), parametre ( beta ), zato izgubimo (p ) stopnje svobode.

    Spomnimo se tudi, da nas bo najpogosteje zanimal (s_e ), preostala standardna napaka, kot jo imenuje R,

    V R smo lahko neposredno vstopili v (s_e ) za nameščen model, kot smo videli že prej.

    In zdaj lahko preverimo, ali naša matematika res izračuna enake količine.


    10.3 Statistična moč

    Ne pozabite iz prejšnjega poglavja, da moramo v okviru pristopa testiranja hipotez Neyman-Pearson določiti stopnjo strpnosti do dveh vrst napak: lažnih pozitivnih rezultatov (ki so jih imenovali Napaka tipa I.) in lažne negative (ki so jih imenovali Napaka tipa II). Ljudje se pogosto močno osredotočajo na napake tipa I, ker se na lažno pozitivne trditve na splošno gleda kot na zelo slabo stvar, na primer zdaj diskreditirane trditve pobude: 1999, da je bil avtizem povezan s cepljenjem, je privedel do občutka proti cepivu, kar je povzročilo občutno povečanje otroških bolezni, kot so ošpice. Podobno ne želimo trditi, da zdravilo zdravi bolezen, če je v resnici ne. Zato je toleranca za napake tipa I na splošno nastavljena dokaj nizko, običajno na ( alpha = 0,05 ). Kaj pa napake tipa II?

    Koncept statistična moč je dopolnilo napake tipa II - to pomeni, da je verjetnost najti pozitiven rezultat glede na to, da obstaja:

    Drug pomemben vidik Neyman-Pearsonovega modela, o katerem zgoraj nismo razpravljali, je dejstvo, da moramo poleg določitve sprejemljivih ravni napak tipa I in tipa II opisati tudi specifično alternativno hipotezo - to je, kaj je velikost učinka, ki ga želimo zaznati? V nasprotnem primeru ne moremo razlagati ( beta ) - verjetnost, da bomo našli velik učinek, bo vedno večja od iskanja majhnega učinka, zato bo ( beta ) različna, odvisno od velikosti učinka, ki ga poskušajo zaznati.

    Na moč lahko vplivajo trije dejavniki:

    • velikost vzorca: večji vzorci zagotavljajo večjo statistično moč
    • velikost učinka: določena zasnova bo vedno imela večjo moč, da bo našla velik učinek kot majhen učinek (ker je iskanje večjih učinkov lažje)
    • Stopnja napak tipa I: Obstaja razmerje med napako tipa I in močjo, tako da (če so vse druge enake) zmanjšanje napake tipa I zmanjša tudi moč.

    To lahko vidimo s simulacijo. Najprej simulirajmo en sam poskus, v katerem s standardnim t-testom primerjamo sredstva dveh skupin. Spreminjali bomo velikost učinka (določen v smislu Cohenovega d), stopnjo napak tipa I in velikost vzorca ter za vsakega od njih preučili, kako vpliva na delež pomembnih rezultatov (tj. Moči). Slika 10.4 prikazuje primer, kako se moč spreminja v odvisnosti od teh dejavnikov.

    Slika 10.4: Rezultati simulacije moči, ki prikazuje moč kot funkcijo velikosti vzorca, velikosti učinka so prikazane v različnih barvah in alfa, prikazana kot vrsta črte. Standardno merilo 80% moči je prikazano s pikčasto črno črto.

    Ta simulacija nam kaže, da bomo tudi z velikostjo vzorca 96 imeli razmeroma malo moči, da bomo z ( alpha = 0,005 ) našli majhen učinek ( (d = 0,2 )). To pomeni, da bi bila študija, zasnovana za to, resnična jalovo - to pomeni, da je skoraj zagotovljeno, da ne bomo našli ničesar, tudi če resničen učinek te velikosti obstaja.

    There are at least two important reasons to care about statistical power, one of which we discuss here and the other of which we will return to in Chapter ??. If you are a researcher, you probably don’t want to spend your time doing futile experiments. However, running an underpowered study is essentially futile, because it means that there is a very low likelihood that one will find an effect, even if it exists.

    10.3.1 Power analysis

    Fortunately, there are tools available that allow us to determine the statistical power of an experiment. The most common use of these tools is in planning an experiment, when we would like to determine how large our sample needs to be in order to have sufficient power to find our effect of interest.

    Let’s say that we are interested in running a study of how a particular personality trait differs between users of iOS versus Android devices. Our plan is collect two groups of individuals and measure them on the personality trait, and then compare the two groups using a t-test. In order to determine the necessary sample size, we can use the pwr.t.test() function from the pwr library.

    This tells us that we would need at least 64 subjects in each group in order to have sufficient power to find a medium-sized effect. It’s always important to run a power analysis before one starts a new study, to make sure that the study won’t be futile due to a sample that is too small.

    It might have occurred to you that if the effect size is large enough, then the necessary sample will be very small. For example, if we run the same power analysis with an effect size of d=3, then we will see that we only need about 3 subjects in each group to have sufficient power to find the difference.

    However, it’s rare in science to be doing an experiment where we expect to find such a large effect – just as we don’t need statistics to tell us that 16-year-olds are taller than than 6-year-olds. When we run a power analysis, we need to specify an effect size that is plausible for our study, which would usually come from previous research. However, in Chapter ?? we will discuss a phenomenon known as the “winner’s curse” that likely results in published effect sizes being larger than the true effect size, so this should also be kept in mind.


    Poglej si posnetek: Інтервали - слуховий аналіз. гармонічно. мелодично (December 2021).