Návrat na detail prednášky / Stiahnuť prednášku / Univerzita veterinárneho lekárstva v Košiciach / VVL / Statistika
prednasky_stat1.doc (prednasky_stat1.doc)
Informatika a štatistika - prednáška 1
Obsah
- prednášajúci
- štatistika a jej základné pojmy
- predmet a úloha štatistiky
- základné pojmy v štatistike
- vyjadrovacie prostriedky v štatistike
- Literatúra
Prednášky : Ing. Jozef Kremeň 1hod./týždeň
Cvičenia : Ing. Jozef Kremeň 2hod./týždeň
MARCELA ACHARDA SA SPÝTALI, ČO SI MYSLÍ O LŽI.
POVEDAL:
LOŽ MÁ NEPRAVIDELNÉ STUPŇOVANIE.
PRVÝ STUPEŇ - LOŽ,
DRUHÝ - DIPLOMACIA,
TRETÍ - ŠTATISTIKA
Metódy štatistiky
Štatistika je
.....súbor metód, ktoré nám umožňujú vykonať rozumné rozhodnutia v prípade neistoty
......základom teórie rozhodovania
V minulosti byla statistika součástí nauky o státu - politické aritmetiky. Jejím základním rysem bylo vyčerpávající šetření. To jest šetření, která zahrnují každý případ. Základním převratem moderní historie statistiky je výběr a výběrové šetření. Moderní statistika klade důraz na analýzu výběrových šetření a ne na hromadná vyčerpávající šetření.
Statistika se zásadně zabývá hromadnými jevy. Ve výběru nejsou přesně zkoumány jednotlivé případy, věci nebo osoby, aby se zjistila jejich individuálnost, ale aby se zjistila existence nebo neexistence nějakého znaku.
Predmetom záujmu štatistiky nie sú jednotlivé izolované javy, ale javy hromadné pričom základným vyjadrovacím prostriedkom a zároveň cieľom je číslo.
Jednotlivé fázy (etapy) štatistického skúmania sú:
- ZISŤOVANIE ÚDAJOV
- ZHROMAŽĎOVANIE ÚDAJOV
- SPRACOVANIE ÚDAJOV
- ANALÝZA ÚDAJOV
Základné pojmy v štatistike
- Štatistická jednotka – základný prvok štat. skúmania
- Štatistický súbor – súbor štatistických jednotiek
- základný
- výberový
- Štatistický znaky – vlastnosť štat. jednotky
- zhodný štat. znak (určí objekt skúmania)
- triediaci štat. znak
-vecné
vymedzenie -priestorové
zhodných štat. znakov -časové
triediaci štat. znak -kvantitatívny -vyjadruje číslo -spojitý
-diskrétny
-kvalitatívny -vyjadruje slovo -alternatívny
-množný
4. Štatistický rad – usporiadaný štatistický súbor
- Rozsah štatistického súboru /n/ - počet jednotiek v súbore
Vyjadrovacie prostriedky v štatistike
- ukazovateľ -číslo
- štatistická tabuľka
-vecné
Nadpis /hľadisko: -priestorové/
-časové
Hlavička
Pole štat. tabuľky
- údaj nie je
x z logických dôvodov tam číslo nesmie byť
0,00 údaj existuje, ale na zvolené des. miesto je hodnota nulová
· údaj nie je zistený, ale môže sa zistiť
L
e
g
e
n
d
a
Sumárny riadok
- graf
-vecné
Nadpis /hľadisko: -priestorové/
-časové
-popularizačný: ide o pútavosť, nemusia byť presné
-výpočtové:
musia byť presné
Literatúra:
Biomatematika Ing. Miloš Poláček
Informatika a štatistika - prednáška 2
Obsah
- Pravdepodobnosť
- Diskrétne rozdelenia pravdepodobnosti
- Alternatívne rozdelenie
- Binomické rozdelenie
- Poissonovo rozdelenie
- Rovnomerné rozdelenie
Teória pravdepodobnosti vychádza z pojmu náhodného javu.
Náhodný jav je taký jav, ktorý v istom pokuse vykonanom pri určitých podmienkach môže nastať, ale nemusí nevyhnutne nastať.
2 definície: -klasická
-štatistická
-klasická definícia pravdepodobnosti :
2 podmienky -konečný počet možných výskytov
-každý z nich má rovnakú pravdepodobnosť
pravdepodobnosť javu A
P(A)=m/n m -počet priaznivých prípadov /výskyt javu A/
n -počet možných prípadov
-štatistická definícia pravdepodobnosti :
nie sú splnené vyššie spomenuté 2 podmienky
P(A)=mA/n mA -výskyt javu A
n -počet pokusov
relatívna početnosť
početnosť rastom n sa ustaľuje okolo nejakej konštanty; P(A) pravdepodobnosti
P0;1
P(0) – jav nemožný
P(1) – jav istý
Rozdelenie pravdepodobnosti
- Diskrétne rozdelenie pravdepodobnosti
- Spojité rozdelenie pravdepodobnosti
Diskrétne rozdelenia pravdepodobnosti
Rozdelenie pravdepodobnosti popisuje pravdepodobnostná funkcia.
Táto funkcia priraďuje každej hodnote xi náhodnej premennej pravdepodobnosť P(xi).
- alternatívne
- binomické
- Poissonovo
- rovnomerné
Alternatívne rozdelenie pravdepodobnosti
dva stavy 0 a 1
P(0) = p
P(1) = 1-p = q
Binomické rozdelenie pravdepodobnosti
parametre BR: p, q, n
f(x) – pravdepodobnosť v bode x
n – počet pokusov
x – výskyt nejakého javu (0,1,2,3,4,5....)
p – pravdepodobnosť nekvalitnej vlastnosti
q – pravdepodobnosť kvalitnej vlastnosti
- binomický koeficient
Poissonovo rozdelenie pravdepodobnosti
p 0,1 q 0,9 n 30
n.p =
Rovnomerné rozdelenie pravdepodobnosti
Ak náhodná veličina X nadobúda hodnoty xi s rovnakou pravdepodobnosťou tak hovoríme že veličina má rovnomerné rozdelenie pravdep.
napr. športka
Informatika a štatistika - prednáška 3
Obsah
- Spojité rozdelenia pravdepodobnosti
- Normálne (Gaussovo) rozdelenie
- χ2 – rozdelenie
- Studentovo t – rozdelenie
- Fischerovo - Snedecorovo F – rozdelenie
- Triedenie
- prosté
- rozdelenie početností
- intervalové rozdelenie početností
Spojité rozdelenie pravdepodobnosti
Rozdelenie pravdep. spojitej náhodnej veličiny popisujeme funkciou, ktorá sa nazýva hustota pravdepodobnosti.
- Normálne rozdelenie
- Studentovo t- rozdelenie
- 2 – rozdelenie
- Fischerovo – Snedecorovo F rozdelenie
Pravdepodobnosť že premenná x je z intervalu a1 a2
P(a1<x<a2) = p
je plocha, ktorú zhora ohraničuje krivka hustoty pravdepodobnosti na intervale a1, a2.
Normálne (Gaussovo) rozdelenie pravdepodobnosti
Hustota pravdepodobnosti normálneho rozdelenia je daná funkciou
Normálne rozdelenie má dva parametre, strednú hodnotu µ a smerodajnú odchýlku , skrátene N(µ,).
V štatistickej praxi sa náhodná premenná x s normálnym rozdelením transformuje na štandardnú normálnu premennú u. Hustota pravdepodobnosti nadobúda tvar:
2 – rozdelenie
Majme k nezávislých náhodných veličín Xi, z ktorých každá má normálne rozdelenie s parametrami =0 a =1. Súčet štvorcov týchto veličín označme
Takto utvorená náhodná premenná má 2 rozdelenie pravdepodobnosti. Premenná 2 je spojitá a nadobúda hodnoty z intervalu (0, +)
Studentovo rozdelenie
Studentovo rozdelenie má iba jeden parameter k.
Majme náhodnú premennú X, ktorá má normálne rozdelenie s parametrami =0 a =1, a druhú pramennú 2, ktorá má 2-rozdelenie s k stupňami voľnosti. Za predpokladu nezávislosti veličín X a 2 ich pomer vo forme:
sa nazýva Studentova premenná.
Studentovo rozdelenie pri k30 možno dobre aproximovať normovaným normálnym rozdelením
Fischerovo F – rozdelenie
Majme náhodnú premennú , ktorá má 2-rozdelenie s k1 stupňami voľnosti a druhú premennú, s 2-rozdelením s k2 stupňami voľnosti. Ich podiel:
je Fischerova náhodná premenná.
Parametre rozdelenia sú stupne voľnosti k1 a k2.
Triedenie
Triedenie podľa kvantitatívneho znaku resp. znakov je proces usporiadania jednotiek štatistického súboru do skupín (tried) podľa veľkosti triediaceho znaku resp. znakov
- Prosté triedenie
- Rozdelenie početnosti
- Intervalové rozdelenie početnosti
Prosté triedenie
- malý počet prvkov (meraní) v súbore
- prvky nadobúdajú rôzne číselné hodnoty
Usporiadame podľa veľkosti od najmenšej po najväčšiu hodnotu.
i | xi |
1 2 3
n | 9,5 10,7 12,8
15 |
Rozdelenie početnosti
- veľký počet prvkov
- prvky nadobúdajú malý počet obmien
Usporiadame do tried podľa obmien štatistického znaku. Počet prvkov (meraní) v jednej triede sa nazýva triedna početnosť a označujeme ju ni.
I | xi | čiarky | ni=n ni |
1 2 3 4 5
K | 8 9 10 11 12
xk | // / ///// //////// ///////////
/// | 2 1 5 Počet tried je daný počtom obmien štatistického znaku 8 11
3 |
| X | X | n |
Informatika a štatistika - prednáška 4
Obsah
- Intervalové rozdelenie početností
- Druhy početnosti
- absolútne poč.
- relatívne poč.
- absolútne kumulatívne poč.
- relatívne kumulatívne poč.
Intervalové rozdelenie početnosti
- veľký počet prvkov
- prvky nadobúdajú veľký počet obmien
Ak by sme zatriedili každú hodnotu do samostatného riadku dostali by sme veľký počet tried vzhľadom na rozsah súboru. Preto hodnoty súboru zatriedime do vytvorených intervalov s tým, že každý interval je reprezentovaný jednou hodnotou xi.
I | di | xi | hi | čiarky | ni=n ni |
1 2 3 4 5
K |
dk |
xk |
hk | // / ///// //////// ///////////
/// | 2 1 Počet tried je daný počtom obmien štatistického znaku 5 8 11
3 |
|
| X |
| X | n |
Postup pri triedení
1. Zvolíme počet tried k
2. Zvolíme šírku triedneho intervalu h
šírku triedneho intervalu zaokrúhlime vždy nahor
3. Výpočet stredov triednych intervalov- xi
stred prvej triedy zaokrúhlime nadol o približnú polovicu rozšírenia rozpätia xmax - xmin
4. Výpočet dolných hraníc triednych intervalov-di
dolnú hranicu 1. triedy zaokrúhlime nahor na najbližšie VP len vtedy ak je výpočet na viac des. miest.
5. Výpočet horných hraníc triednych intervalov-hi
6. Zistenie úplnosti triedenia
-jednoznačnosť
-úplnosť triedenia d1xmin a hkxmax
7. Zadelenie prvkov do tried
8. Zistenie triednych početností ni
Druhy početností
- absolútne početnosti n1, n2, n3, ... , ni, ..., nk
- relatívne početnosti
- absolútne kumulatívne početnosti N1, N2, N3, ... , Ni, ... , Nk
N1=n1
N2=N1+n2=n1+n2
N3=N2+n3=n1+n2+n3
.
Ni=Ni-1+ni=n1+n2+n3+...+ni
.
Nk=Nk-1+nk=n1+n2+n3+...+ni+...nk
- relatívne kumulatívne početnosti F1, F2, F3, ..., Fi, ..., Fk
i | xi | ni | fi | Ni | Fi |
1 | x1 | n1 | f1 | N1 | F1 |
2 | x2 | n2 | f2 | N2 | F2 |
. | . | . | . | . | . |
i | xi | ni | fi | Ni | Fi |
. | . | . | . | . | . |
k | xk | nk | fk | Nk=n | Fk=1,0000 |
∑ | × | n | 1,0000 | × | × |
Informatika a štatistika - prednáška 5
Obsah
Štatistické charakteristiky
- charakteristiky polohy (stredné hodnoty)
- charakteristiky rozptýlenia (miery variability)
Stredné hodnoty
- aritmetický priemer
- medián Me
- modus Mo
Aritmetický priemer
Medián Me
- je stredná hodnota, ktorá rozdeľuje štatistický súbor usporiadaný vzostupne na dve rovnaké polovice, z ktorých každá má rovnakú pravdepodobnosť výskytu
Me=xr kde
Pri intervalovom rozdelení početností vypočítame medián podľa vzťahu
A - dolná hranica mediánového intervalu
h - šírka mediánového intervalu
r - (n+1)/2
suma početností po mediánový interval
nMe početnosť mediánového intervalu
Modus Mo
- je stredná hodnota, ktorá sa v štat. súbore najčastejšie vyskytuje
1. v malom súbore nie je modus
2. vo veľkom je modus tá hodnota xi kde je najväčšia početnosť ni
3. pre intervalove rozdelenie početností
A- dolná hranica modálneho intervalu
h - šírka modálneho intervalu
d1 - rozdiel medzi početnosťou modálneho a predchádzajúceho intervalu
d2 - rozdiel medzi početnosťou modálneho a nasledujúceho intervalu
Ďalšie stredné hodnoty
- harmonický priemer
- geometrický priemer
Miery variability
1. variačné rozpätie R=xmax - xmin
2. priemerná odchýlka
3. rozptyl
alebo
4. smerodajná odchýlka
Podľa gaussovho rozdelenia pravdepodobnosti
v intervale sa nachádza
65% prvkov súboru
95% prvkov súboru
99,73% prvkov súboru
- variačné rozpätie
Informatika a štatistika - prednáška 6
Obsah
Odhad parametrov základného súboru
parametre základného súboru
N - rozsah základného súboru
- aritmetický priemer základného súboru
- smerodajná odchýlka základného súboru
parametre výberového súboru
n - rozsah výberového súboru
- aritmetický priemer výberového súboru
s - smerodajná odchýlka výberového súboru
vykonávame výber o rozsahu n=5
zo zákl. súboru
. . .. .. .. . . .. ... . . . ..
. . n . . . . .. .. . . . . . . . . .. . . ... ..
. .. .. .. .. .. . . . . . .. . .. . .. . .. .. . . . .. . . .
. .. .. . . . . n . . . . . .. . . . . .. . .. . .. . ... . . .. .
. . n . . . . . . . . . . . .. . .. .. . ... . .. . .. . .. . .
. . . . . . . . . . .. . . .. .. ... . .. .. .. . .. . . .
. . . . . . . . .. . . .. .. . . .. . .
základný súbor opakujeme proces rozdelenie pravdepod.
pozostáva z výberu nespočetne výberových arit. priem.
2 786 prvkov (napr.) krát
Nech je rozdelenie pravdepodobnosti základného súboru akékoľvek rozdelenie výberov bude normálne
so strednou hodnotou
a smerodajnou odchýlkou
Odhady parametrov zákl. súboru môžu byť bodové alebo intervalové
1. Bodový odhady
Každý z parametrov a základného súboru odhadneme jednou číselnou hodnotou.
odhad musí byť: - konzistentný
- neskreslený
- výdatný
2. Intervalový odhad
Intervalovým odhadom parametra zákl. súboru alebo sa nazýva odhad pomocou číselného intervalu, v ktorom sa odhadovaný parameter nachádza s určitou pravdepodobnosťou.
Plocha 0,95
Plocha 0,95=(1-α)
Plocha 0,05=α
µ
α=0,05
α=0,01
1. Ak poznáme σ, alebo ak rozsah súboru je n>100 intervalový odhad μ bude:
vo vzťahu σ nahradíme s - smerodajnou odchýlkou výb. súboru
ak α=0,05 u0.975=1.96
ak α=0,01 u0.995=2.58
2. Ak nepoznáme σ a rozsah súboru je malý potom intervalový odhad μ bude:
tα(ν) - kritická hodnota studentovho t - rozdelenia pre α=0,05 alebo 0,01 a danom počte stupňov voľnosti ν = n-1 (tab.č. III.)
α - hladina významnosti; je pravdepodobnosť s akou parameter do intervalu nepadne
(1- α) - je pravdepodobnosť s akou parameter do intervalu padne; ak danú hodnotu vynásobíme 100 číslo dostaneme v %.
ν – počet nezávisle voliteľných výsledkov
Intervalový odhad pre smerodajnú odchýlku
- kritická hodnota χ2 rozdelenia (tab.č. IV.)
α=0.05
α=0.01
Informatika a štatistika - prednáška 7
Obsah
TESTOVANIE
Účelom opisnej štatistiky je charakterizovať výbery pomocou kvantitatívnych charakteristík (napr. stredných hodnôt, rozptylu, korelačných koeficientov). Testovacia štatistika určuje, či sa tieto ukazovatele odlišujú „reálne“ alebo „náhodne“.
V testovacej štatistike formulujeme najprv štatistickú hypotézu. Je to predpoklad o vzájomnom vzťahu medzi výberovými ukazovateľmi.
Potom na základe výberového šetrenia testujeme , či táto hypotéza platí, alebo nie.
príklad :
V dvoch rovnako veľkých a výkonovo rovnakých triedach prebieha výuka gramatiky (vetný rozbor) podľa rozdielnych metodík, avšak pri rovnakom počte hodín. V triede K1 sa učia vetný rozbor pomocou algoritmickej schémy. V triede K2 sa vyučuje tradičnou metodikou. Pýtame sa, či tieto vyučovacie a cvičné metódy vedú k rozdielnym učebným výsledkom. Rozhodnutie sa má urobiť na základe priemerného počtu chýb žiakov v identických kontrolných prácach.
V triede K1 je priemerný počet chýb =15, v triede K2 =20 chýb. Výpočet týchto charakteristík je vecou opisnej štatistiky.
Testovacia štatistika sa pýta na „reálnosť“ rozdielu medzi ukazovateľmi obidvoch vzoriek. Môže sa zdať, že udaním priemerov obidvoch výberov je daná otázka už dostatočne zodpovedaná. Keďže v jednej triede sa vyskytlo viac chýb ako v druhej, možno sa domnievať, že výhodnosť modernej vyučovacej metódy sa preukázala.
Tento záver by bol unáhlený a možno aj nesprávny.
Takáto výpoveď je oprávnená iba vtedy, ak diferencia výberových priemerov chýb je skutočná čiže reálna.
O „reálny“ rozdiel ide vtedy, ak sú obidva výbery zo základných súborov s rozličnými parametrami (1,2).
Či je to tak, alebo nie, treba preveriť. Preto formulujeme predpoklad, že obidva výbery sú z jedného a toho istého základného súboru s parametrom . Táto domnienka je štatistickou hypotézou, ktorú treba testom preveriť.
Postup pri testovaní:
1. Hladina významnosti je pravdepodobnosť a akou zamietame nulovú hypotézu ak táto platí (ináč sa nazýva aj chyba 1. druhu)
=0,05
=0,01
2. Stanovenie nulovej hypotézy /pracovný predpoklad/
3. Výpočet testovacieho kritéria
je to číslo vypočítané podľa nejakého vzorca
napr. t, F, U, 2
4. Zistenie kritickej hodnoty
- je to tabelovaná hodnota
t, F, U, 2
tα(ν), Fα(ν1,ν2), Uα(n1,n2), χ2α(ν)
5. Testovanie
Porovnanie testovacieho kritéria s kritickou hodnotou
t < alebo >, tα(ν)
6. Interpretácia výsledku
napr. H0 – zamietame
H0 – prijímame
H0
|
platí
|
neplatí
|
prijímame |
1–α správne |
β chyba 2. druhu |
zamietame |
α chyba 1. druhu |
1-β správne |
α
β
1 - β
1 - α
H0 neplatí
H0 platí
OBLASŤ PRIJATIA OBLASŤ ZAMIETNUTIA
tα(ν)
ak znižujeme α zvyšujeme β a naopak
ideálne je keď α=0,05
keď α=0,01 životne dôležité testy
V odborných časopisoch a výskumných prácach sa pre stručnosť a úsporu miesta zaužívalo pri zvýrazňovaní empirických výsledkov
- najmä v obrázkoch a v tabuľkách - označovať tri hladiny významnosti skratkami alebo symbolmi.
Zvyčajné výrazové prostriedky sú zostavené takto:
|
|
|
|
|
Pravdepodobnosť chyby | >0.05 |
|
|
|
Slovné vyjadrenie
| nesignifi-kantná | signifikantná | vysoko signi- fikantná | veľmi vysoko signifikantná |
Písmenová symbolika | n. s. | s. | v. s. | v. v. s. |
Grafická symbolika |
| * | ** | *** |
Prijať hypotézu znamená iba ju uprednostniť pred ostatnými, a nie že túto hypotézu pokladáme za bezpodmienečne správnu..
Jednostranná a dvojstranná formulácia otázky
H0: μ = 150 dvojstranná formulácia otázky
H1: μ ≠ 150
0
+1,96
-1,96
α/2 = 0,025
α/2 = 0,025
obor prijatia
kritický obor
kritický obor
H0: μ = 150 jednostranná formulácia otázky
H1: μ > 150
α = 0,05
+1,64
0
kritický obor
obor prijatia
H0: μ = 150
H1: μ < 150
α = 0,05
-1,64
0
kritický obor
obor prijatia
u0,05;ds = 1,96 u0,05;js = 1,64
u0,01;ds = 2,58 u0,01;js = 2,33
Informatika a štatistika - prednáška 8
Obsah
Porovnanie dvoch nezávislých výberov z normálne rozdelených základných súborov
- Testovanie rozdielu dvoch aritmetických priemerov
(dvojvýberový Studentov t-test)
- Testovanie rozdielu dvoch rozptylov
(F – test)
- Testovanie rozdielu dvoch relatívnych hodnôt
(t-test dvoch relatívnych hodnôt)
Predpoklady použitia :
- nezávislosť a náhodnosť výberov
- výbery sú z normálne rozdelených zákl. súborov
Dvojvýberový Studentov t-test
- zhoda rozptylov
- nezhoda rozptylov
1. Výpočet t testovacieho kritéria ak
tab. IX
kritické hodnoty tα(ν) tab. III. pre
- α = 0,05
- α = 0,01
ν = n1+n2-2
2. Výpočet t testovacieho kritéria ak
kritická hodnota vypočítaná
kde : ν1 = n1-1
ν2 = n2-1
tα(ν1), tα(ν2) pre α=0,05 a 0,01 – krit. hod. studentovho
t-rozdelenia (tab. III)
Interpretácia
1. ak t < t0,05(ν)
H0 prijímame a sú štatisticky zhodné
[ - ], [ns] rozdiel je štat. nevýznamný
2. ak t0,05(ν) ≤ t < t0,01(ν)
H0 zamietame a nie sú štat. zhodné
[ * ], [ s. ], [ + ] rozdiel je štat. významný
3. ak t ≥ t0,01(ν)
H0 zamietame a nie sú štat. zhodné
[ ** ], [ v.s. ], [ ++ ] rozdiel je štat. vysoko významný
F-test (testovanie rozdielu dvoch rozptylov)
výpočet F testovacieho kritéria
alebo F > 1
kritické hodnoty :
ν1=n1-1 ν2=n2-1 ak >
ν1=n1-1 ν2=n2-1 ak >
Interpretácia
ak F < F0,025(ν1, ν2) H0 prijímame [ns] [-]
ak F0,025(ν1, ν2) ≤ F < F0,005(ν1, ν2) H0 zamietame [s.] [*] [+]
ak F ≥ F0,005(ν1, ν2) H0 zamietame [v.s.][**][++]
t-test dvoch relatívnych hodnôt
H0: f1=f2
relatívne hodnoty
testovacie kritérium
použitie testu len ak n1, n2 > 30 0,2≤ f1, f2 ≤ 0,8
kritické hodnoty: 1,96 ak α = 0,05
2,58 ak α = 0,01
Interpretácia
ak t < 1,96 H0 prijímame [ns] [-]
ak 1,96 ≤ t < 2.58 H0 zamietame [s.] [*] [+]
ak t ≥ 2,58 H0 zamietame [v.s.] [**] [++]
t-test pre párované hodnoty
Predpoklady použitia:
- závislosť výberov
- výbery sú z normálne rozdelených zákl. súborov
pokuse
napr. hladina cukru u zvierat pred
po
n – počet párov
H0 : μd = 0
testovacie kritérium
kde
di = x1i – x2i diferencie
kritická hodnota tα(ν) tab. III
ν = n-1
Interpretácia
ak t < t0,05(ν) H0 prijímame [ns] [-]
ak t0,05(ν) ≤ t < t0,01(ν) H0 zamietame [s.] [*] [+]
ak t ≥ t0,01(ν) H0 zamietame [v.s.] [**] [++]
Informatika a štatistika - prednáška 9
Obsah
- Dvojvýberový Wilcoxonov test (neparametrická obdoba Studentovho t-testu)
- Testy extrémnosti (Grubbsov a Dixonov test)
- Testy dobrej zhody (χ2 test zhody)
Dvojvýberový Wilcoxonov test
-neparametrický test
H0 : A = B (výber A sa rovná výberu B)
Testovacie kritérium U1 a U2
napr.
súbor A: 3, 7, 10, 12, 8, 9, 10 n1=7
súbor B: 4, 9, 10, 11, 9 n2=5
vytvoríme tab. s n1+n2 riadkami
i | xi1 | xi2 | Ri1 | Ri2 |
1 | 3 |
| 1 |
|
2 |
| 4 |
| 2 |
3 | 7 |
| 3 |
|
4 | 8 |
| 4 |
|
5 |
| 9 |
| 6 |
6 |
| 9 |
| 6 |
7 | 9 |
| 6 |
|
8 | 10 |
| 9 |
|
9 | 10 |
| 9 |
|
10 |
| 10 |
| 9 |
11 |
| 11 |
| 11 |
12 | 12 |
| 12 |
|
Σ | X | X | R1= 44 | R2= 34 |
R1 – súčet poradí prvého súboru
R2 – súčet poradí druhého súboru
U = min (U1, U2)
testovacie kritérium je to menšie číslo
kritická hodnota: Uα (n1, n2) tab. 10
ak U > U0,05(n1, n2) H0 prijímame [ns] [-]
ak U0,05 ≥ U > U0,01 H0 zamietame [s.] [*] [+]
ak U ≤ U0,01 H0 zamietame [v.s.] [**] [++]
Testy extrémnosti
majme namerané hodnoty:
21, 23, 39, 24, 21, 25
po usporiadaní : 21, 21, 23, 24, 25, 39
extrémna hodnota
H0 : xe patrí do súboru
- Grubbsov test parametrický test
- Dixonov test neparametrický test
testovacie kritérium
1. 2.
xs susedná hod.
kritická hodnota:
Tα(n) tab. VI. Qα(n) tab. VII
ak T,Q < T,Q0,05(n) H0 prijímame [ns][-]
ak T,Q0,05(n) ≤ T,Q < T,Q0,01(n) H0 zamietame [s.][*][+]
ak T,Q ≥ T,Q0,01(n) H0 zamietame [v.s.][**][++]
pri n > 30 sa extrémne hodnoty neprejavujú
Test dobrej zhody (χ2 test zhody)
Test overuje či empirické rozdelenie sa zhoduje s daným teoretickým rozdelením
zhoda s : normálnym rozdelením
rovnomerným rozdelením
k – počet tried
nie – experimentálne početnosti
nio – očakávané početnosti (teoretická)
H0: nie = nio
testovacie kritérium:
ak rovnomerné
kritická hodnota:
tab. IV
ak χ2 < χ20,05(ν) H0 prijímame [ns] [-]
ak χ20,05(ν) ≤ χ2 < χ20,01(ν) H0 zamietame [s.] [*] [+]
ak χ2 ≥ χ20,01(ν) H0 zamietame [v.s.] [**] [++]
podmienky použitia:
ak k = 2 všetky nio ≥ 5
ak k > 2 potom aspoň 80% nio ≥ 5 a všetky nio ≥ 1
Informatika a štatistika - prednáška 10
- Testy dobrej zhody
- Jednovýberový test zhody Kolmogorova – Smirnova
- Dvojvýberový test zhody Kolmogorova – Smirnova
obdoba χ2 testu; na zistenie zhody empirického a teoretického rozdelenia pravdepodobnosti
Test je založený na využití kumulatívnych početností a je vhodný aj keď nie sú splnené podmienky χ2 testu.
Označenia:
n – rozsah súboru
k – počet tried
Experimentálne kumulatívne početnosti
absolútne Nie i=1,2,3,...k
relatívne Fie i=1,2,3,...k
Očakávané kumulatívne početnosti
absolútne Nio i=1,2,3,...k
relatívne Fio i=1,2,3,...k
H0: Nie = Nio alebo
Fie = Fio
Testovacie kritérium:
alebo
kritická hodnota D1,α(n) tab.VIII.
Interpretácia
ak D1 < D1;0,05(n) H0 prijímame [ns][-]
ak D1;0,05(n) ≤ D1 < D1;0,01(n) H0 zamietame [s.][*][+]
ak D1 ≥ D1;0,01(n) H0 zamietame[v.s.][**][++]
pre n > 40
Výpočet jednovýberového testu K – S oproti normálnemu rozdeleniu
H0: výber má normálne rozdelenie
vypočítame výberové charakteristiky , s2,s
testovacie kritérium:
vypočítame
z ui a tab. II. Distr. fun. normálneho rozdelenia vypočítame
Fie
kritická hodnota D1;α(n)
Interpretácia
ak D1 < D1;0,05(n) H0 prijímame [ns][-]
ak D1;0,05(n) ≤ D1 < D1;0,01(n) H0 zamietame [s.][*][+]
ak D1 ≥ D1;0,01(n) H0 zamietame[v.s.][**][++]
Dvojvýberový test zhody Kolmogorova – Smirnova
Test je určený na overenie zhody dvoch neznámych rozdelení pravdepodobností pomocou dvoch nezávislých výberov
Rozsahy výberov: n1 n2
Počet tried: k
Experimentálne kumulatívne početnosti:
absolútne Ni1 Ni2
relatívne Fi1 Fi2
H0: Ni1=Ni2 malé výbery
Fi1=Fi2 veľké výbery
Podmienky použiteľnosti:
malé výbery n1= n2= n ≤ 40
veľké výbery n1 > 40; n2 > 40;
alebo ak n1 ≠ n2
Testovacie kritérium:
malé výbery D2=max│Ni1-Ni2│
veľké výbery D2=max│Fi1-Fi2│
Kritická hodnota:
malé výbery D2;α(n) tab. IX
veľké výbery
Interpretácia
ak D2 < D2;0,05(n) H0 prijímame [ns][-]
ak D2;0,05(n) ≤ D2 < D2;0,01(n) H0 zamietame [s.][*][+]
ak D2 ≥ D2;0,01(n) H0 zamietame[v.s.][**][++]
Informatika a štatistika - prednáška 11
- Spracovanie dvojrozmerných štatistických súborov
- Úvod
- Regresia
- Korelácia
- Lineárna regresia
-Ak na skúmanom objekte sledujeme dva štatistické znaky, tak súbor ktorý dostaneme nazývame dvojrozmerný štatistický súbor (X,Y) znak x a y.
-Ak viac máme viacrozmerný štat. súbor.
x – nezávisle premenná
y – závisle premenná
napr.:
intenzita hnojenia (x) - hektárová úroda (y)
kŕmna dávka (x) - úžitkovosť (y)
NH3 v bachore (x) - NH3 v krvi (y)
- funkčná závislosť, ak jednej hodnote x odpovedá podľa nejakého predpisu jedna hodnota y
- štatistická závislosť, ak jednej hodnote x odpovedá podľa náhody súbor hodnôt y
Pri štatistickej závislosti riešime dve úlohy:
- regresnú úlohu
- korelačnú úlohu
Regresná úloha sa zaoberá aký je priebeh sledovaných znakov
Korelačná úloha má za cieľ určiť mieru tesnosti závislosti sledovaných znakov
Označenie:
x – nezávisle premenná
yi – empirická (experimentálna) závisle premenná
- závisle premenná získaná z regresnej funkcie
y = f(x)
Regresia
Korelácia
nižší stupeň vyšší stupeň
nezávislosť voľná závislosť pevná závislosť
Členenie podľa počtu kvantitatívnych znakov:
- korelačná závislosť jednoduchá (prostá), zaoberá sa závislosťou dvoch kvantit. znakov
napr.: hektárový výnos plodiny – spotreba priemyslových hnojív; náklady na 1 liter mlieka – priemerná dojivosť
- korelačná závislosť viacnásobná, skúma závislosť viac než dvoch kvantitatívnych znakov
napr.: hektárový výnos plodiny – spotreba priemyslových hnojív, teplota, množstvo vodných zrážok;
produktivita práce – počet pracovníkov na jednotku plochy, fondová vybavenosť
Členenie podľa typu regresnej funkcie:
- lineárna závislosť, formu tejto závislosti vhodne vystihuje lineárna regresná funkcia (pri jednoduchej závislosti ide o priamku)
- nelineárna závislosť, závislosť je možné vyjadriť nelineárnou funkciou, regresná čiara môže byť: parabola, hyperbola, exponenciálna funkcia
Členenie podľa smeru zmien kvantitatívnych znakov :
- korel. záv. pozitívna (kladná), zo zvyšovaním úrovne jedného znaku sa zvyšuje úroveň druhého znaku a naopak
- korel. záv. negatívna (záporná), zo zvyšovaním úrovne jedného znaku sa znižuje úroveň druhého znaku a naopak
Príklady jednoduchej korelačnej závislosti :
A B C
A – pozitívna lineárna
B – negatívna nelineárna
C – nelineárna so zmenou smeru
Lineárna závislosť
rovnica regresnej priamky
y'i = a + b.xi i = 1,2,3,4,...n
metódou súčtu minimálnych štvorcov
prvá derivácia sa musí rovnať 0
deriváciou dostaneme normálne rovnice
a.n +b.Σxi = Σyi
a.Σxi +b.Σ = Σxi.yi
z ktorých úpravou dostaneme rovnice parametrov a, b
význam koeficientov a,b
- koeficient a udáva v akej výške pretína regresná priamka os y
- koeficient b určuje sklon priamky
-priama závislosť:
ak rastom nezávisle premennej x rastie aj závisle premenná y
b > 0
- nepriama závislosť:
ak rastom nezávisle premennej x závisle premenná y klesá
b < 0
Korelačný koeficient
mierou tesnosti závislosti pri lineárnej závislosti je korelačný koeficient rxy.
- ak je rxy je blízka 0, závislosť je malá
- ak je rxy blízka –1 resp. 1 závislosť je vysoká
- ak je rxy rovná –1 resp. 1 je závislosť funkčná
Test korelačného koeficientu
- test slúži na otestovanie významnosti závislosti y na x
H0: rxy = 0
Testovacie kritérium:
Kritická hodnota:
tα(ν)
ak t < t0,05(ν) H0 prijímame [ns] [-]
ak t0,05(ν) ≤ t < t0,01(ν) H0 zamietame [s.] [*] [+]
ak t ≥ t0,01(ν) H0 zamietame [v.s.] [**] [++]
Štvorec korelačného koeficientu nazývame koeficient determinácie
vyjadruje relatívny podiel vplyvu nezávisle premennej x na y
- doplnok (1-D) je vplyv ostatných faktorov na závisle premennú
Informatika a štatistika - prednáška 12
- nelineárna závislosť
- polynomické regresné funkcie
- dvojparametrické nelineárne funkcie s dvoma parametrami a, b
- polynomické regresné funkcie
Kvadratická závislosť
regresná funkcia má tvar:
i = 1,2,3,...n
metódou súčtu minimálnych štvorcov
dostaneme normálne rovnice
a.n +b.Σxi +c.Σ = Σyi
a.Σxi +b.Σ +c.Σ = Σxi.yi
a.Σ+b.Σ +c.Σ = Σ
Gaussovou eliminačnou metódou vypočítame koeficienty regresnej funkcie a, b, c.
Výpočet korelačného indexu:
Test korelačného indexu
H0: Ixy = 0
testovacie kritérium:
kritická hodnota tab. V. Kritické hodnoty F – rozdelenia
Fα(ν1, ν2) ν1 = p-1
ν2 = n-p
p – počet parametrov regresnej funkcie (a,b,c)
n – počet prvkov
ak F < F0,05(ν1,ν2) H0 prijímame [ns][-]
ak F0,05(ν1,ν2) ≤ F < F0,01(ν1,ν2) H0 zamietame [s.][*][+]
ak F ≥ F0,01(ν1,ν2) H0 zamietame [v.s.][**][++]
Polynomické funkcie vyšších stupňov:
okrem kvadratickej kubická
výpočet a, b, c, d je obdobný
- dvojparametrické nelineárne funkcie s dvoma parametrami a, b
Hyperbolická závislosť
regresná funkcia má tvar:
resp.
vykonáme z – transformáciu
a dostávame sa k lineárnej funkcií
po výpočte koeficientov a, b prejdeme k pôvodnému vzťahu
Výpočet korelačného indexu:
Test korelačného indexu
H0: Ixy = 0
testovacie kritérium:
kritická hodnota tab. V. Kritické hodnoty F – rozdelenia
Fα(ν1, ν2) ν1 = p-1
ν2 = n-p
p – počet parametrov regresnej funkcie (a,b)
n – počet prvkov
ak F < F0,05(ν1,ν2) H0 prijímame [ns][-]
ak F0,05(ν1,ν2) ≤ F < F0,01(ν1,ν2) H0 zamietame [s.][*][+]
ak F ≥ F0,01(ν1,ν2) H0 zamietame [v.s.][**][++]
39