zoradene prednasky

Návrat na detail prednášky / Stiahnuť prednášku / Univerzita veterinárneho lekárstva v Košiciach / VVL / Statistika

 

prednasky_stat1.doc (prednasky_stat1.doc)

Informatika a štatistika - prednáška 1

 

Obsah

 

  1. prednášajúci
  2. štatistika a jej základné pojmy
  1. predmet a úloha štatistiky
  2. základné pojmy v štatistike
  3. vyjadrovacie prostriedky v štatistike
  1. Literatúra

 

Prednášky : Ing. Jozef Kremeň        1hod./týždeň

Cvičenia        : Ing. Jozef Kremeň        2hod./týždeň

 

MARCELA ACHARDA SA SPÝTALI, ČO SI MYSLÍ O LŽI.

POVEDAL:

LOŽ  MÁ  NEPRAVIDELNÉ  STUPŇOVANIE.

PRVÝ  STUPEŇ - LOŽ,

DRUHÝ - DIPLOMACIA,

TRETÍ - ŠTATISTIKA

 

Metódy štatistiky

 

Štatistika je

.....súbor metód, ktoré nám umožňujú vykonať rozumné rozhodnutia v prípade neistoty

 

......základom teórie rozhodovania

        V minulosti byla statistika součástí nauky o státu - politické aritmetiky. Jejím základním rysem bylo vyčerpávající šetření. To jest šetření, která zahrnují každý případ. Základním převratem moderní historie statistiky je výběr a výběrové šetření. Moderní statistika klade důraz na analýzu výběrových šetření a ne na hromadná vyčerpávající šetření.

Statistika se zásadně zabývá hromadnými jevy. Ve výběru nejsou přesně zkoumány jednotlivé případy, věci nebo osoby, aby se zjistila jejich individuálnost, ale aby se zjistila existence nebo neexistence nějakého znaku.

Predmetom záujmu štatistiky nie sú jednotlivé izolované javy, ale javy hromadné pričom základným vyjadrovacím prostriedkom a zároveň cieľom je číslo.

 

Jednotlivé fázy (etapy) štatistického skúmania sú:

 

  1. ZISŤOVANIE ÚDAJOV
  2. ZHROMAŽĎOVANIE ÚDAJOV
  3. SPRACOVANIE ÚDAJOV
  4. ANALÝZA ÚDAJOV

 

Základné pojmy v štatistike

 

  1. Štatistická jednotka – základný prvok štat. skúmania
  2. Štatistický súbor – súbor štatistických jednotiek
  1. základný
  2. výberový

 

  1. Štatistický znaky – vlastnosť štat. jednotky
  1. zhodný štat. znak   (určí objekt skúmania)
  2. triediaci štat. znak

 

-vecné

      vymedzenie                                -priestorové

zhodných štat. znakov                -časové

                                                                                

triediaci štat. znak -kvantitatívny -vyjadruje číslo                -spojitý

                                                                                -diskrétny

                            -kvalitatívny  -vyjadruje slovo                -alternatívny

                                                                                -množný

   

 4.   Štatistický rad – usporiadaný štatistický súbor

 

  1. Rozsah štatistického súboru /n/ - počet jednotiek v súbore

 

Vyjadrovacie prostriedky v štatistike

 

  1. ukazovateľ                -číslo

 

  1. štatistická tabuľka

-vecné

                             Nadpis  /hľadisko:                -priestorové/

                                                                -časové

                

Hlavička

Pole štat. tabuľky

-                údaj nie je

x                z logických dôvodov tam číslo nesmie  byť

0,00        údaj existuje, ale na zvolené des. miesto je hodnota nulová

·        údaj nie je zistený, ale môže sa zistiť

 

L

e

g

e

n

d

a

 

Sumárny riadok

 

  1. graf        

-vecné

                            Nadpis  /hľadisko:                -priestorové/

                                                                -časové

 

-popularizačný:  ide o pútavosť, nemusia byť presné

 

-výpočtové:        

musia byť presné

 

Literatúra:

Biomatematika        Ing. Miloš Poláček

                                        http://badame.vse.cz/iastat/        

 

 

 

Informatika a štatistika - prednáška 2

 

Obsah

  1. Pravdepodobnosť
  1. Diskrétne rozdelenia pravdepodobnosti
  1. Alternatívne rozdelenie
  2. Binomické rozdelenie
  3. Poissonovo rozdelenie
  4. Rovnomerné rozdelenie

 

Teória pravdepodobnosti vychádza z pojmu náhodného javu.

 

Náhodný jav je taký jav, ktorý v istom pokuse vykonanom pri určitých podmienkach môže nastať, ale nemusí nevyhnutne nastať.

 

2 definície:        -klasická

                        -štatistická

 

-klasická definícia pravdepodobnosti :

 

2 podmienky          -konečný počet možných výskytov

                        -každý z nich má rovnakú pravdepodobnosť

 

pravdepodobnosť javu A

 

        P(A)=m/n                m        -počet priaznivých prípadov /výskyt javu A/

                                n        -počet možných prípadov

 

-štatistická definícia pravdepodobnosti :

 

nie sú splnené vyššie spomenuté 2 podmienky

 

        P(A)=mA/n                mA        -výskyt javu A

                                        n        -počet pokusov

        

 

relatívna početnosť

 

početnosť rastom n sa ustaľuje okolo nejakej konštanty; P(A) pravdepodobnosti

 

        P0;1

        P(0) – jav nemožný

        P(1) – jav istý

 

Rozdelenie pravdepodobnosti

 

  1. Diskrétne rozdelenie pravdepodobnosti
  2. Spojité rozdelenie pravdepodobnosti

 

Diskrétne rozdelenia pravdepodobnosti

Rozdelenie pravdepodobnosti popisuje pravdepodobnostná funkcia.

Táto funkcia priraďuje každej hodnote xi náhodnej premennej pravdepodobnosť P(xi).

 

  1. alternatívne
  2. binomické
  3. Poissonovo
  4. rovnomerné

Alternatívne rozdelenie pravdepodobnosti

 

dva stavy 0 a 1

 

P(0) = p

P(1) = 1-p = q

 

Binomické rozdelenie pravdepodobnosti

 

parametre BR: p, q, n

 

 

f(x) – pravdepodobnosť v bode x

n     – počet pokusov

x     – výskyt nejakého javu (0,1,2,3,4,5....)

p     – pravdepodobnosť nekvalitnej vlastnosti

q     – pravdepodobnosť kvalitnej vlastnosti

 

-  binomický koeficient

 

Poissonovo rozdelenie pravdepodobnosti

 

p 0,1        q 0,9        n 30

n.p =

 

 

 

Rovnomerné rozdelenie pravdepodobnosti

 

Ak náhodná veličina X nadobúda hodnoty xi s rovnakou pravdepodobnosťou tak hovoríme že veličina má rovnomerné rozdelenie pravdep.

 

napr. športka

 

 

 

 

 

 

 

 

 

 

 

 

 

Informatika a štatistika - prednáška 3

Obsah

  1. Spojité rozdelenia pravdepodobnosti
  1. Normálne (Gaussovo) rozdelenie
  2. χ2 – rozdelenie
  3. Studentovo t – rozdelenie
  4. Fischerovo  -  Snedecorovo F  – rozdelenie
  1. Triedenie
  1. prosté
  2. rozdelenie početností
  3. intervalové rozdelenie početností

 

Spojité rozdelenie pravdepodobnosti

 

Rozdelenie pravdep. spojitej náhodnej veličiny popisujeme funkciou, ktorá sa nazýva hustota pravdepodobnosti.

  1. Normálne rozdelenie
  2. Studentovo t- rozdelenie
  3. 2 – rozdelenie
  4. Fischerovo – Snedecorovo F rozdelenie

Pravdepodobnosť že premenná x je z intervalu a1 a2

 

        P(a1<x<a2) = p

 

je plocha, ktorú zhora ohraničuje krivka hustoty pravdepodobnosti na intervale a1, a2.

 

 

 

Normálne (Gaussovo) rozdelenie pravdepodobnosti

Hustota pravdepodobnosti normálneho rozdelenia je daná funkciou

 

 

 

Normálne rozdelenie má dva parametre, strednú hodnotu µ a smerodajnú odchýlku ,  skrátene N(µ,).

V štatistickej praxi sa náhodná premenná x s normálnym rozdelením transformuje na štandardnú normálnu premennú u. Hustota pravdepodobnosti nadobúda tvar:

 

                                

 

 

2 – rozdelenie

 

Majme k nezávislých náhodných veličín Xi, z ktorých každá má normálne rozdelenie s parametrami =0 a =1. Súčet štvorcov týchto veličín označme

 

Takto utvorená náhodná premenná má 2 rozdelenie pravdepodobnosti. Premenná 2 je spojitá a nadobúda hodnoty z intervalu (0, +)

 

Studentovo rozdelenie

 

Studentovo rozdelenie má iba jeden parameter k.

Majme náhodnú premennú X, ktorá má normálne rozdelenie s parametrami =0 a =1, a druhú pramennú 2, ktorá má 2-rozdelenie s k stupňami voľnosti. Za predpokladu nezávislosti veličín X a 2 ich pomer vo forme:

 

                

sa nazýva Studentova premenná.

Studentovo rozdelenie pri k30 možno dobre aproximovať normovaným normálnym rozdelením

 

Fischerovo F – rozdelenie

 

Majme náhodnú premennú , ktorá má 2-rozdelenie s k1 stupňami voľnosti a druhú premennú, s 2-rozdelením s k2 stupňami voľnosti. Ich podiel:

 

je Fischerova náhodná premenná.

 

Parametre rozdelenia sú stupne voľnosti k1 a k2.

        

Triedenie

 

Triedenie  podľa kvantitatívneho znaku resp. znakov je proces usporiadania jednotiek štatistického súboru do skupín (tried) podľa veľkosti triediaceho znaku resp. znakov

 

  1. Prosté triedenie
  2. Rozdelenie početnosti
  3. Intervalové rozdelenie početnosti

 

 

Prosté triedenie

 

  1. malý počet prvkov (meraní) v súbore
  2. prvky nadobúdajú rôzne číselné hodnoty

Usporiadame podľa veľkosti od najmenšej po najväčšiu hodnotu.

 

 

i

xi

1

2

3

 

n

9,5

10,7

12,8

 

15

 

Rozdelenie početnosti

 

  1. veľký počet prvkov
  2. prvky nadobúdajú malý počet obmien

Usporiadame do tried podľa obmien štatistického znaku. Počet prvkov (meraní) v jednej triede sa nazýva triedna početnosť a označujeme ju ni.

 

 

I

xi

čiarky

ni=n

ni

1

2

3

4

5

 

 

K

8

9

10

11

12

 

 

xk

//

/

/////

////////

///////////

 

 

///

2

1

5

Počet tried je daný počtom obmien štatistického znaku

8

11

 

 

3

X

X

n

 

 

 

 

 

 

 

Informatika a štatistika - prednáška 4

Obsah

  1. Intervalové rozdelenie početností
  2. Druhy početnosti
  1. absolútne poč.
  2. relatívne poč.
  3. absolútne kumulatívne poč.
  4. relatívne kumulatívne poč.

 

Intervalové rozdelenie početnosti

 

  1. veľký počet prvkov
  2. prvky nadobúdajú veľký počet obmien

 

Ak by sme zatriedili každú hodnotu do samostatného riadku dostali by sme veľký počet tried vzhľadom na rozsah súboru. Preto hodnoty súboru zatriedime do vytvorených intervalov s tým, že každý interval je reprezentovaný jednou hodnotou xi.

 

I

di

xi

hi

čiarky

ni=n

ni

1

2

3

4

5

 

 

K

 

 

 

 

 

 

 

dk

 

 

 

 

 

 

 

xk

 

 

 

 

 

 

 

hk

//

/

/////

////////

///////////

 

 

///

2

1

Počet tried je daný počtom obmien štatistického znaku

5

8

11

 

 

3

 

X

 

X

n

 

Postup pri triedení

 

1.        Zvolíme počet tried k

                                     

 

 

2.        Zvolíme šírku triedneho intervalu h

                                

šírku triedneho intervalu zaokrúhlime vždy nahor

 

3.        Výpočet stredov triednych intervalov- xi

 

                                

 

stred prvej triedy zaokrúhlime nadol o približnú polovicu rozšírenia rozpätia xmax - xmin

 

4.        Výpočet dolných hraníc triednych intervalov-di

                                

dolnú hranicu 1. triedy zaokrúhlime nahor  na najbližšie VP len vtedy ak je výpočet na viac des. miest.

 

5.        Výpočet horných hraníc triednych intervalov-hi

                                

6.        Zistenie úplnosti triedenia

        -jednoznačnosť

        -úplnosť triedenia     d1xmin    a    hkxmax

 

7.        Zadelenie prvkov do tried

 

8.        Zistenie triednych početností ni

 

Druhy početností

 

- absolútne početnosti                            n1, n2, n3, ... , ni, ..., nk

 

- relatívne početnosti                            

 

- absolútne kumulatívne početnosti         N1, N2, N3, ... , Ni, ... , Nk

 

        N1=n1

 

        N2=N1+n2=n1+n2

 

        N3=N2+n3=n1+n2+n3

        .

        Ni=Ni-1+ni=n1+n2+n3+...+ni

        .

        Nk=Nk-1+nk=n1+n2+n3+...+ni+...nk

 

 

- relatívne kumulatívne početnosti                  F1, F2, F3, ..., Fi, ..., Fk

 

                                                 

 

i

xi

ni

fi

Ni

Fi

1

x1

n1

f1

N1

F1

2

x2

n2

f2

N2

F2

.

.

.

.

.

.

i

xi

ni

fi

Ni

Fi

.

.

.

.

.

.

k

xk

nk

fk

Nk=n

Fk=1,0000

×

n

1,0000

×

×

 

 

 

 

 

 

 

 

 

 

 

Informatika a štatistika - prednáška 5

Obsah

Štatistické charakteristiky

 

  1. charakteristiky polohy                (stredné hodnoty)
  2. charakteristiky rozptýlenia         (miery variability)

 

Stredné hodnoty

 

- aritmetický priemer

- medián                     Me

- modus                      Mo

 

Aritmetický priemer

                                                     

 

Medián  Me

 

- je stredná hodnota, ktorá rozdeľuje štatistický súbor usporiadaný vzostupne na dve rovnaké polovice, z ktorých každá má rovnakú pravdepodobnosť výskytu

 

              Me=xr                        kde    

Pri intervalovom rozdelení početností vypočítame medián podľa vzťahu

                        

 

A -    dolná hranica mediánového intervalu

h -     šírka mediánového intervalu

r -     (n+1)/2

 suma početností po mediánový interval

nMe    početnosť mediánového intervalu

 

Modus Mo

 

- je stredná hodnota, ktorá sa v štat. súbore najčastejšie vyskytuje

1. v malom súbore nie je modus

2. vo veľkom je modus tá hodnota xi kde je najväčšia početnosť ni

 

3. pre intervalove rozdelenie početností    

 

A-   dolná hranica modálneho intervalu

h -   šírka modálneho intervalu

d1 -  rozdiel medzi početnosťou modálneho a predchádzajúceho              intervalu

d2 -  rozdiel medzi početnosťou modálneho a nasledujúceho intervalu

 

 

Ďalšie stredné hodnoty

 

  1. harmonický priemer
  2. geometrický priemer

 

 

Miery variability

 

 

1. variačné rozpätie                        R=xmax - xmin

 

 

 

2. priemerná odchýlka                

 

 

 

3. rozptyl                                      

 

 

alebo                                                  

 

 

4. smerodajná odchýlka      

 

Podľa gaussovho rozdelenia pravdepodobnosti

 

v intervale                                                sa nachádza

                                                65% prvkov súboru

                                                95% prvkov súboru

                                                99,73% prvkov súboru

 

 

 

  1. variačné rozpätie

 

                                

        

 

 

 

 

 

 

 

 

 

Informatika a štatistika - prednáška 6

Obsah

Odhad parametrov základného súboru

 

parametre základného súboru

 

N - rozsah základného súboru

- aritmetický priemer základného súboru

- smerodajná odchýlka základného súboru

 

parametre výberového súboru

 

n - rozsah výberového súboru

- aritmetický priemer výberového súboru

s - smerodajná odchýlka výberového súboru

 

vykonávame výber o rozsahu n=5

zo zákl. súboru

 

              . . .. .. .. .                                                      . .. ... . . . ..

        . . n . . . . .. .. . .                                            . . . . . . .. . . ... ..

      . .. .. .. .. .. . . . . . ..                                        . .. . .. . .. .. . . . .. . . .

    . .. .. . . . . n . . . . . .. .                                . . . .. . .. . .. . ... . . .. .

    . .  n . . . . . . . . . . . ..                                   . .. .. . ... . .. . .. . .. . .

      . . . . . . . . . . .. . . ..                                          .. ... . .. .. .. . .. . . .

          . . . . . . . . .. .                                                    . .. .. . . .. . .

 

základný súbor                 opakujeme proces           rozdelenie pravdepod.

pozostáva z                 výberu nespočetne           výberových arit. priem.

2 786 prvkov (napr.)                krát

 

Nech je rozdelenie pravdepodobnosti základného súboru akékoľvek rozdelenie výberov bude normálne

so strednou hodnotou              

a smerodajnou odchýlkou        

 

Odhady parametrov zákl. súboru môžu byť bodové alebo intervalové

 

1. Bodový odhady

 

Každý z parametrov a základného súboru odhadneme jednou číselnou hodnotou.

odhad musí byť: - konzistentný

                         - neskreslený

                         - výdatný

                             

 

 

2. Intervalový odhad

 

Intervalovým odhadom parametra zákl. súboru alebo sa nazýva odhad pomocou číselného intervalu, v ktorom sa odhadovaný parameter nachádza s určitou pravdepodobnosťou.

 

Plocha 0,95

 

                                        

 

 

 

 

 

 

Plocha 0,95=(1-α)

Plocha 0,05=α

 

 

 

 

 

                                        µ

 

 

 

 

 

 

 

                     α=0,05

                     α=0,01

 

1. Ak poznáme σ, alebo ak rozsah súboru je n>100 intervalový odhad μ bude:

        

 

vo vzťahu σ nahradíme s - smerodajnou odchýlkou výb. súboru

 

ak         α=0,05        u0.975=1.96

ak        α=0,01        u0.995=2.58

 

 

2. Ak nepoznáme σ a rozsah súboru je malý potom intervalový odhad μ bude:

 

        

 

tα(ν)  - kritická hodnota studentovho t - rozdelenia pre α=0,05 alebo 0,01 a danom počte stupňov voľnosti ν = n-1 (tab.č. III.)

 

α      - hladina významnosti; je pravdepodobnosť s akou parameter do intervalu nepadne

 

(1- α) - je pravdepodobnosť s akou parameter do intervalu padne; ak danú hodnotu vynásobíme 100 číslo dostaneme v %.

 

ν – počet nezávisle voliteľných výsledkov

 

Intervalový odhad pre smerodajnú odchýlku

 

                

 

- kritická hodnota χ2 rozdelenia (tab.č. IV.)

 

α=0.05                        

 

α=0.01                        

 

 

 

 

 

Informatika a štatistika - prednáška 7

Obsah

TESTOVANIE

 

Účelom opisnej štatistiky je charakterizovať výbery pomocou kvantitatívnych charakteristík (napr. stredných hodnôt, rozptylu, korelačných koeficientov). Testovacia štatistika určuje, či sa tieto ukazovatele odlišujú „reálne“ alebo „náhodne“.

V testovacej štatistike formulujeme najprv štatistickú hypotézu. Je to predpoklad o vzájomnom vzťahu medzi výberovými ukazovateľmi.

Potom na základe výberového šetrenia testujeme , či táto hypotéza platí, alebo nie.

 

príklad :

 

V dvoch rovnako veľkých a výkonovo rovnakých triedach prebieha výuka gramatiky (vetný rozbor) podľa rozdielnych metodík, avšak pri rovnakom počte hodín. V triede K1 sa učia vetný rozbor pomocou algoritmickej schémy. V triede K2 sa vyučuje tradičnou metodikou. Pýtame sa, či tieto vyučovacie a cvičné metódy vedú k rozdielnym učebným výsledkom. Rozhodnutie sa má urobiť na základe  priemerného počtu chýb žiakov v identických kontrolných prácach.

V triede K1 je priemerný počet chýb =15, v triede K2 =20 chýb. Výpočet týchto charakteristík je vecou opisnej štatistiky.

 

Testovacia štatistika sa pýta na „reálnosť“ rozdielu medzi ukazovateľmi obidvoch vzoriek. Môže sa zdať, že udaním priemerov obidvoch výberov je daná otázka už dostatočne zodpovedaná. Keďže v jednej triede sa vyskytlo viac chýb ako v druhej, možno sa domnievať, že výhodnosť modernej vyučovacej metódy sa preukázala.

Tento záver by bol unáhlený a možno aj nesprávny.

Takáto výpoveď je oprávnená iba vtedy, ak diferencia výberových priemerov  chýb je skutočná čiže reálna.

O „reálny“ rozdiel ide vtedy, ak sú obidva výbery zo základných súborov s rozličnými parametrami (1,2).

Či je to tak, alebo nie, treba preveriť. Preto formulujeme predpoklad, že obidva výbery sú z jedného a  toho istého základného súboru s parametrom . Táto domnienka je štatistickou hypotézou, ktorú treba testom preveriť.

 

Postup pri testovaní:

 

1. Hladina významnosti je pravdepodobnosť a akou zamietame nulovú hypotézu ak táto platí (ináč sa nazýva aj chyba 1. druhu)

        =0,05

        =0,01

 

2. Stanovenie nulovej hypotézy /pracovný predpoklad/

        

3. Výpočet testovacieho kritéria

je to číslo vypočítané podľa nejakého vzorca

 

napr.   t, F, U, 2

 

4. Zistenie kritickej hodnoty

- je to tabelovaná hodnota

 

   t, F, U, 2

 

   tα(ν),  Fα12),  Uα(n1,n2),  χ2α(ν)

 

 

5. Testovanie

   Porovnanie testovacieho kritéria s kritickou hodnotou

 

     t < alebo >, tα(ν)

 

6. Interpretácia výsledku

 

  napr.   H0 – zamietame

             H0 – prijímame

 

 

 

 

 

H0

 

 

platí

 

 

neplatí

 

 

prijímame

 

1–α

správne

 

β

chyba 2. druhu

 

 

zamietame

 

α

chyba 1. druhu

 

1-β

správne

 

 

α

β

1 - β

1 - α

H0  neplatí

H0  platí

 

 

 

                OBLASŤ  PRIJATIA                        OBLASŤ  ZAMIETNUTIA

 

                                                tα(ν)

 

 

ak znižujeme  α  zvyšujeme  β  a naopak

 

 

ideálne je keď  α=0,05

                keď  α=0,01   životne dôležité testy

 

 

 

 

 

V odborných časopisoch a výskumných prácach sa pre stručnosť a úsporu miesta zaužívalo pri zvýrazňovaní empirických výsledkov  

- najmä v obrázkoch a v tabuľkách - označovať tri hladiny významnosti skratkami alebo symbolmi.

 

Zvyčajné výrazové prostriedky sú zostavené takto:

 

 

 

 

 

 

 

Pravdepodobnosť chyby

>0.05

 

 

 

Slovné vyjadrenie

 

 

nesignifi-kantná

signifikantná

vysoko signi-

fikantná

veľmi vysoko signifikantná

Písmenová symbolika

n. s.

s.

v. s.

v. v. s.

Grafická symbolika

 

*

**

***

 

Prijať hypotézu znamená iba ju uprednostniť pred ostatnými, a nie že túto hypotézu pokladáme za bezpodmienečne správnu..

 

Jednostranná a dvojstranná formulácia otázky

 

H0: μ = 150        dvojstranná formulácia otázky

H1: μ ≠ 150

0

+1,96

-1,96

α/2 = 0,025

α/2 = 0,025

 

obor prijatia

kritický obor

kritický obor

 

H0: μ = 150        jednostranná formulácia otázky

H1: μ > 150

 

 

α = 0,05

+1,64

0

 

kritický obor

obor prijatia

 

 

 

H0: μ = 150

H1: μ < 150

α = 0,05

-1,64

0

 

kritický obor

obor prijatia

 

 

 

 

              u0,05;ds = 1,96                        u0,05;js = 1,64

              u0,01;ds = 2,58                        u0,01;js = 2,33

 

 

Informatika a štatistika - prednáška 8

Obsah

        Porovnanie dvoch nezávislých výberov z normálne rozdelených základných súborov

  1. Testovanie rozdielu dvoch aritmetických priemerov

(dvojvýberový Studentov t-test)

  1. Testovanie rozdielu dvoch rozptylov

(F – test)

  1. Testovanie rozdielu dvoch relatívnych hodnôt

(t-test dvoch relatívnych hodnôt)

 

Predpoklady použitia :

  1. nezávislosť a náhodnosť výberov
  2. výbery sú z normálne rozdelených zákl. súborov

 

Dvojvýberový Studentov t-test

  1. zhoda rozptylov
  2. nezhoda rozptylov

 

 

 

1.  Výpočet    t     testovacieho kritéria ak    

 

                                                                        tab. IX

               

 

 

kritické hodnoty tα(ν)  tab. III. pre

  1. α = 0,05
  2. α = 0,01

    ν = n1+n2-2

 

 

2.   Výpočet   t    testovacieho kritéria  ak    

 

 

 

 

kritická hodnota vypočítaná

 

 

 

kde  : ν1 = n1-1

           ν2 = n2-1

 

tα1), tα2) pre α=0,05 a 0,01 – krit. hod. studentovho

t-rozdelenia (tab. III)

 

Interpretácia

 

1.   ak t < t0,05(ν)

                        H0 prijímame    a  sú štatisticky zhodné

                        [ - ], [ns]                          rozdiel je štat. nevýznamný

 

2.  ak   t0,05(ν) ≤ t < t0,01(ν)

H0 zamietame  a  nie sú štat. zhodné

                        [ * ], [ s. ], [ + ]          rozdiel je štat. významný

3.  ak  t ≥ t0,01(ν)

                        H0 zamietame  a  nie sú štat. zhodné

      [ ** ], [ v.s. ], [ ++ ] rozdiel je štat. vysoko významný

 

F-test (testovanie rozdielu dvoch rozptylov)

 

 

 

výpočet      F    testovacieho kritéria

 

 

     alebo               F > 1

 

 

kritické hodnoty :

     ν1=n1-1   ν2=n2-1      ak  >

 

     ν1=n1-1   ν2=n2-1      ak  >

 

Interpretácia

 

ak   F < F0,0251, ν2)                        H0  prijímame     [ns]  [-]

ak   F0,0251, ν2) ≤ F < F0,0051, ν2) H0  zamietame   [s.] [*] [+]

ak   F ≥ F0,0051, ν2)                     H0 zamietame  [v.s.][**][++]        

 

 

t-test dvoch relatívnych hodnôt

 

H0: f1=f2

 

               relatívne hodnoty

     

testovacie kritérium

                 

 

použitie testu len ak  n1, n2 > 30    0,2≤ f1, f2 ≤ 0,8

 

kritické hodnoty:   1,96   ak    α = 0,05

                               2,58   ak    α = 0,01

 

Interpretácia

ak  t < 1,96              H0 prijímame            [ns]  [-]

ak  1,96 ≤ t < 2.58   H0 zamietame           [s.]  [*]  [+]

ak   t ≥ 2,58             H0  zamietame           [v.s.]  [**]  [++]

 

t-test pre párované hodnoty

Predpoklady použitia:

  1. závislosť výberov
  2. výbery sú z normálne rozdelených zákl. súborov

pokuse

napr. hladina cukru u zvierat   pred

                                                  po

n – počet párov

 

H0 : μd = 0

 

 

testovacie kritérium

 

   kde        

di = x1i – x2i  diferencie

kritická hodnota  tα(ν) tab. III  

                             ν = n-1

Interpretácia

 

ak  t < t0,05(ν)                 H0 prijímame            [ns]  [-]

ak  t0,05(ν) ≤ t < t0,01(ν)   H0 zamietame           [s.]  [*]  [+]

ak   t ≥ t0,01(ν)                H0  zamietame           [v.s.]  [**]  [++]

 

 

Informatika a štatistika - prednáška 9

Obsah

  1. Dvojvýberový Wilcoxonov test (neparametrická obdoba Studentovho t-testu)
  2. Testy extrémnosti (Grubbsov a Dixonov test)
  3. Testy dobrej zhody (χ2 test zhody)

 

Dvojvýberový Wilcoxonov test

 

-neparametrický test

H0 : A = B   (výber A sa rovná výberu B)

Testovacie kritérium U1 a U2

 

     

napr.

súbor A:    3, 7, 10, 12, 8, 9, 10      n1=7

súbor B:    4, 9, 10, 11, 9                n2=5

vytvoríme tab. s n1+n2 riadkami

i

xi1

xi2

Ri1

Ri2

1

3

 

1

 

2

 

4

 

2

3

7

 

3

 

4

8

 

4

 

5

 

9

 

6

6

 

9

 

6

7

9

 

6

 

8

10

 

9

 

9

10

 

9

 

10

 

10

 

9

11

 

11

 

11

12

12

 

12

 

Σ

X

X

R1= 44

R2= 34

R1 – súčet poradí prvého súboru

R2 – súčet poradí druhého súboru

U = min (U1, U2)

testovacie kritérium je to menšie číslo

kritická hodnota:  Uα (n1, n2)   tab. 10

 

ak  U > U0,05(n1, n2)          H0 prijímame  [ns]  [-]

ak  U0,05 ≥ U > U0,01          H0 zamietame  [s.]  [*]  [+]

ak   U ≤ U0,01                     H0  zamietame [v.s.]  [**]  [++]

 

Testy extrémnosti

majme namerané hodnoty:

 

21, 23, 39, 24, 21, 25

po usporiadaní :  21, 21, 23, 24, 25, 39

                                                                       extrémna hodnota

H0 : xe patrí do súboru

 

  1. Grubbsov test  parametrický test
  2. Dixonov test    neparametrický test

testovacie kritérium

 

1.                                                 2.

                                  xs susedná hod.

 

kritická hodnota:

 

        Tα(n)        tab. VI.                        Qα(n)        tab. VII

 

ak  T,Q < T,Q0,05(n)                     H0 prijímame   [ns][-]

ak  T,Q0,05(n) ≤ T,Q < T,Q0,01(n) H0 zamietame   [s.][*][+]

ak   T,Q ≥ T,Q0,01(n)                    H0 zamietame  [v.s.][**][++]

 

pri   n > 30   sa extrémne hodnoty neprejavujú

 

Test dobrej zhody (χ2 test zhody)

 

Test overuje či empirické rozdelenie sa zhoduje s daným teoretickým rozdelením

 

zhoda s :   normálnym rozdelením

                 rovnomerným rozdelením

k – počet tried

nie – experimentálne početnosti

nio – očakávané početnosti  (teoretická)                

 

H0: nie = nio

 

testovacie kritérium:

 

ak rovnomerné

 

kritická hodnota:

 

     tab. IV

 

ak  χ2 < χ20,05(ν)                 H0 prijímame       [ns]  [-]

ak  χ20,05(ν) ≤ χ2 < χ20,01(ν) H0 zamietame      [s.]  [*]  [+]

ak  χ2 ≥ χ20,01(ν)                 H0  zamietame     [v.s.]  [**]  [++]

 

podmienky použitia:

 

ak k = 2     všetky nio ≥ 5

 

ak k > 2    potom  aspoň 80% nio ≥ 5  a všetky  nio ≥ 1

 

 

Informatika a štatistika - prednáška 10

  1. Testy dobrej zhody
  2. Jednovýberový test zhody Kolmogorova – Smirnova
  3. Dvojvýberový test zhody Kolmogorova – Smirnova

obdoba χ2 testu; na zistenie zhody empirického a teoretického rozdelenia pravdepodobnosti

Test je založený na využití kumulatívnych početností a je vhodný aj keď nie sú splnené podmienky χ2 testu.

 

Označenia:

n – rozsah súboru

k – počet tried

Experimentálne kumulatívne početnosti

        absolútne Nie                i=1,2,3,...k

        relatívne   Fie                i=1,2,3,...k

Očakávané kumulatívne početnosti

        absolútne   Nio        i=1,2,3,...k

        relatívne            Fio        i=1,2,3,...k

 

H0:  Nie = Nio          alebo

      Fie = Fio

Testovacie kritérium:

   alebo  

kritická hodnota D1,α(n)   tab.VIII.

 

Interpretácia

ak  D1 < D1;0,05(n)                     H0 prijímame  [ns][-]

ak  D1;0,05(n) ≤ D1 < D1;0,01(n)   H0 zamietame [s.][*][+]

ak  D1 ≥ D1;0,01(n)                     H0  zamietame[v.s.][**][++]

 

pre  n > 40

                   

 

Výpočet jednovýberového testu K – S oproti normálnemu rozdeleniu

H0: výber má normálne rozdelenie

vypočítame výberové charakteristiky , s2,s

 

testovacie kritérium:

 

 

vypočítame  

z   ui  a tab. II. Distr. fun. normálneho rozdelenia vypočítame

Fie

 

 

kritická hodnota D1;α(n)

 

Interpretácia

ak  D1 < D1;0,05(n)                     H0 prijímame  [ns][-]

ak  D1;0,05(n) ≤ D1 < D1;0,01(n)   H0 zamietame [s.][*][+]

ak  D1 ≥ D1;0,01(n)                     H0  zamietame[v.s.][**][++]

 

Dvojvýberový test zhody Kolmogorova – Smirnova

 

Test je určený na overenie zhody dvoch neznámych rozdelení pravdepodobností pomocou dvoch nezávislých výberov

 

Rozsahy výberov:        n1        n2

Počet tried:                k

 

Experimentálne kumulatívne početnosti:

                absolútne                Ni1    Ni2

                relatívne                Fi1     Fi2

 

 

H0:    Ni1=Ni2             malé výbery

 

 

        Fi1=Fi2               veľké výbery

 

Podmienky použiteľnosti:

malé výbery        n1= n2= n ≤ 40

veľké výbery        n1 > 40;   n2 > 40;

        alebo ak                n1 ≠ n2

 

Testovacie kritérium:

malé výbery       D2=max│Ni1-Ni2

veľké výbery      D2=max│Fi1-Fi2

 

Kritická hodnota:                

malé výbery          D2;α(n)   tab. IX

 

veľké výbery        

Interpretácia

ak  D2 < D2;0,05(n)                     H0 prijímame  [ns][-]

ak  D2;0,05(n) ≤ D2 < D2;0,01(n)   H0 zamietame [s.][*][+]

ak  D2 ≥ D2;0,01(n)                     H0  zamietame[v.s.][**][++]

 

 

 

Informatika a štatistika - prednáška 11

  1. Spracovanie dvojrozmerných štatistických súborov
  2. Úvod
  3. Regresia
  4. Korelácia
  5. Lineárna regresia

 

-Ak na skúmanom objekte sledujeme dva štatistické znaky, tak súbor ktorý dostaneme nazývame dvojrozmerný štatistický súbor (X,Y) znak x a y.

-Ak viac máme viacrozmerný štat. súbor.

 

x – nezávisle premenná

y – závisle premenná

 

napr.:

intenzita hnojenia (x)  -  hektárová úroda (y)

        kŕmna dávka (x)   -  úžitkovosť  (y)

        NH3 v bachore  (x)  -  NH3 v krvi  (y)

 

  1. funkčná závislosť, ak jednej hodnote x odpovedá podľa nejakého predpisu jedna hodnota y
  2. štatistická závislosť, ak jednej hodnote x odpovedá podľa náhody súbor hodnôt y

 

Pri štatistickej závislosti riešime dve úlohy:

  1. regresnú úlohu
  2. korelačnú úlohu

Regresná úloha sa zaoberá aký je priebeh sledovaných znakov

Korelačná úloha má za cieľ určiť mieru tesnosti závislosti sledovaných znakov

Označenie:

x – nezávisle premenná

yi – empirická (experimentálna) závisle premenná

- závisle premenná získaná z regresnej funkcie

y = f(x)

 

Regresia

 

 

 

 

 

 

 

 

 

Korelácia

 

 

                             nižší stupeň        vyšší stupeň

 nezávislosť                  voľná závislosť                pevná závislosť

 

 

Členenie podľa počtu kvantitatívnych znakov:

- korelačná závislosť jednoduchá (prostá), zaoberá sa závislosťou dvoch kvantit. znakov

  napr.: hektárový výnos plodiny – spotreba priemyslových hnojív; náklady na 1 liter mlieka – priemerná dojivosť

- korelačná závislosť viacnásobná, skúma závislosť viac než dvoch kvantitatívnych znakov

  napr.: hektárový výnos plodiny – spotreba priemyslových hnojív, teplota, množstvo vodných zrážok;

produktivita práce – počet pracovníkov na jednotku plochy, fondová vybavenosť

 

Členenie podľa typu regresnej funkcie:

- lineárna závislosť, formu tejto závislosti vhodne vystihuje lineárna regresná funkcia (pri jednoduchej závislosti ide o priamku)

- nelineárna závislosť, závislosť je možné vyjadriť nelineárnou funkciou, regresná čiara môže byť: parabola, hyperbola, exponenciálna funkcia

 

Členenie podľa smeru zmien kvantitatívnych znakov :

- korel. záv. pozitívna (kladná), zo zvyšovaním úrovne jedného znaku sa zvyšuje úroveň druhého znaku a naopak

- korel. záv. negatívna (záporná), zo zvyšovaním úrovne jedného znaku sa znižuje úroveň druhého znaku a naopak

 

Príklady jednoduchej korelačnej závislosti :

 

            A                                   B                                 C

 

 

A – pozitívna lineárna

B – negatívna nelineárna

C – nelineárna so zmenou smeru

 

 

 

 

 

Lineárna závislosť

rovnica regresnej priamky

 

y'i = a + b.xi                i = 1,2,3,4,...n

 

metódou súčtu minimálnych štvorcov

 

 

 

prvá derivácia sa musí rovnať 0

deriváciou dostaneme normálne rovnice

 

a.n    +b.Σxi = Σyi

a.Σxi +b.Σ = Σxi.yi

 

z ktorých úpravou dostaneme rovnice parametrov a, b

 

                                

význam koeficientov a,b

- koeficient a udáva v akej výške pretína regresná priamka os y

- koeficient b určuje sklon priamky

 

 

-priama závislosť:

ak rastom nezávisle premennej x rastie aj závisle premenná y

b > 0

- nepriama závislosť:

ak rastom nezávisle premennej x závisle premenná y klesá

b < 0

 

Korelačný koeficient

mierou tesnosti závislosti pri lineárnej závislosti je korelačný koeficient  rxy.

                               

- ak je rxy je blízka 0, závislosť je malá

- ak je rxy blízka –1 resp. 1 závislosť je vysoká

- ak je rxy rovná –1 resp. 1 je závislosť funkčná

 

Test korelačného koeficientu

- test slúži na otestovanie významnosti závislosti y na x

H0: rxy = 0

Testovacie kritérium:

 

Kritická hodnota:

                tα(ν)

ak  t < t0,05(ν)                 H0 prijímame            [ns]  [-]

ak  t0,05(ν) ≤ t < t0,01(ν)   H0 zamietame           [s.]  [*]  [+]

ak   t ≥ t0,01(ν)                H0  zamietame           [v.s.]  [**]  [++]

 

Štvorec korelačného koeficientu nazývame koeficient determinácie

 vyjadruje relatívny podiel vplyvu nezávisle premennej x na y

- doplnok (1-D) je vplyv ostatných faktorov na závisle premennú

Informatika a štatistika - prednáška 12

  1. nelineárna závislosť
  2. polynomické regresné funkcie
  3. dvojparametrické nelineárne funkcie s dvoma parametrami a, b

 

  1. polynomické regresné funkcie

Kvadratická závislosť

regresná funkcia má tvar:

 

     i = 1,2,3,...n

 

metódou súčtu minimálnych štvorcov

 

 

 

dostaneme normálne rovnice

 

a.n    +b.Σxi  +c.Σ = Σyi

a.Σxi +b.Σ +c.Σ = Σxi.yi

a.Σ+b.Σ +c.Σ = Σ

 

Gaussovou eliminačnou metódou vypočítame koeficienty regresnej funkcie a, b, c.

 

Výpočet korelačného indexu:

 

                

 

 

Test korelačného indexu

 

H0: Ixy = 0

 

testovacie kritérium:

 

 

 

kritická hodnota tab. V. Kritické hodnoty F – rozdelenia

Fα1, ν2)                ν1 = p-1

                        ν2 = n-p

p – počet parametrov regresnej funkcie (a,b,c)

n – počet prvkov

ak  F < F0,0512)                     H0 prijímame  [ns][-]

ak  F0,0512) ≤ F < F0,0112) H0 zamietame [s.][*][+]

ak   F ≥ F0,0112)                     H0  zamietame [v.s.][**][++]

 

Polynomické funkcie vyšších stupňov:

okrem kvadratickej kubická

 

výpočet a, b, c, d je obdobný

 

  1. dvojparametrické nelineárne funkcie s dvoma parametrami a, b

Hyperbolická závislosť

 

regresná funkcia má tvar:

        resp.         

vykonáme z – transformáciu

        a dostávame sa k lineárnej funkcií

 

                                

po výpočte koeficientov a, b prejdeme k pôvodnému vzťahu

 

Výpočet korelačného indexu:

 

                

 

Test korelačného indexu

 

H0: Ixy = 0

 

testovacie kritérium:

 

 

 

kritická hodnota tab. V. Kritické hodnoty F – rozdelenia

Fα1, ν2)                ν1 = p-1

                        ν2 = n-p

p – počet parametrov regresnej funkcie (a,b)

n – počet prvkov

 

ak  F < F0,0512)                     H0 prijímame  [ns][-]

ak  F0,0512) ≤ F < F0,0112) H0 zamietame [s.][*][+]

ak   F ≥ F0,0112)                     H0  zamietame [v.s.][**][++]

 

 

 

39