Návrat na detail prednášky / Stiahnuť prednášku / Trenčianska univerzita A. Dubčeka / Fakulta Sociálno Ekonomických vzťahov / Štatistika
prednášky (sta_course.doc)
ŠTATISTIKA
- je vedná disciplína, ktorá sa zaoberá skúmaním kvantitatívnych hromadných javov
- príjem informácií – údajov
- využitie
- jav je nejaká skutočnosť, záver, ktorý sme vykonali za určitých podmienok a môžeme ho za tých podmienok opakovať. Môže sa opakovať viackrát
- elementárny jav – jeden pokus
- množina elementárnych javov
- istý jav (1)
- jav nemožný (0)
- jav náhodný (i)
- štatistická jednotka – človek, príjem, rodina
Predmetom skúmania štatistiky sú súbory hromadných javov vyjadrených čiselne. Hromadné javy sú také, ktoré sa môžu vyskytnúť v neobmedzenom opakovaní.
Štatistiku chápeme ako:
- vedeckú disciplínu – metódy, ich skúmanie
- praktickú činnosť
Štatistická jednotka – sa nazývy elementárny prvok, na ktorom možno skúmať konkrétny prejav hromadného javu. Štat. jednotky sú nositeľom štatistických znakov. Pri získaní informácií o skúmanom jave musíme štatistické jednotky vymedziť z hľadiska časového, priestorového a vecného.
- časové – musia spĺňať časové obdobie rovnaké pre všetky jednotky
- priestorové – územie
- vecné – zavádza sa definícia, axióma (o tom nepochybujeme), teda zavádzame nové pojmy, ktoré nám objasňujú podstatu štatistického znaku.
Štatistické znaky:
1) kvantitatívne - objemové (extenzitné) – sú také, ktoré získame meraním
- úrovňové (intenzitné) – sú odvodené z objemových veličín
- spojitými kvantitatívnymi znakmi sa nadobúdajú hodnoty v intervaloch, napr. objem produkcie
- keď kvantitatívny znak nadobúda iba 1 hodnotu, nazývame ho diskrétnym
2) kvalitatívne – vyjadrujú vlastnosti, ktoré sa nedajú merať (pohlavie, národnosť, zamestnanie). Štatistické znaky ešte rozdeľujeme na:
- alternatívne – vyskytujú sa len 2 obmeny (pohlavie – muž/žena)
- množné – viac obmien, aj kvantitatívny aj kvalitatívy znak
Podľa toho či sa štat. znaky vyskytujú u všetkých uvažovaných štat. jednotkách delíme na: a) spoločné (vhodné) – príslušnosť k podniku
b) variabilné (rôzne) – rôzny obsah – sú podstatným skúmaním štatistiky
Štatistický súbor – je to súhrn štatistických jednotiek rovnakého druhu. Je to množina štatistických jednotiek, z ktorých každá má definované spoločné vlastnosti, ktoré sa vymedzujú z hľadiska časového, priestorového a vecného.
- rozsah štat. súboru – je určený počtom štatistických jednotiek
- obsah štat. súboru – je vymedzený súhrnom štatistických znakov
Základným súborom je množina všetkých štatistických jednotiek, ktoré patria do konkrétneho súboru. Označujeme ho N.
Pri výberovom zisťovaní zisťujeme iba znaky niektorých vybraných jednotiek. Nedá sa skúmať celý obsah a rozsah, preto robíme výberové skúmanie, ktoré potom uplatníme na celý súbor.
Štatistické zisťovanie robíme pomocou:
- výkazníctva – zapisujeme do výkazov, musí mať náležitosti
- štatistický súpis – cenzus = mikrocenzus + makrocenzus
- štatistický odhad – používame ho tam, kde nevieme presne určiť
- anketa – môže tu vzniknúť skreslenie
- monografia – súbor prác vedeckých pracovníkov, je tu určité riziko a neistota
Zásady triedenia – triedenie je základnou metódou používanou v štatistike. Metódou triedenia nazývame usporiadanie štatistického súboru do skupín (tried), viac alebo menej rôznorodých podľa určitých znakov. Štatistický znak pre triedenie nazývame triediacim znakom. Hlavné zásady pri určovaní skupín triedení je:
- zásada jednoznačnosti – určenie intervalov
- zásada úplnosti
Pri štatistickom zisťovaní dichtomickom označujeme prítomnosť kvalitatívnych znakov veľkých písmenami (A, B, C...). Písmená , , používame pre označenie neprítomnosti znakov u danej štatistickej jednotky.
napr.: triedenie podniku A – muži B – vysoká škola C – vedúci
- žena - bez VŠ - nie je vedúci
Počet štat. jednotiek patriacich do príslušnej triedy budeme nazývať trideová početnosť (Ni).
Relatívna početnosť je pomer triednej početnosti a celého súboru
fi = ni/n %
Triedu, ktorej triedny symbol sa skladá zo samých veľkých písmen, sa nazýva kladnou (pozitívnou) triednou početnosťou. Ak sa triedny symbol neskladá zo samých veľkých písmen, hovoríme o negatívnej (zápornej) triednej početnosti.
Konzistencia – znamená vzájomný súlad tried a jej nutnou podmienkou ich správnosti. Ak triedne početnosti nie sú konzistentné, nie sú správne. Podmienky konzistencie možno sformulovať:
- žiadna z triednych početností nesme byť záporná (AB>=0)
- každá triedna početnosť k+1 stupňa musí byť menšia nanajvýš rovná ľubovolnej početnosti (AB <= A, (AB)<=B
- keď sa obmedzíme na kladné početnosti môžeme podmienku konzistencie vyjadriť (AB)>=A+B-N
| A | a | S |
B | AB | Ba | B |
b | A | ba | b |
S | A | a | N |
Pr. Z po4tu 1400 domov malo 910 plyn, 840 kúpeľnu. Z celkového počtu malo 700 aj plyn aj kúpeľňu.
B\A | A1 | A2 | S |
B1 | A1B1 | A2B1 | AKB1 |
B2 | A1B2 | A2B2 | 2BKA |
S | A1BN | A2BN | AKBN |
Keď nám vzstupujú triedne znaky vystupujú triediace znaky A1, A2... ktorým zodpovedajú znaky.....
KUMULATÍVNE POČETNOSTI
Kumulatívne triedne početnosti získame ako súčet triednych početností od začiatku rozdelenia až po danú triedu vrátane. Rady rozdelenia početnosti sa vyjadrujú vo formách tabuliek alebo graficky. Tabuľka musí obsahovať popis, čísla riadkov, názov...
Grafy názorne vyjadrujú štatistické údaje pomocou rôznych geometrických prostriedkov. Grafy existujú:
- histogram
- polygón – spojnicový graf
- podivná krivka
- Lorenzova krivka
Stredné hodnoty
- sú čísla, ktoré charakterizujú úroveň hodnôt znaku v štatistickom súbore. Nachádzajú sa medzi min. a max. hodnotou znaku v tom istom súbore. Vypočítame ich z absolútnych alebo z pomerných čísel. Vypočítame ich pomocou vzťahu.
F(x) = (....)
Stredné hodnoty delíme na:
- priemery - ostatné stredné hodnoty – medián a modus
Harmonický priemer
...
Pr.: Výroba masla za týždeň bola v danom závode takáto: Aká bola priemerná výroba masla
Deň | P | U | S | Š | P |
Množstvo | 693 | 701 | 680 | 695 | 671 |
v závode?
Pr.: U vybraných brigádnikov počas brigády sa zistilo takéto množstvo nazbieraných fliaš za
Počet pr. | 5 | 3 | 2 | 1 | 6 | 3 |
Množstvo | 300 | 275 | 268 | 265 | 250 | 240 |
deň: Zistite priemerné množstvo nazbieraných fliaš na 1 brigádnika.
Pr.: Počas sezóny zaznamenali na štadiónoch takéto počty návštevníkov:
Počet ľudí | Štadiónov |
-1000 | 14 |
1001-2000 | 9 |
2001-3000 | 54 |
3001-4000 | 102 |
4001-5000 | 43 |
5001-6000 | 12 |
6001-7000 | 11 |
7001- | 19 |
Pri počítaní berieme do úvahy stred intervalu – teda 500, 1500 ... 7500, použijeme vážený aritmetický priemer:
Pr.: Určte priemerný čas na výrobu 1 súčiastky ak vo výrobe pracujú 2 stroje. 1. stroj 6 minút, 2. stroj 4 minúty. min – harmonický vážený priemer
Pr.: Určte priemerný ročný rast mzdy pracovníkov družstva od roku 1994-1998.
Rok | 1994 | 1995 | 1996 | 1997 | 1998 |
Mzda | 1,1096 | 1,203 | 1,129 | 1,107 | 1,056 |
- to je koeficient rastu – geometrický priemer
Zvýšenie mzdy pracovníkov bolo o 111,7%.
Modus
- je to hodnota štatistického znaku, ktorá sa v príslušnom št. súbore najšastejšie vyskytujú. Ak poznáme hodnoty znaku, zistíme to priamo ako najpočetnejšiu hodnotu znaku v súbore.
Pr.: máme takéto rozdelenie početnosti, kde poznáme hodnotu znaku: Určte módus tohto
hodnota znaku | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
početnosť | 2 | 7 | 10 | 11 | 8 | 5 | 7 |
rozdelenia početnosti. =4
Modus v intervalovom rozdelení početnosti počítame ako
a – je hodnota začiatku modálneho intervalu, h – je rozpätie, d0 – je rozdiel medzi početnosťou modálneho intervalu a prednáchadzajúceho, d1 – je rozdiel medzi modálnym intervalom a nasledujúcim
d0 d1
h
a
Pr.: pri sledovaní hrubého domáceho poľnohospodárskeho produktu na 1 ha v určitom okrese mali tieto hodnoty:
HDP | podnikov |
-5500 | 4 |
5501-7500 | 15 |
7501-9500 | 22 |
9501-11500 | 7 |
11501- | 2 |
d0 = 22-15=7
d1 = 22-7=15
h = 9500-7501 = 1999, ale používa sa 2000 kvôli jednoznačnosti
- modálny interval, lebo má najväčšiu početnosť
Medián
- je to najjednoduchší kvantil, ktorý rozdeľuje štatistický súbor na 2 rovnaké časti. Hodnota mediánu: = r =
Pr.: Na poľnohospodárskom družstve sa stanovil objem dodávok vajec. Pri zisťovaní plnenia plánu zistili tieto údaje. r = 4 = = 104% -> =104%
PD | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
plnenie v % | 58% | 99% | 101% | 104% | 106% | 107% | 110% |
Príklad: žiaci dostali takéto známky:
počet | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 |
známka | 1 | 3 | 3 | 1 | 2 | 2 | 2 | 1 | 4 | 3 | 2 |
počet | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 |
známka | 1 | 1 | 1 | 2 | 2 | 2 | 2 | 3 | 3 | 3 | 4 |
musíme
usporiadať
r = 12/2 = 6, =2
Pre intervalového rozloženia platí vzťah:
Pr.:
HDP | podnikov |
-5500 | 4 |
5501-7500 | 15 |
7501-9500 | 22 |
9501-11500 | 7 |
11501- | 2 |
Stredné hodnoty
súčet = , súčin
ak k = 1 -> - vážený aritmetický priemer
- jednoduchý aritmetický priemer
ak k = -1 -> - vážený harmonický priemer
- jednoduchý harmonický priemer
ak k = 0 - jednoduchý geometrický priemer
- vážený harmonický priemer
Elementárne jevy
tieto javy sú disjunktné.
xxx
Javy, ktoré sa nedajú rozložiť sa nazývajú elementárne javy. Jav E je elementárny jav vtedy, ak neexistuje iný jav, ktorý by bol podmnožinou tohto javu. Elementárne javy sú vždy vzájomne disjunktné. Zložený jav sa dá jednodznačne vyjadriť ako zjednotenie konečného počtu elementárnych javov, pričom An je konečná množina. Ku každému zloženému javu existuje jav elementárny. Ak uvažujeme o množine En a utvoríme množinu F, tak potom množina F sa nazýva javové pole ak má vlastnosti:
Pokračovanie testovania hypotéz
skutočnosť | H0 | H1 |
platí H0 | správna voľba | chyba II. druhu |
platí H1 | chyba I. druhu | správna voľba |
prijatie
β 1- β zamietnutie 1-α zamietnutie
g2 – hraničný bod
-Z1 – α/2 Z1 – α/2
Obor zamietnutia (-∞,-B1- α/2) U (B1- α/2, ∞) Obor prijatia (-Z1 – α/2, Z1 – α/2)
kde: - priemer výberového súboru, - parameter základného súboru, - smerodajná odchylka, n – počet prvkov štatistického súboru, - chyba
│Z│≤ Z1- α/2... H0 │Z│> Z1- α/2... zamietame H0 a prijímame H1
Testovacia štatistika je náhodná premenná vyčíslená na základe výberového zisťovania, ktorú použijeme na rozhodnutie či H0 prijmeme alebo zamietneme. Pri určení podmienok prijatia alebo zamietnutia H0 sa rozdelí množina všetkých hodnôt testovacej štatistiky na dve disjunktné oblasti a to:
1. oblasť prijatia 2. oblasť zamietnutia
Kritická hodnota je hraničný bod medzi oblasťou prijatia a oblasťou zamietnutia (je to nejaký kvantil)
Chceme testovať hodnotu ....2
H0: = 0 kde – priemerná hodnota základného súboru, 0 – priemerná hodnota testovacieho s.
H0: ≠ 0 – toto nazývame obojstranné testovanie.
Zavedieme funkciu Z, , 2-> (0,05; 0,01) -> to je 95% alebo 99% presnosť, - výberový priemer, 0 – predpokladaná hodnota priemeru základného súboru, -smerodajná odchylka, n – počet jednotiek výberového súboru, - štandardná chyba základného súboru
Potom z funkcie Z vypočítame hodnotu Z a porovnáme so Z1- α/2 –
│Z│≤ Z1- α/2 prijímame H0, │Z│> Z1- α/2 zamietame H0 a prijímame H1
Príklad: Asociácia tvorcov reklamy tvrdí, že priemerná cena polminutového šotu je 50 000 USD. Predpokladá sa normálne rozdelenie a porovnávame štandardnú odchylku základného súboru
= 10 000 USD. Náhodným výberom 55 reklamných šotov sa zistilo, že priemerná cena 1 šotu je 57 386 USD. Overte správnosť tvrdenia tvorcov na hladine významnosti α = 0,05.
│Z│> Z1- α/2
5,48 > 1,96 Zamietame H0 a prijímame H1, H1 tvrdí, že hodnota šotu nie je 50 000 USD. Pri presnosti 99% je to 5,48>2,58 – zamietame H0 a prijímame H1
Časové rady
Sú chronologicky usporiadané rady hodnôt číselnej sociálno-ekonomickej premennej. Časové rady premennej Y o hodnotách t v časových intervaloch 1, 2, ...N označujeme Yt. Počet hodnôt Y1, Y2,... YN, sa nazýva dĺžka časového radu. Časové rady mesačných, štvrťročných alebo denných údajov nazývame krátkodobé časové rady. Správne zostavený časový rad musí zodpovedať týmto podmienkam (požiadavkám):
1. údaje musia byť zoradené chronologicky
2. údaje musia byť porovnateľné: a) za rovnako dlhé časové intervaly (obdobie)
b) za rovnako veľké územné celky
c) rovnako definované (rovnaké merné jednotky, rovnakým spôsobom získané, za rovnaké celky)
Časové rady rozdeľujeme na:
- časové rady absolútnych veličín – okamihové / intervalové
- časové rady odvodených veličín – pomerných hodnôt / priemerných hodnôt
Chronologický priemer – sa používa na priemerovanie okamihovej premennej Ych, čo sa rozumie premenná, ktorú zisťujeme v určitom okamihu.
Ak je dĺžka intervalu rovnaká, použijem jednoduchý chronologický priemer:
Ak nie je dĺžka intervalu rovnaká, používam vážený chronologický priemer:
Príklad: Mesačné údaje o počte nezamestnaných k poslednému dňu v mesiaci boli:
Mesiac | Počet nez. | Dní | abs. prí. |
I. | 286 | - | - |
II. | 301 | 28 | 15 |
III. | 306 | 31 | 5 |
IV | 305 | 30 | 1 |
V | 305 | 31 | 0 |
VI | 318 | 30 | 13 |
VII | 339 | 31 | 21 |
VIII | 345 | 31 | 6 |
IX | 350 | 30 | 5 |
X | 352 | 31 | 2 |
XI | 358 | 30 | 6 |
XII | 368 | 31 | 10 |
Treba použiť vážený chronologický priemer, pretože dĺžky mesiacov nie sú rovnaké.
Absolútne prírastky d = Yt – Yt-1
Ak hodnoty časového radu dlhodobo klesajú alebo rastú, existuje zložka, ktorá určuje dlhodobý charakter časového radu a nazýva sa trendová zložka YT.
Pravidelné výkyvy hodnôt okolo trendu s ročnou a kratšou periódou, ktoré sa opakujú (napr. v určitom mesiaci alebo štvrťroku) v dôsledku vzájomných vplyvov sa nazýva sezónna zložka St. Výkyvy hodnôt rastu s viacročnou periódou dôsledkom cyklických vplyvov sa nazýva cyklická zložka Et.
Ekonomické časové rady najčastejšie vyjadrujeme matematickými modelmi tvaru aditívneho a tvaru multiplikačného.
Aditívny – Yt = Tt + St + Ct + Et Multiplikačný Yt = Tt * St * Ct * Et
Ak platí, že Yt - St = St + Ct + Et, hovoríme, že časový rad sme očistili o trendovú zložku.
Ak platí, že Yt - St = Tt + Ct + Et, hovoríme, že časový rad sme očistili o časovú zložku.
Mnohé ekonomické premenné skúmané mesačne a viacročne majú význam nielen v absolútnom vyjadrení, ale často sa sleduje ich vývoj medzi obdobiami v:
a) absolútnej forme – pomocou prírastkov b) relatívnej forme – pomocou percent prírastkov
Absolútny prírastok dt: dt = Yt – Yt-1 – nazývame ho aj radom diferencí, na vyrovnávanie časového radu sa používajú diferencie: 1∆t = Yt – Yt-1 - prvá diferencia a 2∆t = 1∆t – Yt – druhá diferencia
Priemerný absolútny prírastok :
Koeficient rastu k: - vyjadruje, koľkokrát sa hodnota Yt zvýši alebo zníži oproti predchádzajúcej hodnote Yt-1
Priemerný koeficient rastu : =
Príklad: v rokoch 1985 až 1993 boli v SR zistené tieto hektárové výnosy. Vyrovnajte časový rad:
a) priamkou – to je regresia b) parametrom
Rok | Výnosy v ha | ti | ti* | yt | yt*ti*ti | ti*ti |
1985 | 2,85 | 1 | -4 |
|
| 16 |
1986 | 3,51 | 2 | -3 |
|
| 9 |
1987 | 3,2 | 3 | -2 |
|
| 4 |
1988 | 3,93 | 4 | -1 |
|
| 1 |
1989 | 4,58 | 5 | 0 |
|
| 0 |
1990 | 3,94 | 6 | 1 |
|
| 1 |
1991 | 4,71 | 7 | 2 |
|
| 4 |
1992 | 4,25 | 8 | 3 |
|
| 9 |
1993 | 4,3 | 9 | 4 |
|
| 16 |
∑(ti - ) = 0
- určím si 0 v strede, priemer je 45/9 = 5, odpočítame 4-5, 3-5