Návrat na detail prednášky / Stiahnuť prednášku / Trenčianska univerzita A. Dubčeka / Fakulta Sociálno Ekonomických vzťahov / Štatistika
Spracovaná teória z knihy (sta_faq.doc)
Štatistika
- teoretická veda a praktická činnosť na riešenie reálnych problémov spoločnosti
- predmet skúmania – zákonitosti kvantitatívnej stránky hromadných javov a procesov s ich kvalitatívnymi rysmi
- hromadný jav – ľubovoľný jav, hromadný proces – ľubovoľná činnosť, viacnásobná opakovateľnosť v priestore a čase
- zákonitosti javov a procesov nazývame štatistickými zákonitosťami. Treba skúmať či je dostatočne veľký počet individuálnych javov, napr. hromadné pozorovanie
- Š je využiteľná v rôznych sférach, využíva pravdepodobnosť. Všeobecne je to teória štatistiky, pri používaní pravdepodobnosti je to matematická štatistika, ak zhusťuje informácie o skúmaných javoch je to popisná štatistika, ak odhaduje pravdepodobnosť a podľa toho vytvára zákonitosti je to štatistika indukcia.
- Samostatné štatistické disciplíny – špecializujú sa na oblasti života – štátna, rezortná a osobitné štatistiky
- Štatistický údaj/parameter – číselné informácie o hromadnom jave a ich vypočítané štatistické číselné charakteristiky
Základné pojmy
- štatistická jednotka je základný prvok, na ktorom sa skúma jav
- súhrn štatistických jednotiek s spoločnými vlastnosťami nazývame štatistický súbor
- podľa toho či obsahuje všetky alebo len ich časť je to základný alebo výberový Š súbor
- vecné vymedzenie – určenie takých vlastností, ktorým vyhovuje každá Š jednotka
- časové – určenie časového intervalu, ku ktorému sa jednotky zahrnuli
- spravodajská jednotka – organizačná jednotka, u ktorej sa zisťuje prvotná alebo odvodená štat. Informácia – niekedy = Š jednotke, napr. študent – zisťovanie prospechu za rok
- štatistické znaky – vlastnosti, ktoré majú význam pri skúmaní
- zhodné štat. znaky – v každej jednotke rovnaké
- triediace štat. znaky – nadobúdajú rôzne obmeny a pomocou nich triedime na jednotlivé tzv. sociálne skupiny kvalitatívne od seba odlišné
- štat. znaky vecné – číselné, ich podstatu možno vyjadriť číslom
- štat. znaky miestne – určované správnymi obvodmi
- štat. znaky časové – obmedzujú jav na určitý čas – okamžikové alebo intervalové
| ZHODNÉ |
| TRIEDIACE |
|
|
|
|
|
|
| \ |
| / |
|
|
|
|
|
|
| ŠTATISTICKÉ ZNAKY |
|
|
|
|
|
| OSTATNÉ VLASTNOSTI |
|
|
|
| \ |
|
|
|
| / |
|
|
|
|
| VLASTNOSTI HROMADNÝCH JAVOV A PROCESOV |
|
|
|
|
|
|
|
| / |
|
| I |
| I |
|
|
| VECNÉ |
|
|
| ČASOVÉ |
| MIESTNE |
|
| / |
|
|
| / | I |
| I | \ |
| SLOVNÉ |
| ČÍSELNÉ |
| URČENÉ | URČENÉ |
| URČENÉ | URČENÉ |
| KVALITA |
| KVANTITA |
| KALEN | INAK |
| SPRÁVNYMI | INAK |
/ | \ |
| I | \ | DÁRNE |
|
| OBVODMI |
|
ALTER | MNOŽNÉ |
| NESPOJITÉ | SPOJITÉ |
|
|
|
|
|
NATÍVNE |
|
|
|
|
|
|
|
|
|
- štatistické zisťovanie – končí zozbieraním Š znakov od sledovaných jednotiek
- zoradením znakov podľa číselného alebo slovného znaku vytvoríme štatistický rad, ktorý môže byť buď dynamický alebo statický
- výsledok štat. zisťovania sa vyjadruje číslom, kt. nazývame ukazovateľ – ten je buď absolútny alebo odvodený – napr. počet obyvateľov okresu v osobách a obyvateľov na km2
- extenzitné – objemové – má zmysel ich sčítať dokopy, sú to absolútne ukazovatele
- intenzitné – úrovňové – nie sú sčítateľné, nevyjadrujú množstvo ale úroveň, sú to odvodené ukazovatele
- ukazovatele vyjadrujeme mernými jednotkami
Štatistické skúmanie a jeho etapy
- musí sa dodržiavať postupnosť logicky na seba nadväzujúcich procesov. To zabezpečí získanie sústavy objektívnych štat. informácií. Treba určiť predmet, obsah, rozsah a účel štatistického skúmania.
- predmetom skúmania sú hromadné javy alebo procesy. Hovoríme o nich podľa odboru – ekonomické javy.
- Musí byť určený vecne, časovo a miestne, javy musia tvoriť homogénny a porovnateľný celok.
- účel musí charakterizovať kvalitatívnu stránku javov – dosiahnutú úroveň a vývoj v čase
- obsah štat. skúmania vychádza z vymedzeného predmetu skúmania – dôležité vlastnosti hromadných javov, ktorých analýzou splníme účel štat. zisťovania
- rozsah štat. skúmania charakterizuje tú časť hromadných javov, kt. podrobíme štat. skúmaniu – počet javov, kt. budeme sledovať, pozorovať, ...
Vlastné štatistické zisťovanie
- klasifikáciu a kategorizácia znakov – z ktorých hľadísk treba triediť a akú formu treba na ich spracovanie
- pripraviť makety formulárov a zberných tabuliek. Podklady a údaje čerpáme z evidencie, kalkulácií, správ...
- pred spracovaním treba spraviť kontrolu správnosti, kt. musí urobiť každý, pracujúci s informáciami
- prvotná kontrola – pri vzniku záznamu, kontrola formálna – vyplnenie všetkých položiek vo formulári, vecná kontrola – či údaje sa pohybujú v medziach reality, počtová kontrola – správnosť výpočtov – riadky...
Spracovanie štatistických podkladov
- je to výpočet potrebných charakteristík – klasické, počítačom – výsledkom je sústava štatistických charakteristík, ktoré v zhustenej forme poskytujú obraz o súbore
- obecné štatistické metódy – postupy, každá má svoj algoritmus, je stanovené presné poradie operácií
- metóda štatistického triedenia, metóda grafického znázorňovania, metóda stredných hodnôt, metóda korelačnej analýzy, metóda rozboru časových radov, ekonomické indexy a metóda analýzy kvalitatívnych znakov.
- Triedenie a znázornenie je možné pri každom skúmaní – statickom aj dynamickom
- Stredné hodnoty a variabilita a korelačná analýza pri statických
- Pomerné hodnoty, ekonomické indexy a analýza časových radov – dynamické
- Zovšeobecňovanie – indukcia, podľa cca 95% pravdepodobnosti, nazývame ich mat-šta metódy
- Formu spracovania rozhoduje organizačné členenie, možnosť automatizácie, náklady na spracovanie
- 2 formy spracovania – centralizovane a decentralizovane
Zhodnotenie výsledkov spracovania
- poskytuje otázky, logicky posúdené výsledky štatistických charakteristík – zovšeobecnenie. Výslovné závery majú poznávaciu platnosť alebo signalizujú oblasti a problémy na ďalšiu analýzu.
Vyjadrovacie prostriedky v štatistike
- forma slovného komentovania, forma štatistických tabuliek, forma grafického znázornenia
- pre písomnú prácu – elaborát – vyvážený text a tabuľky a grafy
- pre občiansku verejnosť – informačno popularizačná stránka – heslovitý výklad pozitívny/negatívny
- pre odborno-vedeckú prax – bohatý slovný výklad, metodický postup, polemika doplnená poznatkami, len najdôležitejšie tabuľkové a grafové prehľady, ostatné do prílohy
Štatistická tabuľka – najpoužívanejší prostriedok
- nadpis – stručný, vyjadruje podstatu a obsah, ak je príliš dlhý tak podtitul
- legenda – pred prvým stĺpcom hlavička
- hlavička – nad prvým riadkom legenda I xxx I
- nezaujímavé hodnoty dáme do „ostatné“, zaokrúhľuje sa na daný počet desatinných miest
Grafické znázornenie – prehľadné zobrazenie vzťahov a hodnôt, musí byť zrozumiteľné
- názov, podtitul, grafický obraz – množina bodov, čiar, pomocné vyjadrovacie prostriedky –
- veľkosť grafu – záleží od pomeru dĺžky a šírky intervalov
- grafy – bodový ......, polygón – pospájaný bodový, histogram – stĺpcový graf, kumulatívny ogív – z kumulatívnej početnosti, galtonov ogív – zotriedený podľa početnosti, z-diagram – 2 polygóny v grafe, výsečový graf – pie chart, piktogram – smajlíky= množstvo, kartogram – vzorka, vzťahový spojnicový graf.
Výberové metódy –
- základný súbor, z neho výberový súbor. Vyčerpávajúce štatistické zisťovanie – nákladné a zdĺhavé. Výberové – nízke náklady, rýchle. Odlišuje sa chybou výberovou alebo chybou odhadu. Výbery:
- náhodný – žiadne vedomosti o vnútornej štruktúre. Môže byť skreslený.
- Mechanický – rovnomerne zachytenie všetky jednotky – rozdelenie na skupiny, k každej skupiny 1 s rovnakým poradím ako v ostatných.
- Typické prípady – máme informácie o existencii kvalitatívne odlišných skupinách, napr. 3, ohraničíme intervalmi a z každej skupiny vyberieme rovnaký počet reprezentantov, nie hraničné intervaly
- Typologický – poznáme kvalitatívne odlišné skupiny a ich početné zastúpenie. Pomer zastúpených vyberáme náhodne alebo rovnomerne porade v rámci skupiny.
- Sériový – poznáme skupiny a početné zastúpenie v ňom, berieme celé série susediacich jednotiek aby vytvárali súbor.
Náhodný výber – s opakovaním – vybratá jednotka môže byť vybratá znova
- bez opakovania – vybrané jednotky sa nevracajú do základného súboru
|
|
| Š. rady |
|
|
|
| / |
| \ |
|
|
| Statické |
| Dynamické |
|
| / |
|
|
| \ |
| Miestne |
| Vecné |
| Časové |
/ | I | / | I | / | I |
Okamžik | Interval | Okamžik | Interval | Okamžik | Interval |
Štatistické rady –
- zotriedením Š súboru získame Š rad – statický – veľkosť javov za okamžik alebo dynamický – zmena javu v priebehu času.
- Miestne rady – územné hľadisko, vecné rady – vecné hľadisko – kvalitatívne –slovné rady alebo kvantitatívne - číselné rady. Časové rady – udávajú hodnoty za viac období po sebe. Okamžikový rad – v 1 okamihu. Ak sú pohybujúce ide o intervalový Š rad. Časové musia byť rovnako veľké, najčastejšie mesiace a roky. Musia byť zhodné jednotky. Ak chýbajú členy časového radu použijeme: Interpoláciu – vo vnútri radu, vkladanie alebo Extrapoláciu – na konci radu, pripojovanie. Iba v prípade že údaje skutočne treba.
Štatistické triedenie
základná metóda spracovania hromadných javov a procesov. Je to usporiadanie podľa zistených štat. znakov vo vyjadrení podobných vlastností. Triedením sa rozpadá na čiastkové súbory, ktoré sú rovnorodejšie. Zásady triedenia
- Každá jednotka musí byť zahrnutá do skupiny – úplné triedenie
- počet skupín je veľký len tak aby boli zachytené najvýznamnejšie typy a rysy súboru
- jednotlivé skupiny vzniknuté triedením sa musia vylučovať – presné vymedzenie
Triedenie podľa obsahu skúmania – typologické triedenie – napr. podľa sektorov
- prehĺbené triedenie – získanie štrukturálneho obrazu – sektory rozdelíme podľa oblastí
- analytické triedenie – rozlišujeme znaky príčinné a výsledné – faktoriálne a rezultatívne
Triedenie podľa počtu triediacich znakov – triedenie jednostupňové – podľa obmien jedného znaku – na štruktúru.
- Triedenie viacstupňové – čiastkové súbory triedenia triedime podľa ďalšieho znaku alebo podskupiny
Triedenie podľa druhu triediacich znakov – podľa znakov:
- časového – tie jednotky, ktoré majú rovnaký časový znak – polroky, štvrťroky
- priestorového – tie jednotky, ktoré vznikli na rovnakom území
- vecného – slovné a číselné znaky
ca) kvalitatívne - alternatívne triedenie – iba 2 obmeny znaku – ženy/muži
- množné – viac ako 2 obmeny – národnosť, náboženstvo
Počet jednotiek skupiny môže byť vyjadrený absolútne alebo relatívne.
cb) kvantitatívne – usporiadanie na skupiny podľa rôznych hodnôt
- metóda prostého triedenia – zoradenie vzostupne, ak je súbor malý
- rozdelenie početnosti – nespojitý štat. znak, rozdelenie na xi a ni
Ak má súbor veľké variačné rozpätie spájame susediace obmeny do skupinových intervalov – skupinové rozdelenie početnosti. Čiarkovacia metóda - ////–– Treba používať rovnako veľké intervaly, má ich byť čo najmenej po zohľadnení rozsahu Š súboru.
Metóda stredných hodnôt – priemerné hodnoty + ostatné stredné hodnoty. – charakterizujú Š súbor niekoľkými charakteristikami, okolo stredných hodnôt by sa mala pohybovať prevažná časť Š znaku.
Priemery – v hodnote zahŕňajú veľkosť Š znaku v celom súbore. Priemery môžeme použiť jedine s triedením – na homogénne celky. Inak sa môžu vyskytovať extrémne hodnoty, ktoré skresľujú.
Bodový a intervalový odhad – zo štat. súboru spravíme výberový súbor, určíme charakteristiky, ktoré platia na základný súbor a urobíme odhad.
Bodový – 1 hodnota Intervalový – hodnota s intervalom
Priemer – u – základného súboru, x – výberového súboru, u = x
Smerodajná odchýlka základného súboru , výberového súboru
Intervalové odhady
, x – priemer výberového súboru, t1.. tabuľkové hodnoty kvartilového normálneho rozdelenia – 95% = 1,96, 99% = 2,576
Intervalový odhad variačného rozpätia. L = odhad variačného rozpätia pri výberovom súbore, l – základného súboru
Intervalový odhad smerodajnej odchýlky –
Rozptyl n – rozsah výberového súboru, s2 – rozptyl výberového súboru
Metódy matematickej štatistiky
Vlastnosti základného súboru umožňuje skúmať teória počtu pravdepodobnosti, ktorá umožňuje vyslovovať hypotézy o vlastnostiach súboru a parametroch hypotézy a overovať ich. Ak sa hypotéza dá overovať, nazývame ju štatistickou hypotézou – každý predpoklad o neznámej vlastnosti rozloženia. Ak sa hypotéza týka hodnoty nazývame ju parametrická hypotéza, ak nie je to neparametrická hypotéza. Pri porovnávaní so skutočnosťou rozlišujeme významný rozdiel a náhodný rozdiel – prejav variability. Overovanie uskutočňujeme testom štatistickej významnosti. Overovanie hypotéz testami významnosti si vyžaduje:
- voľbu stupňa významnosti
- určenie testovacieho kritéria
- interpretáciu výsledkov
Väčšina hypotéz spočíva vo vyslovení nulovej hypotézy H0, kde sa predpokladá rovnosť medzi charakteristikami súboru a hypotetickou veličinou.. alebo . Ak neplatí táto hypotéza, potom platí jedna z alternatívnych hypotéz: , , . Testami overujeme nulovú hypotézu proti alternatívnym. Pri overovaní nultej hovoríme o ľavostrannom teste, alternatívnych pravostrannom a tretej hypotézy o obojstrannom teste. Hypotézy môžu byť parametrické a neparametrické. Oblasť hranice zamietania hypotézy sa nazýva kritickou oblasťou testovanej hypotézy. Preto zostavujeme hranicu významnosti – to je pravdepodobnosť zamietnutia chyby, čiže riziko chyby, označujeme ako α.
Normálne rozdelenie – Gauss-Laplazeove rozdelenie / krivka
oblasť zamietnutia
2,5% 95% 2,5%
0
-tα intervaly spoľahlivosti tα
Obrázok: Ide o obojstranný test. Pri testovaní hypotéz sa môžeme dopustiť 2 chýb. 1. zamietneme správnu hypotézu H0, 2. prijmeme chybnú hypotézu H0. Riešenie:
Rozhodnutie: | H0 správna | H0 nesprávna |
H0 zamietame | chyba 1. druhu | správne riešenie |
H1 príjmame | správne riešenie | chyba 2. druhu |
Testovanie štatistických hypotéz
1. Formulácia H0 a alternatívnej H1
2. Voľba významnosti α – 0,01 alebo 0,05
3. Identifikácia testovacej štatistiky a formulácia rozhodovacieho pravidla
4. Rozhodovanie o prijatí alebo zamietnutí H0
Testy:
- parametrické – musíme počítať parametre a zároveň sa musia dodržať predpoklady. Najčastejšia predpokladaná požiadavka je normálne rozdelenie početnosti.
- Neparametrické – nie sú založené na štat. charakteristikách
Pr.: porovnanie 2 súborov – Fischerov F-test, F = <1,0>
Fischerov nezávislé súborytestovacia Š.
Testovanie rozptylu potrebujeme, aby sme vedeli testovať zhodnosť priemerov. Ak sa rovnajú, sú nezávislé.
Nezávislé súbory – nezisťujem výsledky u rovnakých štat. jednotiek, nepoznáme Š. jednotky v časovom posune, rozsah môže byť rôzny.
Závislé súbory – tie isté Š. jednotky. Rozsah súboru musí byť rovnaký n1=n2
Pri testovaní zhodnosti priemerov musíme otestovať zhodnosť priemerov. Ak vypočítané<tab. Hodnota, tak H0 platí
Analýza viacrozmerného súboru
Je možné najprv určiť uvažované charakteristiky pre každý zo sledovaných znakov. Charakteristickou závislosťou je príčinná – kauzálna závislosť, jeden príčina, druhý následok. Zisťujeme pri hromadnom pozorovaní, najprv logickou analýzou, zisťujeme príčiny a následky, potom vymedzíme podmienky kedy sa závislosť realizuje. Sleduje
- hlavný smer závislosti – vyjadrenie matematickou funkciou – regresnou čiarou
- určenie tesnosti závislosti – medzi znakmi
Pri 2 znakoch je to jednoduchá, pri viac znakoch mnohonásobná korelácia. Podľa závislosti je lineárna – následky sú lineárne a nelineárna – nepriama úmera.
Regresia / vzťah medzi nezávisle premennou Y a nezávisle premennými vyjadruje regresná funkcia . Y´ udáva teoretickú veľkosť závislej premennej, ktorú by dosahovala pri určitej veľkosti nezávisle premenných Xi, keby na ňu nevplývali žiadne iné vplyvy. kde e-zložka náhodného kolísania premennej Yi=reziduálna odchýlka. Regresná úloha korelačného počtu teda je odhadnúť parametre na základe empirických údajov. Treba:
- správne určiť charakter závislosti medzi závislými a nezávisle premennými = vhodný typ regresnej funkcie
- odhadnúť jej parametre
Rozdiel medzi skutočnosťou a teoretickou veľkosťou je náhodná chyba – reziduálna . Ak je funkcia lineárna použijeme metódu najmenších štvorcov. = minimum. Teda súčet štvorcov odchýlok od teoretických hodnôt by mal byť čo najmenší. Parciálne derivácie čím získame sústavu k+1 rovníc s k+1 neznámymi b0, b1... teda sústavu normálnych rovníc. Jej riešením sú koeficienty b0, b1...
Vlastnosti MNŠ: 1. súčet štvorcov je minimálny, 2. súčet odchýlok od empirických hodnôt = 0, 3. regresná funkcia vždy prechádza bodom, ktoré sú priemery , 4. odhad MNŠ je najlepší odhad
Jednoduchá lineárna závislosť – funkcia
riešením sú koeficienty b0-konštanta, určuje kde priamka pretína os y. Teoretická veľkosť premennej ak nezávislá je 0.
b1-regresný koeficient – o koľko Ak je regresný koeficient >0, priama závislosť sa zmení závislá premenná, ak sa ak je regresný koeficient<0 nepriama záv. zmení nezávislá o 1.
Miera tesnosti závislosti – vyjadruje veľkosť závislosti y od x.
Závislosť kvalitatívnych znakov
B\A | A1 | A2 | S |
B1 | A1B1 | A2B1 | AKB1 |
B2 | A1B2 | A2B2 | 2BKA |
S | A1BN | A2BN | AKBN |
- pri 2 znakoch – obmenách premennej - asociácia – asociačná tabuľka
- pri viac znakoch – kontingencia - kontingenčná tabuľka
Časové rady- 3 druhy pohybu v čase:
- trend – dlhodobý pohyb v časovom rade – celková tendencia
- oscilácia – opakované kolísanie okolo skutočného priebehu hodnôt okolo 1 trendu
- cyklické – cyklus je dlhší ako rok
- krátkodobé – v priebehu roka
- sezónne – dĺžka cyklu zodpovedá dĺžke roka
- Náhodné kolísanie – nepravidelný pohyb, zostatok po vylúčení trendu a oscilácie
Zostavenie časového radu: - údaje sú za rovnako dlhé obdobie, v rovnakých nemenných jednotkách, usporiadané chronologicky od najstaršieho a pri zisťovaní musia byť dodržané rovnaké metódy zisťovania.
Hlavnou úlohou časových radov je skúmanie tendencie – vývoja. To sa deje:
- interpoláciou – vyrovnávaním časového radu priamkou
- extrapoláciou – pokračovanie priamky do nasledujúcich období
Metódy vyrovnávania časového radu:
Trojročný pohybový priemer – spriemerujú sa údaje za 3 roky- predchádzajúci, skúmaný a nasledujúci. orientačný
Grafické interpolácie – medzi jednotlivé body na grafe vnášame priamku aby bol rovnaký počet nad a pod priamkou
Vyrovnanie čiastkovými priemermi – rad rozdelíme na 2 rovnako dlhé súbory – pre každý spravíme priemer
Párne – 1,2,3,4 + 5,6,7,8 = 1) obdobie 2,3; 2) obdobie 6,7 = (2,3)–>(6,7) | body potom spojíme priamkou
Nepárne – 1,2,3,4,5+5,6,7,8,9 = 1) obdobie 3; 2) obdobie 7 =3–>7 |
Vyrovnávanie časového radu trendami – najčastejšie priamkou, ďalšie – hyperbola, exponenciálna, logistická, ďal.
Metóda najmenších štvorcov –
to je vtedy, ak súčet odchyliek od hodnôt
Vyrovnávanie priamkou s intervalovým odhadom – priamka má tvar , normálové rovnice a . Potom posunieme začiatok časového radu do stredu, takže a normálové rovnice a. Parametre majú tvar , . Vhodný začiatok je v strede časového radu. Nepárny počet – obdobie, párny počet – medzi 2 obdobiami.
Sezónnosť krátkodobých časových radov – je kolísanie hodnôt okolo trendu, kde dĺžka cyklu kolísania = dĺžka roku. Meranie sezónnosti – indexom – porovnanie skutočného a celoročného priemeru