zoradene prednasky

Návrat na detail prednášky / Stiahnuť prednášku / Trenčianska univerzita A. Dubčeka / Fakulta Sociálno Ekonomických vzťahov / Štatistika

 

Spracovaná teória z knihy (sta_faq.doc)

Štatistika

  1. teoretická veda a praktická činnosť na riešenie reálnych problémov spoločnosti
  2. predmet skúmania – zákonitosti kvantitatívnej stránky hromadných javov a procesov s ich kvalitatívnymi rysmi
  3. hromadný jav – ľubovoľný jav, hromadný proces – ľubovoľná činnosť, viacnásobná opakovateľnosť v priestore a čase
  4. zákonitosti javov a procesov nazývame štatistickými zákonitosťami. Treba skúmať či je dostatočne veľký počet individuálnych javov, napr. hromadné pozorovanie
  5. Š je využiteľná v rôznych sférach, využíva pravdepodobnosť. Všeobecne je to teória štatistiky, pri používaní pravdepodobnosti je to matematická štatistika, ak zhusťuje informácie o skúmaných javoch je to popisná štatistika, ak odhaduje pravdepodobnosť a podľa toho vytvára zákonitosti je to štatistika indukcia.
  6. Samostatné štatistické disciplíny – špecializujú sa na oblasti života – štátna, rezortná a osobitné štatistiky
  7. Štatistický údaj/parameter – číselné informácie o hromadnom jave a ich vypočítané štatistické číselné charakteristiky

 

Základné pojmy

  1. štatistická jednotka je základný prvok, na ktorom sa skúma jav
  2. súhrn štatistických jednotiek s spoločnými vlastnosťami nazývame štatistický súbor
  3. podľa toho či obsahuje všetky alebo len ich časť je to základný alebo výberový Š súbor
  4. vecné vymedzenie – určenie takých vlastností, ktorým vyhovuje každá Š jednotka
  5. časové – určenie časového intervalu, ku ktorému sa jednotky zahrnuli
  6. spravodajská jednotka – organizačná jednotka, u ktorej sa zisťuje prvotná alebo odvodená štat. Informácia – niekedy = Š jednotke, napr. študent – zisťovanie prospechu za rok
  7. štatistické znaky – vlastnosti, ktoré majú význam pri skúmaní
  8. zhodné štat. znaky – v každej jednotke rovnaké
  9. triediace štat. znaky – nadobúdajú rôzne obmeny a pomocou nich triedime na jednotlivé tzv. sociálne skupiny kvalitatívne od seba odlišné
  10. štat. znaky vecné – číselné, ich podstatu možno vyjadriť číslom
  11. štat. znaky miestne – určované správnymi obvodmi
  12. štat. znaky časové – obmedzujú jav na určitý čas – okamžikové alebo intervalové

 

ZHODNÉ

 

TRIEDIACE

 

 

 

 

 

 

 

\

 

/

 

 

 

 

 

 

 

ŠTATISTICKÉ ZNAKY

 

 

 

 

 

 

OSTATNÉ VLASTNOSTI

 

 

 

 

\

 

 

 

 

/

 

 

 

 

 

VLASTNOSTI HROMADNÝCH JAVOV A PROCESOV

 

 

 

 

 

 

 

 

/

 

 

I

 

I

 

 

 

VECNÉ

 

 

 

ČASOVÉ

 

MIESTNE

 

 

/

 

 

 

/

I

 

I

\

 

SLOVNÉ

 

ČÍSELNÉ

 

URČENÉ

URČENÉ

 

URČENÉ

URČENÉ

 

KVALITA

 

KVANTITA

 

KALEN

INAK

 

SPRÁVNYMI

INAK

/

\

 

I

\

DÁRNE

 

 

OBVODMI

 

ALTER

MNOŽNÉ

 

NESPOJITÉ

SPOJITÉ

 

 

 

 

 

NATÍVNE

 

 

 

 

 

 

 

 

 

  1. štatistické zisťovanie – končí zozbieraním Š znakov od sledovaných jednotiek
  2. zoradením znakov podľa číselného alebo slovného znaku vytvoríme štatistický rad, ktorý môže byť buď dynamický alebo statický
  3. výsledok štat. zisťovania sa vyjadruje číslom, kt. nazývame ukazovateľ – ten je buď absolútny alebo odvodený – napr. počet obyvateľov okresu v osobách a obyvateľov na km2
  4. extenzitné – objemové – má zmysel ich sčítať dokopy, sú to absolútne ukazovatele
  5. intenzitné – úrovňové – nie sú sčítateľné, nevyjadrujú množstvo ale úroveň, sú to odvodené ukazovatele
  6. ukazovatele vyjadrujeme mernými jednotkami

 

 

 

Štatistické skúmanie a jeho etapy

  1. musí sa dodržiavať postupnosť logicky na seba nadväzujúcich procesov. To zabezpečí získanie sústavy objektívnych štat. informácií. Treba určiť predmet, obsah, rozsah a účel štatistického skúmania.
  2. predmetom skúmania sú hromadné javy alebo procesy. Hovoríme o nich podľa odboru – ekonomické javy.
  3. Musí byť určený vecne, časovo a miestne, javy musia tvoriť homogénny a porovnateľný celok.
  4. účel musí charakterizovať kvalitatívnu stránku javov – dosiahnutú úroveň a vývoj v čase
  5. obsah štat. skúmania vychádza z vymedzeného predmetu skúmania – dôležité vlastnosti hromadných javov, ktorých analýzou splníme účel štat. zisťovania
  6. rozsah štat. skúmania charakterizuje tú časť hromadných javov, kt. podrobíme štat. skúmaniu – počet javov, kt. budeme sledovať, pozorovať, ...

 

Vlastné štatistické zisťovanie

  1. klasifikáciu a kategorizácia znakov – z ktorých hľadísk treba triediť a akú formu treba na ich spracovanie
  2. pripraviť makety formulárov a zberných tabuliek. Podklady a údaje čerpáme z evidencie, kalkulácií, správ...
  3. pred spracovaním treba spraviť kontrolu správnosti, kt. musí urobiť každý, pracujúci s informáciami
  4. prvotná kontrola – pri vzniku záznamu, kontrola formálna – vyplnenie všetkých položiek vo formulári, vecná kontrola – či údaje sa pohybujú v medziach reality, počtová kontrola – správnosť výpočtov – riadky...

 

Spracovanie štatistických podkladov

  1. je to výpočet potrebných charakteristík – klasické, počítačom – výsledkom je sústava štatistických charakteristík, ktoré v zhustenej forme poskytujú obraz o súbore
  2. obecné štatistické metódy – postupy, každá má svoj algoritmus, je stanovené presné poradie operácií
  3. metóda štatistického triedenia, metóda grafického znázorňovania, metóda stredných hodnôt, metóda korelačnej analýzy, metóda rozboru časových radov, ekonomické indexy a metóda analýzy kvalitatívnych znakov.
  4. Triedenie a znázornenie je možné pri každom skúmaní – statickom aj dynamickom
  5. Stredné hodnoty a variabilita a korelačná analýza pri statických
  6. Pomerné hodnoty, ekonomické indexy a analýza časových radov – dynamické
  7. Zovšeobecňovanie – indukcia, podľa cca 95% pravdepodobnosti, nazývame ich mat-šta metódy
  8. Formu spracovania rozhoduje organizačné členenie, možnosť automatizácie, náklady na spracovanie
  9. 2 formy spracovania – centralizovane a decentralizovane

 

Zhodnotenie výsledkov spracovania

  1. poskytuje otázky, logicky posúdené výsledky štatistických charakteristík – zovšeobecnenie. Výslovné závery majú poznávaciu platnosť alebo signalizujú oblasti a problémy na ďalšiu analýzu.

 

Vyjadrovacie prostriedky v štatistike

  1. forma slovného komentovania, forma štatistických tabuliek, forma grafického znázornenia
  2. pre písomnú prácu – elaborát – vyvážený text a tabuľky a grafy
  3. pre  občiansku verejnosť – informačno popularizačná stránka – heslovitý výklad pozitívny/negatívny
  4. pre odborno-vedeckú prax – bohatý slovný výklad, metodický postup, polemika doplnená poznatkami, len najdôležitejšie tabuľkové a grafové prehľady, ostatné do prílohy

 

Štatistická tabuľka – najpoužívanejší prostriedok

- nadpis – stručný, vyjadruje podstatu a obsah, ak je príliš dlhý tak podtitul

- legenda – pred prvým stĺpcom                                hlavička

- hlavička – nad prvým riadkom                        legenda I   xxx        I

- nezaujímavé hodnoty dáme do „ostatné“, zaokrúhľuje sa na daný počet desatinných miest

Grafické znázornenie – prehľadné zobrazenie vzťahov a hodnôt, musí byť zrozumiteľné

  1. názov, podtitul, grafický obraz – množina bodov, čiar, pomocné vyjadrovacie prostriedky –
  2. veľkosť grafu – záleží od pomeru dĺžky a šírky intervalov
  3. grafy – bodový ......, polygón – pospájaný bodový, histogram – stĺpcový graf, kumulatívny ogív – z kumulatívnej početnosti, galtonov ogív – zotriedený podľa početnosti, z-diagram – 2 polygóny v grafe, výsečový graf – pie chart, piktogram – smajlíky= množstvo, kartogram – vzorka, vzťahový spojnicový graf.

 

Výberové metódy –

  1. základný súbor, z neho výberový súbor. Vyčerpávajúce štatistické zisťovanie – nákladné a zdĺhavé. Výberové – nízke náklady, rýchle. Odlišuje sa chybou výberovou alebo chybou odhadu. Výbery:
  2. náhodný – žiadne vedomosti o vnútornej štruktúre. Môže byť skreslený.
  3. Mechanický – rovnomerne zachytenie všetky jednotky – rozdelenie na skupiny, k každej skupiny 1 s rovnakým poradím ako v ostatných.
  4. Typické prípady – máme informácie o existencii kvalitatívne odlišných skupinách, napr. 3, ohraničíme intervalmi a z každej skupiny vyberieme rovnaký počet reprezentantov, nie hraničné intervaly
  5. Typologický – poznáme kvalitatívne odlišné skupiny a ich početné zastúpenie. Pomer zastúpených vyberáme náhodne alebo rovnomerne porade v rámci skupiny.
  6. Sériový – poznáme skupiny a početné zastúpenie v ňom, berieme celé série susediacich jednotiek aby vytvárali súbor.

Náhodný výber – s opakovaním – vybratá jednotka môže byť vybratá znova

- bez opakovania – vybrané jednotky sa nevracajú do základného súboru

 

 

 

 

Š. rady

 

 

 

 

/

 

\

 

 

 

Statické

 

Dynamické

 

 

/

 

 

 

\

 

Miestne

 

Vecné

 

Časové

/

I

/

I

/

I

Okamžik

Interval

Okamžik

Interval

Okamžik

Interval

Štatistické rady –

  1. zotriedením Š súboru získame Š rad – statický – veľkosť javov za okamžik alebo dynamický – zmena javu v priebehu času.
  2. Miestne rady – územné hľadisko, vecné rady – vecné hľadisko – kvalitatívne –slovné rady alebo kvantitatívne - číselné rady. Časové rady – udávajú hodnoty za viac období po sebe. Okamžikový rad – v 1 okamihu. Ak sú pohybujúce ide o intervalový Š rad. Časové musia byť rovnako veľké, najčastejšie mesiace a roky. Musia byť zhodné jednotky. Ak chýbajú členy časového radu použijeme: Interpoláciu – vo vnútri radu, vkladanie alebo Extrapoláciu – na konci radu, pripojovanie. Iba v prípade že údaje skutočne treba.

 

Štatistické triedenie

základná metóda spracovania hromadných javov a procesov. Je to usporiadanie podľa zistených štat. znakov vo vyjadrení podobných vlastností. Triedením sa rozpadá na čiastkové súbory, ktoré sú rovnorodejšie. Zásady triedenia

  1. Každá jednotka musí byť zahrnutá do skupiny – úplné triedenie
  2. počet skupín je veľký len tak aby boli zachytené najvýznamnejšie typy a rysy súboru
  3. jednotlivé skupiny vzniknuté triedením sa musia vylučovať – presné vymedzenie

Triedenie podľa obsahu skúmania – typologické triedenie – napr. podľa sektorov

  1. prehĺbené triedenie – získanie štrukturálneho obrazu – sektory rozdelíme podľa oblastí
  2. analytické triedenie – rozlišujeme znaky príčinné a výsledné – faktoriálne a rezultatívne

Triedenie podľa počtu triediacich znakov – triedenie jednostupňové – podľa obmien jedného znaku – na štruktúru.

  1. Triedenie viacstupňové – čiastkové súbory triedenia triedime podľa ďalšieho znaku alebo podskupiny

Triedenie podľa druhu triediacich znakov – podľa znakov:

  1. časového – tie jednotky, ktoré majú rovnaký časový znak – polroky, štvrťroky
  2. priestorového – tie jednotky, ktoré vznikli na rovnakom území
  3. vecného – slovné a číselné znaky

ca)         kvalitatívne        - alternatívne triedenie – iba 2 obmeny znaku – ženy/muži

- množné – viac ako 2 obmeny – národnosť, náboženstvo

                Počet jednotiek skupiny môže byť vyjadrený absolútne alebo relatívne.

cb)        kvantitatívne – usporiadanie na skupiny podľa rôznych hodnôt

  1. metóda prostého triedenia – zoradenie vzostupne, ak je súbor malý
  2.  rozdelenie početnosti – nespojitý štat. znak, rozdelenie na xi a ni

Ak má súbor veľké variačné rozpätie spájame susediace obmeny do skupinových intervalov – skupinové rozdelenie početnosti. Čiarkovacia metóda - ////–– Treba používať rovnako veľké intervaly, má ich byť čo najmenej po zohľadnení rozsahu Š súboru.

 

Metóda stredných hodnôt – priemerné hodnoty + ostatné stredné hodnoty. – charakterizujú Š súbor niekoľkými charakteristikami, okolo stredných hodnôt by sa mala pohybovať prevažná časť Š znaku.

Priemery – v hodnote zahŕňajú veľkosť Š znaku v celom súbore. Priemery môžeme použiť jedine s triedením – na homogénne celky. Inak sa môžu vyskytovať extrémne hodnoty, ktoré skresľujú.

 

Bodový a intervalový odhad – zo štat. súboru spravíme výberový súbor, určíme charakteristiky, ktoré platia na základný súbor a urobíme odhad.

Bodový – 1 hodnota                                        Intervalový – hodnota s intervalom

 

Priemer – u – základného súboru, x – výberového súboru, u = x

Smerodajná odchýlka základného súboru , výberového súboru

 

Intervalové odhady

, x – priemer výberového súboru, t1.. tabuľkové hodnoty kvartilového normálneho rozdelenia – 95% = 1,96, 99% = 2,576

Intervalový odhad variačného rozpätia. L = odhad variačného rozpätia pri výberovom súbore, l – základného súboru

 

Intervalový odhad smerodajnej odchýlky –

Rozptyl         n – rozsah výberového súboru, s2 – rozptyl výberového súboru

 

Metódy matematickej štatistiky

Vlastnosti základného súboru umožňuje skúmať teória počtu pravdepodobnosti, ktorá umožňuje vyslovovať hypotézy o vlastnostiach súboru a parametroch hypotézy a overovať ich. Ak sa hypotéza dá overovať, nazývame ju štatistickou hypotézou – každý predpoklad o neznámej vlastnosti rozloženia. Ak sa hypotéza týka hodnoty nazývame ju parametrická hypotéza, ak nie je to neparametrická hypotéza. Pri porovnávaní so skutočnosťou rozlišujeme významný rozdiel a náhodný rozdiel – prejav variability. Overovanie uskutočňujeme testom štatistickej významnosti. Overovanie hypotéz testami významnosti si vyžaduje:

  1. voľbu stupňa významnosti
  2. určenie testovacieho kritéria
  3. interpretáciu výsledkov

Väčšina hypotéz spočíva vo vyslovení nulovej hypotézy H0, kde sa predpokladá rovnosť medzi charakteristikami súboru a hypotetickou veličinou.. alebo . Ak neplatí táto hypotéza, potom platí jedna z alternatívnych hypotéz: , , . Testami overujeme nulovú hypotézu proti alternatívnym. Pri overovaní nultej hovoríme o ľavostrannom teste, alternatívnych pravostrannom a tretej hypotézy o obojstrannom teste. Hypotézy môžu byť parametrické a neparametrické. Oblasť hranice zamietania hypotézy sa nazýva kritickou oblasťou testovanej hypotézy. Preto zostavujeme hranicu významnosti – to je pravdepodobnosť zamietnutia chyby, čiže riziko chyby, označujeme ako α.

 

Normálne rozdelenie – Gauss-Laplazeove rozdelenie / krivka

oblasť                                zamietnutia

 

                                

2,5%                        95%                2,5%

0

 

 

-tα         intervaly spoľahlivosti         tα

 

Obrázok: Ide o obojstranný test. Pri testovaní hypotéz sa môžeme dopustiť 2 chýb. 1. zamietneme správnu hypotézu H0, 2. prijmeme chybnú hypotézu H0. Riešenie:

Rozhodnutie:

H0 správna

H0 nesprávna

H0 zamietame

chyba 1. druhu

správne riešenie

H1 príjmame

správne riešenie

chyba 2. druhu

 

Testovanie štatistických hypotéz

1. Formulácia H0 a alternatívnej H1

2. Voľba významnosti α – 0,01 alebo 0,05

3. Identifikácia testovacej štatistiky a formulácia rozhodovacieho pravidla

4. Rozhodovanie o prijatí alebo zamietnutí H0

Testy:

  1. parametrické – musíme počítať parametre a zároveň sa musia dodržať predpoklady. Najčastejšia predpokladaná požiadavka je normálne rozdelenie početnosti.
  2. Neparametrické – nie sú založené na štat. charakteristikách

Pr.: porovnanie 2 súborov – Fischerov F-test, F = <1,0>                

Fischerov  nezávislé súborytestovacia Š.

Testovanie rozptylu potrebujeme, aby sme vedeli testovať zhodnosť priemerov. Ak sa rovnajú, sú nezávislé.

Nezávislé súbory – nezisťujem výsledky u rovnakých štat. jednotiek, nepoznáme Š. jednotky v časovom posune, rozsah môže byť rôzny.

Závislé súbory – tie isté Š. jednotky. Rozsah súboru musí byť rovnaký n1=n2

Pri testovaní zhodnosti priemerov musíme otestovať zhodnosť priemerov. Ak vypočítané<tab. Hodnota, tak H0 platí

 

Analýza viacrozmerného súboru

Je možné najprv určiť uvažované charakteristiky pre každý zo sledovaných znakov. Charakteristickou závislosťou je príčinná – kauzálna závislosť, jeden príčina, druhý následok. Zisťujeme pri hromadnom pozorovaní, najprv logickou analýzou, zisťujeme príčiny a následky, potom vymedzíme podmienky kedy sa závislosť realizuje. Sleduje

  1. hlavný smer závislosti – vyjadrenie  matematickou funkciou – regresnou čiarou
  2. určenie tesnosti závislosti – medzi znakmi

Pri 2 znakoch je to jednoduchá, pri viac znakoch mnohonásobná korelácia. Podľa závislosti je lineárna – následky sú lineárne a nelineárna – nepriama úmera.

 

Regresia / vzťah medzi nezávisle premennou Y a nezávisle premennými vyjadruje regresná funkcia . Y´ udáva teoretickú veľkosť závislej premennej, ktorú by dosahovala pri určitej veľkosti nezávisle premenných Xi, keby na ňu nevplývali žiadne iné vplyvy.  kde e-zložka náhodného kolísania premennej Yi=reziduálna odchýlka. Regresná úloha korelačného počtu teda je odhadnúť parametre  na základe empirických údajov. Treba:

  1. správne určiť charakter závislosti medzi závislými a nezávisle premennými = vhodný typ regresnej funkcie
  2. odhadnúť jej parametre

Rozdiel medzi skutočnosťou a teoretickou veľkosťou je náhodná chyba – reziduálna . Ak je funkcia lineárna použijeme metódu najmenších štvorcov. = minimum. Teda súčet štvorcov odchýlok od teoretických hodnôt by mal byť čo najmenší. Parciálne derivácie  čím získame sústavu k+1 rovníc s k+1 neznámymi b0, b1... teda sústavu normálnych rovníc. Jej riešením sú koeficienty b0, b1...

Vlastnosti MNŠ: 1. súčet štvorcov je minimálny, 2. súčet odchýlok od empirických hodnôt = 0, 3. regresná funkcia vždy prechádza bodom, ktoré sú priemery , 4. odhad MNŠ je najlepší odhad

Jednoduchá lineárna závislosť – funkcia

riešením sú koeficienty  b0-konštanta, určuje kde priamka                                       pretína os y. Teoretická veľkosť                         premennej ak nezávislá je 0.

b1-regresný koeficient – o koľko Ak je regresný koeficient >0, priama závislosť sa zmení závislá premenná, ak sa ak je regresný koeficient<0 nepriama záv.   zmení nezávislá o 1.

Miera tesnosti závislosti – vyjadruje veľkosť závislosti y od x.

 

Závislosť kvalitatívnych znakov

B\A

A1

A2

S

B1

A1B1

A2B1

AKB1

B2

A1B2

A2B2

2BKA

S

A1BN

A2BN

AKBN

  1. pri 2 znakoch – obmenách premennej - asociácia – asociačná tabuľka
  2. pri viac znakoch – kontingencia - kontingenčná tabuľka

 

 

Časové rady- 3 druhy pohybu v čase:

  1. trend – dlhodobý pohyb v časovom rade – celková tendencia
  2. oscilácia – opakované kolísanie okolo skutočného priebehu hodnôt okolo 1 trendu
  1. cyklické – cyklus je dlhší ako rok
  2. krátkodobé – v priebehu roka
  3. sezónne – dĺžka cyklu zodpovedá dĺžke roka
  1. Náhodné kolísanie – nepravidelný pohyb, zostatok po vylúčení trendu a oscilácie

Zostavenie časového radu: - údaje sú za rovnako dlhé obdobie, v rovnakých nemenných jednotkách, usporiadané chronologicky od najstaršieho a pri zisťovaní musia byť dodržané rovnaké metódy zisťovania.

Hlavnou úlohou časových radov je skúmanie tendencie – vývoja. To sa deje:

  1. interpoláciou – vyrovnávaním časového radu priamkou
  2. extrapoláciou – pokračovanie priamky do nasledujúcich období

 

Metódy vyrovnávania časového radu:

Trojročný pohybový priemer – spriemerujú sa údaje za 3 roky- predchádzajúci, skúmaný a nasledujúci. orientačný

Grafické interpolácie – medzi jednotlivé body na grafe vnášame priamku aby bol rovnaký počet nad a pod priamkou

Vyrovnanie čiastkovými priemermi – rad rozdelíme na 2 rovnako dlhé súbory – pre každý spravíme priemer

Párne – 1,2,3,4 + 5,6,7,8 = 1) obdobie 2,3;  2) obdobie 6,7 = (2,3)–>(6,7)        | body potom spojíme priamkou

Nepárne – 1,2,3,4,5+5,6,7,8,9 = 1) obdobie 3;   2) obdobie 7 =3–>7                |

 

Vyrovnávanie časového radu trendami – najčastejšie priamkou, ďalšie – hyperbola, exponenciálna, logistická, ďal.

Metóda najmenších štvorcov

to je vtedy, ak súčet odchyliek od hodnôt

Vyrovnávanie priamkou s intervalovým odhadom – priamka má tvar , normálové rovnice  a . Potom posunieme začiatok časového radu do stredu, takže a normálové rovnice a. Parametre majú tvar , . Vhodný začiatok je v strede časového radu. Nepárny počet – obdobie, párny počet – medzi 2 obdobiami.

 

Sezónnosť krátkodobých časových radov – je kolísanie hodnôt okolo trendu, kde dĺžka cyklu kolísania = dĺžka roku. Meranie sezónnosti – indexom – porovnanie skutočného a celoročného priemeru