P. 1
Statisticke metode

Statisticke metode

|Views: 4,407|Likes:
Published by ipakseobrce
Statisticke metode - TF Mihajlo Pupin, Zrenjanin, Srbija
Statisticke metode - TF Mihajlo Pupin, Zrenjanin, Srbija

More info:

Published by: ipakseobrce on Feb 19, 2010
Copyright:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as DOC, PDF, TXT or read online from Scribd
See more
See less

05/23/2013

pdf

text

original

Ž.

Branović

Statističke metode
beleške

Beograd, 2005.

Sadržaj – pitanja za usmeni deo ispita str. 1. Algebra događaja 2.Definicije verovatnoće događaja 3. Osobine verovatnoća 4.Uslovne verovatnoće 5. Nezavisnost događaja 6. Slučajne promenljive 7. Dvodimenzionalne slučajne promenljive 8. Funkcije slučajne promenljive 9. Numeričke karakteristike slučajne promenljive 10. Koeficijent korelacije 11.Mere centralne tendencije 12. Mere varijacije 13.Mere asimetrije i spljoštenosti 14. Zadatak statistike 15. Uzorak 16. Centralna teorema statistike 17. Tačkaste ocene parametara 18. Intervalno ocenjivanje 19. Testiranje statističkih hipoteza 20. T-test 21. χ2 –test 22. Regresije 23. Trendovi 1 5 9 10 12 14 19 22 24 27 29 35 36 41 43 45 46 49 52 57 60 63 67

1. Uvod u teoriju verovatnoće Ostvarivanjem određenih uslova koji su neophodni za izvođenje nekog opita (eksperimenta) ne dobijaju se uvek jednoznačni (deterministički) rezultati. Za teoriju verovatnoća je bitna upravo situacija kada se na osnovu realizovanja »određenog kompleksa uslova« mogu očekivati različiti slučajni ishodi (rezultati). Tipičan primer je bacanje kocke za igru. Ovde ostvarivanje kompleksa uslova znači »kocka je bačena«, dok je ishod, ili događaj, ili rezultat »broj tačaka na gornjoj strani kada kocka pada«. Teorija verovatnoća se bavi matematičkom analizom »slučajnih« ili »stohastičkih« pojava. Početak ove teorije se vezuje za proučavanje zakona koji vladaju kod hazardnih igara (Paskal, 1654.) da bi, naročito u XIX stoleću, matematički modeli »slučajnosti« postali znatno složeniji i apstraktniji tako da je Kolmogorov, 1933. godine aksiomatski zasnovao teoriju verovatnoća. 1.1. Algebra događaja Skup svih mogućih ishoda (događaja) koji se mogu očekivati pri nekom opitu -eksperimentu- ostvarenju kompleksa neophodnih uslova označava se sa Ω, dok se elementi tog skupa, tj. pojedini ishodi ili rezultati nazivaju elementarni događaji i označavaju sa ωi. Pod događajem A se podrazumeva bilo koji podskup A skupa Ω. Kažemo da se događaj A realizovao ako i samo ako se ostvari neki ishod ωi koji pripada podskupu A. Događaji se označavaju velikim slovima abecede, sa indeksima ili bez njih. Skup događaja Ω je događaj koji se realizuje uvek pa se on zove siguran ili izvestan događaj. Prazan podskup Ø zove se nemoguć događaj. Predstavljanje događaja kao podskupova skupa Ω omogućava da se među događajima posmatraju relacije i operacije koje su analogne sa najvažnijim relacijama i operacijama u Teoriji skupova.

Relacija implikacije. Kaže se da događaj A implicira događaj B (pišemo A ⊂ B) ako i samo ako kad se realizuje događaj A onda se realizuje i događaj B. Relacija identičnosti. Ako za neka dva događaja A i B važi A ⊂ B i B ⊂ A onda su A i B identični događaji i pišemo A = B Operacija komplementiranja. Datom događaju A se može pridružiti događaj Ac (zove se komplementaran ili suprotan događaj) koji se realizuje ako i samo ako se događaj A ne realizuje. Operacija presek (proizvod) događaja. Datim događajima A i B se može pridružiti novi događaj- presek ili proizvod, oznaka A  B ili AB. To je događaj koji se realizuje ako i samo ako se realizuju i događaj A i događaj B. Ako je A  B = AB = Ø kaže se da događaji A i B disjunktni (uzajamno se isključuju pa se ne mogu istovremeno ostvariti). Jasno je da je A  Ac = AAc = Ø. Operacija uniranja. Unija događaja A i B ( oznaka je A  B ) je događaj koji se ostvaruje ako i samo ako se ostvaruje bar jedan od događaja A i B. Unija dva disjunktna događaja A i B se označava sa A+B. Očigledno da je A  Ac = A+B = Ω. Razlika događaja. Razlika događaja A i B (oznaka A-B ili A\ B ) je događaj koji se realizuje ako i samo ako se realizuju oni ishodi ω koji pripadaju događaju A , a ne pripadaju događaju B. Oćigledno je A- B = ABc. Simetrična razlika događaja A i B, oznaka A∆B , definiše se sa A∆B = (A-B)  (B-A) = (A B) – AB Operacije » « i »  « se mogu proširiti na konačno, pa i prebrojivo mnogo događaja, tako da je : A1
A2 

...

 An

=  Ai
i =1

n

događaj koji se realizuje ako i samo ako se realizuje bar jedan od događaja Ai i ∈ {1, 2, 3, ... , n};

A1  A1

A2 

...

 An

=  Ai
i= 1

n

događaj koji se realizuje ako i samo ako se realizuje svaki od događaja Ai ;
 A2 

... =  Ai
i= 1

događaj koji se realizuje ako i samo ako se realizuje svaki od događaja A1,A2, ... ; A1  A2  ... =  Ai
i =1 ∞

događaj koji se realizuje ako i samo ako se realizuje bar jedan od događaja A1,A2, ... . Specijalno, ako je AiAj = A Ai pišemo

i 

A j = Ø za i≠j onda umesto 

i =1

∑ Ai = A1 + A2 + A3 + ... .
i =1

Primer 1.1. Igra se završava kada prvi put kod bacanja kocke padne broj 6. Neka je Ai događaj da u i-tom bacanju padne 6. Događaj »igra je završena » je  Ai.▲
i =1 ∞

Ako je A = B1+ B2 + ... + Bn , pri čemu je Bi Bj = Ø za i≠j , kažemo da je događaj A rastavljen na n posebnih slučajeva. Posebno, ako je B1+B2 + ... + Bn = Ω onda se kaže da događaji B1, B2, ... , Bn obrazuju potpunu grupu događaja. Na događaje se, očigledno, mogu preneti identiteti koji važe kod skupova, kao što su: A  (B  C) = (A  B)  (A  C) ; (A  B)c = Ac  Bc ; (A B)c = Ac  Bc, itd.

Primer 1.2. Događaji A, Ac  B i (A  B)c obrazuju potpunu grupu događaja jer je A  (Ac  B)  (A  B)c = A  (Ac  B)  (Ac  Bc) = A  (Ac  (B  Bc) = A  (Ac  Ω) = A  Ac = Ω .▲
Primer 1.3. Strelac gađa u cilj koji je oblika kružne mete poluprečnika r, pri ćemu se meri rastojanje x pogotka od centra mete. Opisati skup ishoda. Rešenje. Ω = { x : 0 ≤ x ≤ r }  { promašaj}▲

Primer 1.3. Student polaže tri ispita. Ako su A, B i C redom događaji: student je položio prvi, odnosno drugi ili treći ispit sledeće događaje izražavamo na sledeći način: a) student je položio sva tri ispita ABC = A  B  C b) student je položio bar jedan ispit A  B C = Ω – Ac Bc Cc = Ω – (A B  C)c c) student je položio samo jedan ispit A BcCc + Ac B Cc + Ac Bc C d) student nije položio ni jedan ispit (ABC)c Primer 1.4. Neka je skup ishoda u nekom eksperimentu dat sa Ω = {0,1,2,3,4,5,6,7,8,9}. Uočeni su sledeći događaji: A = {1,3,5,7,9}; B = {0,2,4,6,8} ; C ={4,5,6,7,8,9}. Odrediti sledeće događaje : a)ABC ; b) (A  B)c ; c) CcBc = Cc  Bc ; d) AΩ e) A B C ; f) Ac A ; g) Ac (B Cc) ; h) (A B C )c

2. Definicije verovatnoće događaja Klasična definicija verovatnoće. Pretpostavimo da je data potpuna grupa disjunktnih događaja E1, E2,..., En od kojih se nijedan ne može dalje razložiti na posebne slučajeve. Pretpostavimo dalje i da su svi ti događaji Ei jednako mogući, tj. svi se mogu očekivati sa “istom verovatnoćom”. Ako se dati događaj može rastaviti na m takvih događaja (to znači da on nastupa kada se ostvari bilo koji od tih m događaja) onda se za verovatnoću događaja A (oznaka p(A) ) uzima broj m / n. Jednakost p(A) = m / n predstavlja tzv. klasičnu definiciju verovatnoće događaja. Intuitivno je jasno da je verovatnoća izvesnog događaja jednaka 1( jer se on razlaže na n događaja, pa je tada m = n). Isto tako, verovatnoća nemogućeg događaja je 0 (jer je u tom slučaju m = 0). Kako je za bilo koji

slučajni događaj m ≤ n, sledi da je razlomak m / n pravi razlomak pa je otuda verovatnoća ma kog slučajnog događaja neki broj između 0 i 1. Pretpostavka o tome da su svi događaji Ei “jednako mogući” je ozbiljni nedostatak ove definicije verovatnoće događaja. Statistička definicija verovatnoće. Zamislimo eksperimenat koji se može ponavljati n puta i u svakom od tih ponavljanja se registruje da li se realizovao neki događaj A. Broj realizacija tog događaja u n ponovljenih eksperimenata označimo sa n(A) (0 ≤ n(A) ≤ n ) . Količnik n(A) / n nazivamo relativna učestalost (relativna frekvencija) događaja A u n ponovljenih eksperimenata (pokušaja). Ljudsko iskustvo, kao i neposredna intuicija, pokazuju da se sa uvećanjem broja n (kada n → ∞ )vrednosti količnika n(A) / n sve više grupišu oko jednog fiksnog broja p(A) koji se onda zove verovatnoća događaja A. To je tzv. statistička definicija verovatnoće događaja A saglasno kojoj je to granična vrednost (limes) relativne frekvencije kada se broj pokušaja (ekspeimenata) n neograničeno povećava. Tokom XVII i XVIII veka su vršeni različiti eksperimenti i utvrđivane su onda odgovarajuće relativne frekvencije. Tako su, recimo, za događaj da kod numerisane kocke padne broj 6 na gornjoj strani utvrđeni sledeći podaci: n n(A) n(A) / n 600 84 0,140 6000 957 0,160 60000 9847 0,164 120000 19936 0,166 Vidi se da se vrednosti relativnih frekvencija grupišu oko broja 1/6 ( ≈ 0,166), što prema klasičnoj definiciji predstavlja verovatnoću uočenog događaja. Pirson, engleski matematičar, je bacao novčić i beležio koliko se puta pojavilo pismo. Dobio je sledeće rezultate: n 4040 12000 n(A) 2048 6019 n(A) / n 0,5070 0,5016

24000

12012

0,5005

Očigledno je da se frekvencija sve više približava broju 0,5. Poznato je da je relativna frekvencija rođenja muškog deteta 0,515 i da se taj broj pokazao vrlo stabilan u raznim vekovima i u raznim krajevima sveta. Ozbiljno ograničenje kod statističke definicije verovatnoće je svakako to što ne postoji efektivan postupak za određivanje tačne granične vrednosti ( a time i verovatnoće događaja) kojoj se približava niz relativnih frekvencija kada se broj ponavljanja eksperimenta uvećava. Postoji i tzv. geometrijski definisana verovatnoća koja se odnosi na slučajeve kada je prostor svih ishoda neki neprebrojiv skup. Da bi se otklonili uočeni nedostaci u pojedinim od navedenih definicija uočava se jedna posebna kolekcija ili skup događaja na kome se pojam verovatnoće uvodi pomoću aksioma. Ta kolekcija, (onačena sa F ) zadovoljava sledeće zahteve: 1. Ω ∈ F, 2. Ako A ∈ F , onda i Ac ∈ F, i 3. Ako Ai ∈ F, n = 1,2, ... , tada i  A i ∈ F.
∞ i =1

Kolekcija događaja F se naziva σ – polje ili σ- algebra ili Borelovo polje događaja. Verovatnoća p je numerička funkcija definisana nad Borelovim poljem događaja tako da zadovoljava sledeće aksiome: A1) nenegativnost: Svakom slučajnom događaju A iz polja F odgovara nenegativan broj p(A) koji se zove verovatnoća događaja A. A2) normiranost. Verovatnoća sigurnog događaja je 1, tj. p (Ω) = 1. A3) σ- aditivnost. Ako je niz događaja An iz F takav da je Ai Aj = Ai  Aj =Ø za i ≠ j , onda je p (  Ai) = ∑ p(Ai).
i =1 ∞

i =1

Uređena trojka (Ω, F, p ) se zove prostor verovatnoće. Kaže se i da je zadavanje prostora verovatnoće upravo zadavanje prebrojivo aditivne nenegativne mere koja je još i normirana na merljivom prostoru. Na osnovu navedenih aksioma se dalje može izgrađivati sadržajna matematička teorija koja se temelji na tzv. teoriji mere. Konačan prostor verovatnoća. Neka je Ω = {ω1, ω2, ..., ωn} , n konačan prirodni broj, i neka su p1, p2, ... , pn brojevi koji zadovoljavaju uslov pi≥0, i = 1, 2, ... , n i
n

∑ pi = 1. F je skup svih podskupova od Ω kojih ima
i =1

n

2 uključujući i Ø. Verovatnoću možemo definisati na sledeći način: p(A) = ∑ pi pri čemu se indeks i odnosi na one ωi koji pripadaju datom događaju A. Lako se proverava da je sada (Ω, F, p ) prostor verovatnoće, odnosno da su zadovoljene aksiome A1, A2 i A3. Ako se pretpostavi da je pi = p(ωi ) = 1/n za i = 1,2,..., n dobija se klasična definicija verovatnoće za konačan prostor jednako verovatnih događaja, tj. p(A) = (broj ωi u A ) / n. Primer 2.1. Na 8 listića su zapisani brojevi 2, 4, 6, 7, 8, 11, 12, i 13. Na slučajan način se biraju dva listića. Odrediti verovatnoću da se razlomak formiran od izvučenih brojeva može skratiti. Broj svih mogućnosti n jednak je broju kombinacija druge klase od 8 elemenata, tj. n = 8! /(2! (8-2)!) = 28, dok je broj slučajeva m koji odgovaraju datom događaju jednak broju kombinacija druge klase od 5 elemenata (ima 5 parnih brojeva), tj. m = 5! / (2!(5-2)!) = 10. Otuda je verovatnoća datog događaja 5/14.▲

3. Osobine verovatnoće

Neposredne posledice aksioma pomoću kojih se definiše verovatnoća nekog događaja su, recimo: 1. p(Ø) = 0, jer je Ω = Ω + Ø + Ø + ... = Ω; 2. Konačna aditivnost : p( ∑ Ai ) = ∑ p(Ai) kao posledica σ- aditivnosti
i =1 i =1 n n

budući da je ∑ Ai = A1+A2+ ... + An + Ø + Ø + ... ;
i =1

n

3. p(A )= 1 – p(A), jer je A + Ac =Ω ; 4. Ako je A ⊆ B onda je p(A) ≤ p(B) , jer je onda B = A + AcB ; 5. Za ∀A ∈ F je 0 ≤ p(A) ≤ 1 , jer je Ø ⊂ A ⊂ Ω ; 6. p(A  B ) = p(A) + p(B) – p(AB) , jer je A = A + ABc i B = AB + AcB; 7. p(A  B ) ≤ P(A) + p(B) Na osnovu pojmova verovatnoće događaja p definišu se pojmovi » skoro siguran događaj A« - ako je p(A) = 1, i » skoro nemoguć događaj A« ako je p(A) = 0. To je zato što iz p(A) = 1 ne mora da sledi da je A =Ω , niti iz p(A) = 0 da je A = Ø . Primer 3.1. Koristeći osobinu 6. može se dobiti da je p(A  B  C) = p(A  (B  C)) = p(A) + p(B  C) – p (A(B  C)) = p(A) + p(B) + p(C) – p(BC) – p(AB  AC)) = p(A)+p(B) + p(C) – p(BC) –( p(AB) + p(AC) – p(ABAC)) = p(A) + p(B) + p(C) – p(AB) – p(AC) – p(BC) + p(ABC).▲

c

4. Uslovne verovatnoće

Često se javlja potreba da se odredi verovatnoća događaja B pod uslovom da se već ostvario događaj A ćija je verovatnoća pozitivna. Takve ce verovatnoće nazivaju uslovne i označavaju sa pA (B) ili p(B/ A) . Uslovna verovatnoća pA(B) određuje, opisno govoreći, koji deo događaja A obuhvata događaj B. Primer 4.1. Verovatnoća događaja B : »kod bacanja numerisane kocke pao je broj 2« je 1/6. Neka je poznato da je nastupio događaj A :« pao je paran broj«. Verovatnoća događaja B pod uslovom da je nastupio događaj A je onda 1/3.▲ U aksiomatskom zasnivanju teorije verovatnoće uslovna verovatnoća se uvodi definicijom. Neka je (Ω, F, p) prostor verovatnoće, A ∈ F i p(A) > 0 , tada je sa pA (B) = p(B/A) = p(AB) / p(A) = p(A  B) / p(A) za svako B∈ F određena nova verovatnoća pA i novi prostor verovatnoće (Ω, F, pA). Lako se može proveriti da ova nova verovatnoća zadovoljava napred navedene aksiome verovatnoće A1, A2 i A3. Iz definicije uslovne verovatnoće sledi tzv. pravilo množenja p(AB) = p(A) p(B/A) = p(B) p(A/B) koje se može onda proširiti na proizvod konačno mnogo događaja p(A1A2... An) = p(A1) p(A2/A1) p(A3/A1A2) ... p(An/A1A2A3...An-1) Sa uslovnim verovatnoćama su povezane i dve važne formule u teoriji verovatnoća. Formula totalne verovatnoće. Ako su A1,A2, ..., An uzajamno disjunktni događaji sa pozitivnim verovatnoćama tako da je ∑ Ai = Ω, onda za svaki događaj B∈ F važi:
i =1 n

p(B) = p(A1) p(B/A1) + p(A2) p(B/A2)+ ... + p(An) p(B/An) = ∑ p(Ai)
i =1

n

p(B/Ai) Zaista, disjunktnost događaja Ai i = 1,2, ... ,n povlači i disjunktnost događaja Ai B = Ai  B , a kako je B = BΩ = B(A1+ A2+ ... + An) = A1B + A2B + ... AnB to se, uzimanjem verovatnoća, dobija navedena formula. Događaji A1, A2, ... , An se često nazivaju i hipoteze. To znači da ako neki događaj nastupa uz određene hipoteze, onda njegova verovatnoća zavisi od verovatnoća tih hipoteza i uslovnih verovatnoća tog događaja pod uslovom da su se realizovale te hipoteze. Verovatnoće p(Ai) i = 1,2, ..., n su obično poznate unapred, pre realizacije nekog eksperimenta, pa se često nazivaju i apriornim verovatnoćama. Bajesova formula. Saglasno pravilu množenja je p(AiB) = p(Ai) p(B/Ai) = p(B) p(Ai /B) za i = 1, 2, ..., n. Iz zadnje dve jednakosti, uz korišćenje formule o totalnoj verovatnoći, dobija se p(Ai /B) = p(Ai ) p(B/ Ai) / p(B) = p(Ai) p(B/ Ai) / ∑ p(Aj) p(B/Aj) za j =1 B ∈ F.
n

Ova se formula obično interpretira na sledeći način: Događaj B se može realizovati pod različitim uzrocima, pretpostavkama, hipotezama A1,..., An . Događaj B se realizovao. Tada je p(Ai / B) verovatnoća događaja »realizacija događaja B je nastupila pod uzrokom, hipotezom Ai«, tj. verovatnoća hipoteze pod uslovom da se realizovao događaj B. Zbog toga se verovatnoće p(Ai/ B) nazivaju i aposteriorne verovatnoće. Primer 4.1. Pojava simptoma B u laboratorijskoj analizi krvi sreće se kod bolesti Ai, i= 1,2,...,n . Poznata je verovatnoća pojavljivanja svake bolesti Ai i verovatnoća pojavljivanja simptoma B kod svake bolesti Ai, i = 1,2,...,n. Bajesova formula omogućava da se odredi verovatnoća da je u pitanju bolest Ai , odnosno daje vrednost od p(Ai/ B).

Primer 4.2. Ako je p(A) = 0,9 ; p(B) = 0,8 pokazati da je p(A/ B) ≥ 0,875. p(A/ B) = p(AB) / p(B) = (p(A)+p(B) – p(A ∪ B))/ p(B) ≥(0,9 +0,8 – 1)/0,8= 0,875 budući da je p(A ∪ B) ≤ 1.▲

5. Nezavisnost događaja Događaj A je nezavisan od događaja B ako i samo ako je pA(B) = p(B). U tom slučaju ranije navedeno pravilo množenja dobija oblik p(AB) = p(A) p(B) Kako je u tom slučaju i pB(A) = p(AB) / p(B) = p(A) p(B) / p(B) = p(A) to znači da ako je B nezavisan od A tada je i A nezavisan od B. U praktičnim primenama nije lako proveriti nezavisnost događaja pomoću definicije. Nezavisnost događaja se obično pretpostavlja (ili ne pretpostavlja) na osnovu fizičkih uslova eksperimenta u kome te događaje posmatramo. Neki od nezavisnih događaja se lako uočavaju: 1. Proizvoljni događaj A i sigurni događaj Ω su nezavisni. Zaista, zbog AΩ = A i p(Ω) = 1 je p(AΩ) = p(A) = p(A)∙1 = p(A)∙ p(Ω) 2. Proizvoljni događaj A i nemogući događaj Ø su nezavisni. Zbog AØ =Ø i p(Ø) = 0 je p(AØ) = p(Ø) = 0 = 0∙p(A ) = p(Ø) p(A) . 3. Ako su događaji A i B nezavisni tada su to i događaji a) A i Bc , b) Ac i B , c) Ac i Bc .

Zaista, iz 1 = pB (Ω) = pB (A+Ac) = pB(A) + pB(Ac) = p(A) + pB(Ac) , odakle je pB(Ac) = 1 – p(A) = p(Ac) čime je pokazano da važi b). Proveri sam ostala tvrđenja! 4. Ako su A i B1 nezavisni, a isto tako i A i B2 , gde je B1B2 = Ø , tada su i A i B1 + B2 nezavisni. Očigledno je p(A(B1 + B2)) = p(AB1+AB2) = p(A) p(B1) + p(A) p(B2)= p(A) (p(B1) + p(B2)) = p(A) p(B1+B2). Događaji A1, A2, ... , An su nezavisni u ukupnosti ako postoji međusobna nezavisnost za proizvoljnih r (r ≤ n) takvih događaja, tj. za ma koju konačnu kolekciju Ai1, Ai2, ..., Air , 1 ≤ i1 ≤ i2 ... ≤ ir važi p(Ai1Ai2 ... Air) = p(Ai1) p(Ai2) ... p(Air). To znači i da je za ma kojih n događaja A1, A2, ... , An koji su nezavisni u ukupnosti: p(A1A2 ... An) = p(A1) p(A2) ... p(An) Da nezavisnost u parovima (bilo koja dva događaja su međusobno nezavisna) nije dovoljna za nezavisnost u ukupnosti pokazuje sledeći jednostavan primer. Tri strane pravilnog teatraedra su obojene redom crvenom, plavom i žutom bojom, dok je četvrta strana obojena sa sve te tri boje. Neka A označava događaj da prilikom bacanja tetraedra padne crvena boja, B- plava i C – žuta. Očigledno je da je p(A) = p(B) = p(C) = 2/4 = ½ .Takođe je p(AB) = ¼ = ½∙½ = p(A) p(B) , a isto važi i za događaje AC i BC. To znači da su događaji u parovima nezavisni. Međutim, p(ABC) = ¼ ≠ p(A) p(B) p(C) = ½∙½∙½ = ⅛ odnosno, događaji A, B i C nisu nezavisni u ukupnosti. Primer 5.1. Događaji A1, A2, ... , An su nezavisni. Odrediti: a) verovatnoću da se bar jedan od njih realizuje, b) verovatnoću da se svi ne realizuju, c) verovatnoću da se samo A3 realizuje. a) Posmatrani događaj je B = (A1cA2c... Anc)c pa je

p(B) = 1 – p(A1cA2c ... Anc) = 1 – p(A1c) p(A2c) ... p(Anc) = 1 – (1-p(A1)) (1-p(A2)) ... (1-p(An)). b) C = (A1A2 ... An)c , pa je p(C) = 1- p(A1) p(A2) ... p(An). Primer 5.2. Pokazati da događaji A i Ac nisu međusobno nezavisni. Zaista , ako je 0 < p(A) < 1 onda je i 0 < p(Ac) < 1 pa je p(Ac/ A) = p(AAc) / p(A) = p(Ø) / p(A) = 0 ≠ p(Ac).▲

6. Slučajne promenljive U svakodnevnom životu, kao i u naučnoj praksi, često se dešava da se nekom mogućem ishodu ω pridružuje neka numerička karakteristika ili obeležje, zapravo neki realni broj. Slučajnim događajima, kao skupovima elementarnih ishoda, se onda pridružuje određeni skup realnih brojeva. Tako se, povezivanjem prostora događaja sa skupom realnih brojeva, dolazi do novog pojma »slučajna veličina (promenljiva, varijabla)«. Preciznije, u prostoru (Ω, F , p) je ω neki elementarni događaj iz F. Slučajna promenljiva X(ω) je preslikavanje Ω→R pri čemu je za svaki

podskup S ⊂ R data verovatnoća da X(ω) ∈ S, tj. p(X ∈ S) = p(ω: X(ω) ∈ S) je poznata (ili se može odrediti). Primer 6.1. Pri bacanju numerisane kocke elementarnim ishodima ω1, ω2, ..., ω6 pridružimo redom brojeve 1,2, ... ,6. Ti brojevi se mogu smatrati vrednostima slučajne promenljive X = X(ω). Ishod ωi se interpretira kao događaj u kome je promenljiva X uzela vrednost i (i = 1,2, ..., 6). Pri tome je p(X = i ) = 1/6. Primer 6.2. Neka je A događaj : »dužina slučajno izabranog predmeta je u granicama od 30 d0 35 cm.« Tu se zapravo radi o događaju da neka slučajna promenljiva uzme vrednost iz intervala (30, 35) , tj. događaju A = { X : 30 ≤ X ≤ 35} ili, kraće A = {30 ≤ X ≤ 35}. Primećuje se da promenljiva X može uzeti bilo koju vrednost iz datog intervala, pa postoji, dakle, beskonačno, neprebrojivo (kontinuum) mogućih vrednosti te promenljive. Označimo sa pX(S) verovatnoću p(X ∈ S) = p(ω: X(ω) ∈ S). Ona se zove zakon raspodele verovatnoća za slučajnu promenljivu X. Slučajna promenljiva je određena kada je poznat njen zakon raspodele. Na osnovu zakona raspodele se može precizirati tip slučajne promenljive. Slučajna promenljiva je diskretnog tipa ako i samo ako postoji prebrojiv skup realnih brojeva RX = { x1, x2 , ... } takav da je pX(RX) = p(X ∈ RX) = 1 i pri tome su poznate sve verovatnoće p(xi) = p(X =xi) = pi za svako xi ∈ RX. Uobičajeno je da se u tom slučaju zakon verovatnoće zapisuje u obliku x1 x2 x3 ... X : ( =1 p(x1) p(x2) p(x3) ... Zakon verovatnoće se može predstaviti i putem tabele X x1 x2 ...
),

p(xi) > 0 , ∑ p(xi)
i =1

p

p1

p2

...

Slučajna promenljiva je određena svojim zakonom raspodele verovatnoća pX(S) = p( X ∈ S). U slučaju da je S = (- ∞ , x) , x ∈ R dobija se pX(S) = pX(- ∞ , x) = pX(X< x) = F(x). Funkcija F(x) se zove funkcija raspodele verovatnoća (ili raspored) i ona, takođe, u potpunosti određuje slučajnu promenljivu. Ako su sve realizacije slučajne promenljive u skupu RX = {x1, x2, ...} pri čemu je p(xi) = p(X=xi) i = 1,2, ... onda funkcija raspodele ima oblik F(x) = ∑ p(xi) xi<x Primer 6.3. Kod bacanja dve numerisane kocke sa X označimo zbir brojeva koji su pali na kockama. Utvrditi analitički oblik zakona verovatnoće. Skup elementarnih događaja se ovde može zapisati na sledeći način: Ω = {(x,y) : x = 1,2, ..., 6 ; y = 1,2, ..., 6}, a zakon verovatnoće:
X p 2 3 4 5 6 7 8 9 10 11 1/36 2/36 3/36 4/36 5/36 6/36 5/36 4/36 3/36 2/36 12 1/36

Veza između vrednosti slučajne promenljive i verovatnoća njihove realizacije je: 1/36 ∙X – 1/36 za X = 2,3, ..., 7 p = p(X) = -1/36 ∙X + 1/36 za X = 7,8, ..., 11, 12

Primer 6.4. Raspored od ukupno 1000 domaćinstava prema broju članova dat je u sledećoj tabeli
Broj članova u domaćinstvu (X) 1 Broj domaćinstava (fi) 160 2 120 3 250 4 200 5 150 6 50 7 40 8 30

Zakon verovatnoće slučajne promenljive X, uzimajući da je pi = p(xi) = fi /1000 je
xi pi 1 0,16 2 0,12 3 0,23 4 0,20 5 0,15 6 0,05 7 0,04 8 0,03

Primer 6.5. Funkcija raspodele za slučajnu promenljivu vezanu za bacanje numerisane kocke ima oblik:

p( X< 1) = 0 , p(X = 1) = 1/6 , p(X=1) + p(X=2) = 1/3, F(x) =

x ≤ 1, 1<x≤2, 2<x≤3, 3 < x ≤4 , 4<x≤5,
5<x≤6, x> 6 ▲

∑ p(X=i) = ½ ,
∑ p(X=i) = 2/3 ,
i =1 4

3


i =1

i =1 5

p(X=i) = 5/6 ,

1,

Slučajna promenljiva je neprekidnog tipa ako postoji funkcija f(x) ≥ 0 za -∞ < x < ∞ tako da je p(a ≤ x ≤ b) = ∫ f(x) dx
a b

Funkcija f(x) se zove gustina raspodele verovatnoća slučajne promenljive X. Kada se radi o slučajnoj promenljivoj neprekidnog tipa onda se njena funkcija raspodele F(x) može, u opštem slučaju, izraziti na sledeći način: F(x) = p(X <x) = ∫ f(x) dx = ∫ dF(x)
−∞ −∞ x x

Sledeće osobine funkcija F(x) (funkcija raspodele) i f(x) (gustina raspodele) su očigledne: 1. limx→ ∞ F(x) = F( ∞ ) = ∫ f(x)dx = 1,
−∞ ∞

limx→ − ∞ F(x) = F(- ∞ ) = 0

2. 3.
4.

f(x) i F(x) su nenegativne. f(x) = F′(x) = dF(x) / dx , ako je F(x) diferencijabilna funkcija. Za a < b je F(b) – F(a) = p(a≤ X ≤ b) = ∫ f(x)dx .
a b

Primer 6.6. Za slučajnu veličinu X za koju je RX = {x1, x2, ..., xn} i pi = p(X=xi) = 1/n, i = 1,2, ..., n kažemo da pripada ravnomerno (uniformno) raspoređenim slučajnim veličinama diskretnog tipa. Odgovarajuća neprekidna uniformno raspoređena slučajna veličina ispunjava uslov f(x) = C (C – konstanta) za x∈ (a,b). Iz 1 = ∫ f(x) dx = ∫ C dx = C (b-a) a
−∞ ∞
b

dobija se C = 1 /(b-a) , pa je f(x) = 1/(b-a) za x ∈ (a,b) odnosno f(x) = 0 za x ∉ (a,b) , a zbog

−∞

∫ f(t) dt = 1/(b-a) ∫ dt = (x-a) / (b-a) je
a

x

x

0, F(x)= (x-a)/(b-a), 1,

x<a a≤x≤b x>b

Primer 6.7. Slučajna promenljiva ima binomnu raspodelu B (n,p) sa parametrima n ∈ N i o<p<1 ako je njen skup vrednosti {0,1,2, ... n} pri čemu je p(xk) = p(X = xk) = n! / k!(n-k)! pk (1-p)n-k = n(n-1)...(n-k+1)/k! pk (1-p)n-k Funkcija raspodele za ovaj diskretni raspored je : 0, F(x) = ≤n 1, x>n Najčešći model ove raspodele je niz nezavisnih događaja koji se ostvaruju prilikom ponavljanja jednog istog opita u neizmenjenim uslovima pri čemu su moguća samo dva ishoda : A i Ac koji se mogu realizovati sa verovatnoćama p i 1-p = q. Primer 6.8. Slučajna promenljiva ima normalni (Gausov) raspored sa parametrima m ∈ R i σ ∈ R+ , oznaka X : N (m, σ) ako je njena gustina: f(x) = 1 /σ(2π)1/2 exp ( -1/2 (x-m)2/σ2) ; (exp(A) = eA ) Ako se posmatra nova slučajna veličina X* = (X-m)/σ onda se može videti da je njena gustina f(x) = 1/ ( 2π )1/2 exp (-x2/2) a funkcija raspodele: x≤ 0 0<x

∑ n(n-1)...(n-k+1)/k! pk(1-p)n-k,
k ≤x

F(x) = ∫ 1/ ( 2π)1/2 exp(- t2/ 2) dt
−∞

x

Kaže se da nova slučajna promenljiva X* ima standardni normalni raspored , oznaka X : N (0,1). Za izračunavanje njenih verovatnoća koriste se tablice Gausove funkcije Φ(x) = ∫ 1/ (2π)1/2 exp(- t2/2) dt
0 x

koja je tabelirana za najčešće korišćene vrednosti, pri čemu treba imati u vidu da je F(x) = ½ + Φ(x).▲

7. Dvodimenzionalne slučajne promenljive Videli smo da slučajna promenljiva predstavlja neku numeričku karakteristiku slučajnog ishoda u nekom opitu. Moguće je, naravno, posmatrati istovremeno i dve ( a i više) različitih karakteristika svakog opita. U tom slučaju se govori o numeričkoj funkciji X koja preslikava prostor Ω u dvodimenzionalni prostor R2 = RxR = {(x,y) : x ∈ R , y ∈ R} , R – skup realnih brojeva, tj. X : Ω→ R2. Pri popisu stanovništva se svakom stanovniku može pridružiti kartica sa oznakom za pol (0 za muški, 1 za ženski) i starost. Označimo sa X = (X1 , X2) vektor čija je prva komponenta X1 – slučajna promenljiva vezana za pol kod koje je RX1 = {0,1} , druga X2 – slučajna promenljiva vezana za starost pojedinca pri čemu je, recimo, RX2 = {0,1,2, ..., 150}. Iz skupa takvih kartica se izvlači jedna. To je slučajni događaj kome odgovara par slučajnih promenljivih X1 i X2, odnosno slučajni vektor X. Taj vektor je definisan ako je data verovatnoća za svaki skup S ⊂ R2 , odnosno data je p(X ∈ S), odnosno ako je poznat zakon raspodele za X. Uređena dvojka (X1, X2) ili (X, Y) se naziva dvodimenzionalna slučajna promenljiva gde su X1 i X2 slučajne promenljive definisane na nekom prostoru (Ω , F , p). Funkcija raspodele dvodimenzionalne slučajne promenljive F(x1, x2) ili F(x, y) definiše se na sličan način kao kod jednodimenzionalne slučajne promenljive: F(x1 x2) = p( X1< x1 , X2 < x2) = p( (X1 < x1) ∩ (X2 < x2)), x1, x2 ∈ R ili F(x, y ) = p (X < x ) , Y < y ) x, y ∈ R.

Može se pokazati da su F(1)(x) = p( X < x , Y < ∞ ) i F(2)(y) = p( X < ∞ , Y < y) jednodimenzionalne funkcije raspodele koje se nazivaju marginalne raspodele. Očigledne su sledeće osobine funkcije F(x,y): 1. F je neopadajuća funkcija; 2. F(- ∞ ,y) = F(x, - ∞ ) = F( -∞,-∞) = 0; 3. F( ∞ , ∞) = 1, ali F(∞,y ) ili F(x, ∞) ne mora biti 1. Ako dvodimenzionalna slučajna promenljiva (X, Y) dostiže prebrojivo mnogo vrednosti onda je ona diskretnog tipa i onda su uobičajene sledeće oznake: p( X = xi , Y = yj) = pij , F(x, y) = ∑ pij i, j = 1,2, ... xi < x, yj<y (sumiranje se vrši za one xi koji su manji od zadatog x i, istovremeno, za one yj koji su manji od zadatog y ). Zakon raspodele verovatnoća, kao i marginalne verovatnoće, prikazuju se u obliku donje tabele pri čemu je

∑ pij = 1 ,

∑ p.j = 1 , ∑ pi. = 1
p(Y = yj) = p1j + p2j + ... + pij + ... = p.j

p(X = xi) = pi1 + pi2 + ... + pij + ... = pi. ;

Y X x1 x2 ... xi ... marg. ver.

y1 p11 p21 ... pi1 ... p.1

y2 p12 p22 ... pi2 ... p.2

... ... ... ... ... ... ...

yj

...

marg. ver. p1. p2. ... pi. ... 1

p1j ... p2j ... ... ... pij ... ... ... p.j ...

Kod dvodimenzionalnih slučajnih promenljivih se može posmatrati raspodela jedne od slučajnih promenljivih u slučaju kada je fiksirana neka vrednost za drugu slučajnu promenljivu. Pretpostavlja se da je, naravno, poznat zakon raspodele za tu dvodimenzionalnu slučajnu promenljivu. Neka je potrebno odrediti p( X = xi) uz uslov da je Y = yj . Saglasno definiciji uslovne verovatnoće dobija se: p(X = xi / Y = yj) = p( X = xi , Y = yj) / p( Y = yj) = pij / p.j = p i / j , i , j = 1,2, ... Isto tako je :

p(Y = yj / X = xi) = p( Y = yj , X = xi) / p( X = xi) = pij / pi. = pj / i Ako su slučajne promenljive nezavisne onda to znači da je pi / j = pi. , a takođe i p j / i = p.j što daje jednakost pij = pi. p.j . To znači da u je u gornjoj tabeli element pij koji se nalazi na preseku i-te vrste i j-te kolone jednak proizvodu brojeva koji predstavljaju odgovarajuće marginalne verovatnoće (tj. zbirove svih elemenata i-te vrste, odnosno j-te kolone). Da bi se uverili da li su dve slučajne promenljive nezavisne neophodno je izvršiti proveru za svaki od elemenata pij u gornjoj tabeli. Dvodimenzionalna slučajna promenljiva neprekidnog tipa se karakteriše funkcijom raspodele F(x,y) i gustinom raspodele f(x,y) pri čemu je: F(x,y) = du dv (D) Može se dobiti da je marginalna raspodela za komponentu X: F(1)(x) = F(x, ∞ ) = f(x,y) dy,

−∞ −∞ x ∞ ∞

−∞

∫ ∫

x

y

f(u,v) du dv ;

−∞

−∞ −∞

∫ ∫ f(u,v) du dv = 1 ; p((X,Y) ∈ D) = ∫ ∫ f(u,v)

∫ ∫

f(u,v) du dv ; odnosno gustina f1(x) = F′(1)(x) =

−∞

a isto tako i za komponentu Y : f2(y) = F′(2)(y) = nezavisnosti sada postaje f(x,y) = f1(x) f2(y) ili

−∞

∫ f(x,y) dx . Uslov

F(x,y) = F(1)(x) F(2)(y).

Primer 7.1. Zakon raspodele diskretne dvodimenzionalne slučajne promenljive dat je tabelom X x1 x2 x3 a) Marginalna raspodela za Y je y1 y2 0,4 0,6 p(Y> y1) = Y y1 0,12 0,18 0,10 y2 0,10 0,11 0,39

; b) p(X< x3 , Y = y2) = 0,10 + 0,11 = 0,21; c) p( X≤x2 / Y >y1) = p(X≤x2 , Y> y1)/

(0,11+0,11) / 0,60 = 0,35 d) Kako je p2. = 0,29, p.1= 0,40 ,

a p21= 0,18 ≠ 0,29 ∙ 0,40 zaključujemo da X i Y nisu nezavisne. Primer 7.2. Ako je gustina dvodimenzionalne slučajne promenljive data sa f(x, y) = 1 / π2(1+ x2)(1+ y2) ; x ∈ R , y ∈ R onda je odgovarajuća funkcija raspodele: F(x, y) =
−∞

∫ ∫

x

y

f(u, v) du dv = 1/π2

−∞

−∞

x

du/(1+u2)

/∞

∫ dv/(1+v2) =

y

(1/π arctg x + ½) (1/π arctgy + ½). Vidi se da je funkciju f(x,y) ( kao i F(x, y)) moguće napisati kao proizvod dve funkcije od kojih jedna zavisi samo od promenljive x, a druga samo od promenljive y ( f(x,y) = f1(x) f2(y)) što znači da su odgovarajuće slučajne promenljive međusobno nezavisne. ▲

8.Funkcije slučajnih promenljivih Pretpostavimo da je moguće da se svakoj vrednosti koju uzima slučajna promenljiva pridruži vrednost nove slučajne veličine Y, tj. vrednosti slučajne promenljive Y su dobijene putem neke transformacije g vrednosti slučajne promenljive X, odnosno, one su slike vrednosti od X. Tako, recimo ako je X: N (m, σ) zamislimo da se vrednosti te slučajne promenljive transformišu u vrednosti nove slučajne promenljive Z = g(X) = X2. Postavlja se pitanje kako se mogu odrediti zakon raspodele ili funkcija raspodele te nove slučajne promenljive ako su, naravno, poznate te funkcije za slučajnu promenljivu X. Odgovor na ovo pitanje će se dati postupno, i to samo za neke jednostavnije slučajeve. I. Pretpostavimo da je X diskretna slučajna veličina , dok je Y = g(X) monotona funkcija. Tada različitim vrednostima slučajne promenljive X

odgovaraju različite vrednosti promenljive Y koje se »dostižu« sa istim verovatnoćama. Naime, ako je X : xi pi je : Y: yi pi y1= g(x1) y2= g(x2) p1 p2 y3= g(x3) ... p3 ... x1 p1 x2 p2 x3 p3 ... ...


i =1

pi = 1

onda je y1 = g(x1) , y2= g(x2) , ...

odnosno , zakon raspodele za Y

Primer 7.1. Ako je slučajna promenljiva ima zakon raspodele: X : 2 0,1 3 0,3 4 0,2 6 0,4

onda nova slučajna promenljiva Y = g(X) = 3X + 1 ima zakon raspodele: Y : 7 0,1 10 0,3 13 0,2 19 0,4 ▲

II Neka je ponovo X diskretna slučajna promenljiva, a Y nije monotona funkcija. Tada se može dogoditi da je y = yk slika za više vrednosti promenljive X. Onda je p(yk) = ∑ p(xi) gde se sumira preko svih xi za koje je yk = g(xi) (reč i je o izračunavanju verovatnoća disjunktnih događaja). Primer 7.2. Ako je X : onda Y = g(X) = 2X2 –1 Y :

-3 0,1

-2 0,3

-1 0,2

0 0,1

1 2 0,1 0,05

3 0,1

4 0,05

ima zakon raspodele: 1 0,3 7 0,35 17 0,2 31 0,05

0 0,1

jer je, recimo, p(Y = 7) = p(X= -2) + p(X = 2) = 0,3 + 0,05 = 0,35 i sl. III Neka je slučajna promenljiva X neprekidna sa zakonom verovatnoće f(x) i funkcijom raspodele F(x) , dok je nova slučajna promenljiva Y = g(X) takođe neprekidna i monotono rastuća. Y Y = g(X) y

0

a

x

b

X

Funkcija raspodele za novu promenljivu Y , označimo je sa G(y), je : G(y) = p(Y < y) = p( a < X < x ) = F(x) – F(a) = F(g-1(y)) – F(a) , gde je sa g-1(x) označena funkcija inverzna funkciji g(x) ( y=g(x) → x = g-1(y)). Diferenciranjem izraza za G(y) dobija se i zakon verovatnoće za promenljivu Y. To znači da je moguće odrediti zakon raspodele i funkciju raspodele nove slučajne promenljive Y na osnovu poznavanja njene veze sa poznatom slučajnom promenljivom X.

9.Numeričke karakteristike slučajne promenljive Korisne informacije o slučajnoj promenljivoj mogu pružiti određeni parametri do kojih se ponekad može doći i bez poznavanja raspodele te slučajne promenljive. Upoznaćemo neke od njih.

Matematičko očekivanje. Reč je o vrednosti vezanoj za slučajne promenljive (zove se i srednja vrednost ili očekivana vrednost) koja se definiše na sledeći način: - ako je X diskretna slučajna veličina koja uzima konačno mnogo vrednosti xk, sa verovatnoćama p(X=xk) = p( xk) = pk, k = 1,2, ..., n , p1+ p2 + ... + pn = 1 , tada je njeno matematičko očekivanje, oznaka EX = E(X) = x = m1 , EX = x1p1+ x2p2 + ... + xnpn = ∑ xkpk
k =1 n

-ako je X diskretna slučajna promenljiva sa prebrojivo mnogo ) očekivanje je EX = ∑ xkpk , ukoliko je ovaj red konvergentan, tj. ima konačnu sumu
k =1 ∞

- ako je slučajna veličina neprekidna sa gustinom verovatnoće f(x) - ∞ < x < ∞ , onda je njeno matematičko očekivanje EX = ∫ xf(x) dx , pod uslovom da integral postoji.
−∞ ∞

Koristeći navedene definicije može se dobiti da je , recimo: -za uniformno raspoređenu slučajnu veličinu na intervalu (a,b) EX = (a+b)/2; -za binomnu raspodelu B (n,p) EX = np -za normalnu raspodelu N (m, σ) EX = m, itd. Ako je slučajna veličina Y funkcija od slučajne veličine X, tj. Y = g(X), dok je zakon verovatnoće za X dat funkcijom f(x) onda je matematičko očekivanje za promenljivu Y EY = Eg(X) = ∫ g(x)f(x) dx,
−∞ ∞

pod uslovom da integral postoji,

dok je u diskretnom slučaju, prema oznakama iz t. 7. EY = ∑ g(xk) p(xk), pod uslovom da suma postoji. k Lako se proveravaju sledeće osobine matematičkog očekivanja: 1. Ako je X = C (C- konstanta) onda je EX = EC = C .

2. E(aX+b) = a EX + b , ako su a i b konstante. 3. E(X – EX) = E (X - x ) = 0 (“centrirana” slučajna veličina ima za očekivanje nulu). 4. E(X + Y) = EX + EY , i opštije, E(X1+ X2 + ... + Xn ) = EX1+EX2+ ... + EXn . 5. Ako su X i Y nezavisne slučajne veličine onda je E(XY) = EX∙ EY , dok obrnuto ne važi, tj. ako je E(XY) = EX∙EY onda X i Y ne moraju biti nezavisne. obični momenti reda k . Za datu slučajnu promenljivu i za dati prirodni broj k , obični (početni) moment reda k , oznaka mk je matematičko očekivanje slučajne veličine Xk, tj. mk = EXk. Iz definicije matematičkog očekivanja proizilazi da je: mk = ∑ pk xik , za diskretan slučaj, odnosno i mk= ∫ xk f(x) dx, za neprekidni slučaj.
−∞ ∞

Primetimo da je m1 = EX1= EX , tj. reč je o matematičkom očekivanju promenljive X. apsolutni i centralni momenti reda k. Apsolutni momenti reda k za datu slučajnu promenljivu su E ‌Xk‌ - očekivanja k-tog stepena slučajne promenljive ‌ Xk‌ , dok su centralni momenti reda k, oznaka ηk , definsani sa ηk= E (X – EX)k , tj. ηk = ∑ pi (xi – EX)k u diskretnom, odnosno ηk = ∫ (x – EX)k f(x) dx u −∞
i

neprekidnom slučaju. Očigledno je η1= E(X – EX)1 = 0. U opštem slučaju bilo koji momenti nekog reda ne moraju postojati. disperzija i standardna devijacija. Matematičko očekivanje donosi određene informacije o slučajnoj promenljivoj X, ali ne daje informaciju o “rasturanju” vrednosti te promenljive oko njene najočekivanije vrednosti. To se, recimo vidi na primeru sledeće dve slučajne promenljive :

X : xk pk

-1 0,5

1 0,5

Y :

yk pk

-100 0,5

100 0,5

Očigledno je EX = EY = 0 ali je “rasturanje” vrednosti oko matematičkog očekivanja daleko izraženije kod promenljive Y. Centralni momenat drugog reda η2 je pogodan za merenje takvog “rasturanja” odnosno odstupanja pojedinih vrednosti slučajne veličine u odnosu na njeno matematičko očekivanje. On je dobio naziv varijansa ili disperzija i označava se sa σ2(X) ili σ2X ili samo sa σ2. Veličina (σ2X)1 /2 ili (σ2)1 /2 naziva se standardna devijacija i najčešće označava samo sa σ . Disperzija slučajne veličine poseduje neke važne osobine: η2 = σ2X = E(X – EX)2 = E( X2 – 2X ∙ EX + (EX)2) = EX2 – 2 EX∙EX + (EX)2 = = EX2 - 2 (EX)2 + (EX)2 = EX2 – (EX)2. 2. σ2X ≥ 0, σ2X = 0 akko je p(X= const) = 1; 3. σ2(X + c) = σ2X , c- const.; 4. σ2(cX) = c2σ2X , c- const.; 5. Ako su X i Y nezavisne , tada je σ2(X + Y) = σ2X + σ2Y; 6. Funkcija g(a) = E(X – a)2 dostiže minimum za a = EX.
1.

Primer 8.1. Neka je a tačna vrednost neke veličine. Zbog slučajnih grešaka, rezultati više puta ponovljenog merenja sa istim instrumentima se mogu posmatrati kao nezavisne slučajne veličine sa istim matematičkim očekivanjem m i disperzijom σ2. Disperzija je ovde mera preciznosti merenja, odnosno mera “kvaliteta” mernog instrumenta.

Preciznija merenja imaju manju disperziju (varijansu). Neka je izvršeno ukupno n merenja , u kojima su se mogle realizovati vrednosti slučajnih promenljivih redom X1, X2, ... , Xn . Kako je E(( X1+X2+ ... + Xn) / n) = 1/n (EX1+EX2 + ... + EXn) = 1/n ∙ n EX = EX = m zaključujemo da i aritmetička sredina takvih slučajnih veličina ima isto matematičko očekivanje kao i bilo koja od tih slučajnih veličina. S druge strane je: σ2((X1+ X2 + ... + Xn)/n) = 1/ n2 (σ2X1 + σ2X2 + ... + σ2Xn) = 1/n2 ∙ n σ2X = σ2/n. Zaključujemo da varijansa srednje vrednosti (aritmetičke sredine) ponovljenih merenja nije kao kod svakog merenja već je manja od varijanse svakog pojedinačnog merenja. Kako σ2/n → 0 kada n→ ∞ to proizilazi da se variansa “proseka” može učiniti beskonačno malom ako se dovoljno uveća broj obavljenih merenja, tj. može se postići željena preciznost u merenju neke veličine sa povećavanjem broja izvršenih merenja.▲ 10.Koeficijent korelacije. U slučaju dvodimenzionalne slučajne veličine na analogan način se definišu napred navedeni parametri i to za svaku od komponenti posebno. Tako je, recimo: EX = ∫ x f(x,y) dx dy = ∫ x f1(x) dx ; - matematičko očekivanje za neprekidnu
−∞ −∞ ∞ ∞

komponentu X ; EY = ∫ y f2(y) dy -matematičko očekivanje za komponentu Y ;
−∞ ∞

običan mešoviti moment reda r+s :

mr s = ∑ ∑ xir yjs pi j i
j

- u diskretnom slučaju, odnosno

mr s = ∫ ∫ xr ys f(x,y) dx dy - u neprekidnom slučaju ;
−∞ −∞

centralni mešoviti moment reda r+s : ηr s = E (X – EX)r (Y - EY)s ; (Recimo, za diskretni slučaj je η2 3 = ∑ ∑ (xi-EX)2(yj-EY)3) Momenat η1 1 = E(X – EX)(Y – EY) = i E( XY –X EY – Y EX + EX EY) = E(XY) –EX EY – EX EY + EX EY = E(XY) – EX EY se zove kovarijansa, a razlomak:
j

ρ = ρX Y = η1 1/ (E(X- EX)1/2 (Y – EY)1/2) = η1 1/ (σX∙ σY) , uz uslov σX σY ≠ 0 se zove koeficijent korelacije za slučajne promenljive X i Y. Koeficijent korelacije služi kao mera zavisnosti dve slučajne veličine. Može se pokazati da je -1 ≤ ρ≤ 1. ρ = ± 1 ako i samo ako je, sa verovatnoćom 1 , Y rastuća (opadajuća) linearna funkcija promenljive X. Kaže se da su X i Y nekorelisane ako je ρ = 0 , pozitivno korelisane ako je ρ > 0 i negativno korelisane ako je ρ < 0. Primer 8.2. Slučajna veličina X ima sledeći raspored: X : -1 0 1 0,2 0,1 0,3 2 2 0 ∙0,1 + 1 ∙0,3 + 2 0,4 EX = (-1)∙0,2 + 0∙0,1 + 1∙0,3 + 2∙0,4 = 0,9 σ2X = EX2 - (EX)2 = (-1)2∙0,2 + + 22∙0,4 - 0,92. Primer 8.3. Prinos pšenice po hektaru na 10 parcela u mc je iznosio: 30, 32, 34, 37, 39, 41, 42, 45, 46, 44

EX = m1 = 1/ N ∑ xi = 390 / 10 = 39; (prosečni prinos)
i =1

10

σ2 = 1 / N ∑ (xi – 39)2= 1/10( (-9)2+(-7)2+(-5)2+(-2)2+02+ 22+32+52+62+72)
i =1

10

= 28,2. Primer 8.4. 100 kandidata na prijemnom ispitu sakupilo je sledeći broj bodova:
broj bodova 50-54 55-59 60-64 65-69 70-74 75-79 80-84 85-89 90-94 95100 broj kandid. 2 8 18 26 15 10 8 6 5 2

Pomoću sledeće radne tabele izračunavaju se EX i σ2. (xi – sredine podintervala)

xi 52 57 62 67 72 77 82 87 92 97

fi 2 8 18 26 15 10 8 6 5 2

yi -4 -3 -2 -1 0 1 2 3 4 5

yi fi -8 -24 -36 -26 0 10 16 18 20 10 -20

yi 2 fi 32 72 72 26 0 10 32 54 80 50 428

Iz smene Y = (X – A) / d = (X – 72) /5 je

X = 5 Y + 73+2, pa

je EX = 5 EY + 72 ; σ2X = σ2(5 Y + 72) = 52 σ2Y = 25 σ2Y. EY = (-20) / 100 = -0,2, pa je EX = 5 (-0,2) + 72 = 71.

σ2Y = EY2 – (EY)2 = 428 /100 – (-0,2)2 = 4,24 pa je σ2X = 25 · 4,24 =106. ▲

11. Mere centralne tendencije Za slučajnu promenljivu se vezuju i druge vrste parametara koji se, zbog svojih sličnosti, mogu grupisati na različite načine. Jednu od grupu takvih parametara predstavljaju mere srednje vrednosti ili centralne tendencije i oni se izračunavaju na osnovu svih vrednosti koje uzima data slučajna promenljiva, a pri tome se nalaze između najmanje i najveće vrednosti date slučajne promenljive. Matematičko očekivanje , odnosno aritmetička sredina, oznaka x, je jedna takva mera. Primetimo da se u primenama često vrednosti date slučajne promenljive grupišu po razmacima, odnosno podintervalima datog opsega vrednosti te promenljive (tada se govori o intervalnoj distribuciji frekvencija). Neka je, recimo, prilikom nekog merenja, za datu promenljivu X čije sve vrednosti (ukupno N ) pripadaju intervalu (a,b), utvrđen sledeći raspored njenih realizacija :
razmaci frekvencije a do a1 f1 a1 do a2 f2 ... ... an-1 do an = b fn


i =1

n

fi = N

Za izračunavanje matematičkog očekivanja (ili aritmetičke sredine) se onda pretpostavlja da su sve vrednosti te promenljive jednako verovatne pa se uzima sredina podintervala kao predstavnik vrednosti slučajne promenljive smeštenih u tom podintervalu. Veličina 1/ N ∙ ∑ xi fi se onda uzima kao aritmetička sredina za vrednosti te
i =1 n

slučajne veličine, odnosno veličine
X : xi x1 x2 ... xn

pi

p1= f1/N

p2= f2/N

...

pn = fn/N

gde su sa x1 , x2 , ..., xn označene sredine gornjih podintervala. Primer 9.1. Iz navedene tablice se vidi kako se može, uvođenjem nove slučajne promenljive, uprostiti izračunavanje aritmetičke sredine.

podintervali 50-54 55-59 60-64 65-69 70-74 75-79 80-84 85-89 90-94 95-99

xi 52 57 62 67 72 77 82 87 92 97

fi 2 8 18 26 15 10 8 6 5 2 100

xi fi 102 456 -

yi -3 -2 -1 0 1 2 3 4 5 6

yi fi -6 -16 -18 0 15 20 24 24 25 12 80

Nova slučajna promenljiva Y = (X – A )/ d , pri čemu je d – dužina podintervala (ovde je d = 5), dok se za A bira sredina onog podintervala sa najvećom frekvencijom, pa je ovde A = 67. Izračunavanjem vrednosti nove slučajne promenljive yi = (xi –67)/5 (npr. y2 = (x2 – 67)/ 5 = (57-67)/5 = -2 ) izbegavaju se glomazni proizvodi xi fi pa se lakše dolazi do sume proizvoda yi fi , a tako i do EY = 80/100 = 0,8 . Na osnovu veze X = dY + A dobija se EX = d EY + A, odnosno EX = x = 5∙0,8 + 67 = 71. ▲ geometrijska sredina je česta mera centralne tendencije slučajne promenljive. Ako je slučajna veličina diskretnog tipa sa konačno mnogo svojih realizacija, tj.

X :

x1 p1

x2 ... p2 ...

xn pn

onda je njena geometrijska sredina, oznaka G(X) = G, G = x1 x2 ... xn = ∏ xipi
p1 p2 pn
i =1 n

Ako je pi = fi/ N , G ima oblik:

i= 1,2, ..., n ;

p1 + p2 + ... + pn = 1, onda

G = (x1p1 ∙ x2p2 ∙∙∙ xnpn )1/ N Kako je lnG =p1 lnx1 + p2 lnx2 + ... + pn lnxn vidi se da se zapravo radi matematičkom očekivanju slučajne promenljive Y = ln X (lnG = E(lnX). To daje mogućnost da se dobije definicija geometrijske sredine i za slučajne promenljive neprekidnog tipa: lnG = E(lnX) = ∫ lnx f(x) dx , odakle je G = exp( ∫ lnx
−∞ −∞ ∞ ∞

f(x) dx ) ; (exp(A) = e ) Iz izraza za geometrijsku sredinu se vidi da je ona jednaka nuli ukoliko je jedna od realizacija te slučajne promenljive jednaka nuli- što je nepovoljna osobina ove mere. harmonijska sredina, oznaka H(X) ili samo H za datu diskretnu promenljivu sa konačno mnogo vrednosri je: H = 1 / ∑ pi/xi = 1 / (p1/ x1 + p2/ x2 + ... + pn/ xn)
i =1 n

A

(uz uslov da je xi ≠ 0 , i= 1,2, ... , n). Zbog: 1/ H = ∑ pi (1/ xi) = E (1/ X)
i =1 n

moguće je definisati harmonijsku sredinu slučajne promenljive i u neprekidnom slučaju i to: H = (E(1/ X)) = ( ∫ 1/x f(x) dx) = 1 / ( ∫ f(x)/x dx).
-1 -1
−∞ −∞ ∞ ∞

Napomenimo da se i geometrijska i harmonijska sredina u slučaju intervalne raspodele (distribucije) frekvencija izračunavaju tako što se

uzimaju sredine podintervala kao predstavnici vrednosti slučajne promenljive u datom podintervalu. Takođe je moguće pokazati da je H ≤G ≤x . kvantili. Neka je F(x) neprekidna funkcija raspodele neke slučajne promenljive X . Kvantil reda p (0 < p < 1 ) je svako rešenje jednačine F(x) = p. U slučaju da je F neprekidna i monotona rastuća funkcija onda se radi o jedinstvenom rešenju te jednačine, tj. p = F-1(x). U upotrebi su česti kvantili reda ¼ i ¾ koji se zovu redom prvi i drugi kvartil, kao i decili odnosno centili putem kojih se deli raspodela na 10 odnosno 100 delova. Kvantili se koriste za dobijanje dodatnih informacija o delovima nekog rasporeda. Međutim, u upotrebi je najviše kvantil reda ½ koji se zove medijana, oznaka me. Ona se za neprekidne raspodele dobija iz uslova F(me) = ½ , odnosno iz jednakosti:
me −∞

∫ f(x) dx = ∫ f(x) dx
me

Za konačne diskretne rasporede medijana može biti neka od vrednosti xk za koju važi da je p1 + p2 + ... + pk = ½ . Ako se dogodi da je p1 + p2 + ... + pk < ½ ali i p1 + p2 ... + pk + pk+1 > ½ onda to znači da je medijana neki broj između xk i xk+1. Tada se , dogovorno, uzima da je me = xk + (xk+1 – xk): (1/2 – (p1 + p2 + ... + pk)) Primetimo da je se medijanom može smatrati svaki broj m za koji je p(X < m ) ≤ ½ i p(X > m ) ≥ ½ . Medijana je srednja vrednost po položaju, ona deli »masu » rasporeda na dva jednaka dela i nije pod uticajem pojedinih ekstremnih vrednosti u datoj raspodeli, tj. manje je osetljiva na promene vrednosti slučajne promenljive nego , recimo, aritmetička sredina. To se vidi iz sledećeg primera. Neka su realizovane vrednosti prilikom nekog merenja redom 1,1,2,5,7,7,8 . Aritmetička sredina je ovde 4,43, dok je medijana 5. Ako bi, recimo, u poslednjem merenju došlo do greške pa se umesto 8 registrovao broj 19, arimetička sredina bi porasla na 6, dok se medijana ne bi promenila.

Ako je reč o serijama podataka, recimo opet o rezultatima izvršenih merenja neke karakteristike, onda se: -brojevi u nizu poređaju po veličini, a zatim -ako je broj članova u nizu neparan onda je medijana broj u sredini niza, -ako je broj članova u nizu paran uzmu se dva srednja broja i podele sa 2. Primer 9.2. Niz medijana a) 17,20,19,46,17,17,18 18 b) 6,6,21,11,8,14 (8+11)/2 = 9,5 6,6,8,11,14,21 17,17,17,18,19,20,46 poredak

Položaj medijane (Me) se može odrediti i iz uslova Me = (N+1)/2. Tako je u slučaju a) Me = (7+1)/2 = 4, tj. medijana se nalazi na četvrtom mestu, to je broj 18. Isto tako, u slučaju b) je Me = (6+1)/2 =3,5, tj. medijana je između trećeg i četvrtog mesta u nizu, pa je to poluzbir ta dva centralno postavljena člana, odnosno (8+11)/2 = 9,5. ▲ Ako su podaci grupisani, mesto medijane se određuje na osnovu uslova Me =( ∑ fi +1)/2 jer je N = ∑ fi. Primer 9.3. Ocene 55 studenata iz statistike su:
Ocene (xi) 6 7 8 9 10 broj studenata (fi) 7 10 20 13 5 kumulativni zbir 7 17 37 50 55

55

Me = ( ∑ fi + 1)/2 = (55+1)/2 = 28, što znači da je medijana ocena 28.og po redu studenta. Iz zadnje kolone u tablici se vidi da se on nalazi u grupi studenata koji su osvojili ocenu 8, pa je otuda i vrednost medijane 8. ▲ modus. Za neprekidne slučajne promenljive modus, oznaka mo , je ona vrednost te slučajne promenljive za koju njena gustina f(x) dostiže maksimum. Uz pretpostavku da postoje prvi i drugi izvod funkcije f(x) ispunjeno je da je f′(mo) = 0 i f′′(mo) < 0. Slučajne veličine mogu biti unimodalnog tipa (poseduju samo jedan modus) ili multimodalnog tipa. Za serije podataka modus je ona vrednost obeležja (karakteristike) koja ima najveću frekvenciju.

Primer 9.4.
Niz 2,9,3,7,3 3,4,5,4,3,7,2 1,2,3,4,5,6,7 poredak 2,3,3,7,9 2,3,3,4,4,5,7 1,2,3,4,5,6,7 mo modus je 3 modusi su 3 i 4 modusa nema

Primer 9.5. Obeležje X uzima sledeće vrednosti 2,4,5,6,8,9,10,12. Ovde je N = 8 pa je EX = x = m1 = ∑ xi / N = 56 / 8 = 7;
i =1 8

G = (2·4·5·6·8·9·10·12)1/ 8 = 6,16; H = 8 / ( ½ + ¼ + 1/5 + 1/6 +1/8 +1/9 + 1/10 + 1/12) = 5,208.

Primer 9.6. Obeležje X uzima sledeće vrednosti : 5,3,4,5,4,6,7,8,5,3,4,6,7,8,5, 6,7,5,6,5. Formiranjem rasporeda frekvencija i na osnovu radne tabele određujemo:
xi 3 4 5 6 7 8 fi 2 3 6 4 3 2 20
6

xi fi 6 12 30 24 21 16 109

fi logxi 0,9542 1,8062 4,1938 3,1126 2,5353 1,8062 14,4083
6

fi / xi 0,6667 0,7500 1,2000 0,6667 0,4286 0,2500 3,9620

N = ∑ fi = 20 ; EX = x = m1 = ∑ xi fi / N = 109 / 20 = 5,45;
i =1 i =1

logG = ∑ fi logxi / N = 14,4083 / 20 = 0,7204, G = 100,7204 = 5,25;
i =1

6

H = N / ∑ fi / xi = 20 / 3,9620 = 5,050 ; 12. Mere varijacije

me = 5;

mo = 5 .

Mere varijacije (disperzije - rasipanja- raspršenosti) ukazuju na stepen odstupanja pojedinih vrednosti slučajne promenljive od neke njene utvrđene vrednosti. Kod izbora ovih mera se vodi računa o tome da se pozitivna i negativna odstupanja pri sumiranju ne potiru. Iz tog razloga se uzimaju apsolutne vrednosti ili parni stepeni uočenih odstupanja. razmak varijacije , tj. interval (xmin , xmax) može biti mera varijacije slučajne promenljive, odnosno nekog obeležja, ali se od ove mere dobija malo informacija o datoj slučajnoj promenljivoj.

srednje apsolutno odstupanje u odnosu na matematičko očekivanje, oznaka em, donosi više informacija o datom obeležju: em = E(| X - EX| ) odnosno em = ∑ | xi - EX| pi u diskretnom slučaju, i i em = ∫ |x- EX | f(x) dx u neprekidnom slučaju. Za grupisane podatke je
−∞ ∞

em = ∑ fi | xi - EX | / N
i =1

k

;

N = ∑ fi
i =1

k

Isto tako, može se definisati i apsolutno odstupanje u odnosu na medijanu date slučajne promenljive : eme = E( |X - me|). srednje kvadratno odstupanje – standardna devijacija, σ = (σ2 X )1/2, se najčešće koristi kao mera disperzije. Na osnovu ranije datih jednakosti imamo da je: σ = (E (X – EX)2 )1/2 , pri čemu je za grupisane podatke (sa frekvencijama pojavljivanja) σ = ( ∑ fi (xi – EX) / ∑ fi )1/2 , a za intervalnu raspodelu frekvencija se
2
i =1 i =1 k k

vrednosti xi u prethodnoj formuli zamenjuju sa xi - sredinama odgovarajućih podintervala. koeficijent varijacije , oznaka V, se koristi radi kompariranja stepena varijabilnosti kod različitih slučajnih veličina i definiše se sa V = (σ / EX) · 100 =( σ / x) · 100 . Primer 10.1. Za slučajnu veličinu X je dobijeno EX = 172 cm, i σ = 12 cm, dok je za slučajnu veličinu Y izračunato EY = 64 kp i σ = 6 kp. Kako je VX =( 12/ 172)·100 = 6,97, a VY = (6/ 64)· 100 = 9,37 zaključujemo da se radi o većoj varijaciji kod promnljive Y. ▲

13. Mere asimetrije i spljoštenosti Podaci vezani za neko svojstvo( karakteristiku) koja se posmatra su retko kada raspoređeni pravilno i simetrično oko svojih srednjih vrednosti. Pravilnost i simetričnost su pokazatelji ravnoteže kod posmatrane pojave i retko se sreću u praksi. Mere varijacije daju samo »opštu sliku« o varijacijama i ne pokazuju smer varijacije u odnosu na aritmetičku sredinu, kao ni oblik rasporeda. Iz tog razloga su neophodne nove mere. Kod simetričnih rasporeda je broj pozitivnih odstupanja od srednje vrednosti isti kao i broj negativnih odstupanja. Ako se se ta odstupanja kubiraju onda se od pozitivnih odstupanja ponovo dobijaju pozitivna , dok se od negativnih dobijaju negativna. Ako broj tih odstupanja nije isti javlja se asimetričnost rasporeda i to negativna (ako ima više negativnih odstupanja) ili pozitivna (ako je pozitivnih odstupanja više). Otuda je centralni momenat trećeg reda pogodan za korišćenje u vezi utvrđivanja simetričnosti – asimetričnosti rasporeda. koeficijent asimetričnosti , oznaka α3 , je odnos centralnog momenta trećeg reda i trećeg stepena standardne devijacije, tj. α3 = η 3/ σ3. On je relativna mera asimetrije koja omogućava da se upoređuju asimetrije različitih rasporeda. Pri tome: za α3 = 0 , radi se o simetričnoj raspodeli i tada je EX = me = mo. za α3 > 0 , radi se o pozitivno asimetričnoj distribuciji ili desnoj asimetriji, pri čemu je EX > me > mo. za α3 < 0 , reč je o negativno asimetričnoj distribuciji ili levoj distribuciji, pri čemu je EX < me < mo. - ako se vrednosti od α3 kreću od -2 d0 +2 , ili se približavaju broju 2, odnosno –2 , onda je ta distribucija jako ili izrazito asimetrična. Pored navedenog, postoje i druge mere asimetrije rasporeda. Tako je Pearson uveo sledeći koeficijent asimetričnosti, oznaka Sk, : Sk = (EX – mo) / σ

U formuli se pojavljuje razlika između aritmetičke sredine i modusa, koja je kod simetričnih rasporeda jednaka nuli. Mera je označena sa Sk od skewness – nagnutost. Za koeficijent Sk se može dobiti i sledeći izraz: Sk = 3(EX – me) / σ Vrednosti od Sk se kreću od –3 do +3 i što je Sk bliži nuli to je asimetrija rasporeda manja, odnosno raspored je simetričniji. Sk je pozitivan kod pozitivno asimetrične distribucije, a negativan kod negativno asimetrične distribucije. Merama spljoštenosti (ili zaobljenosti) raspodele opisuje se homogenost, tj. koncentracija vrednosti u odnosu na aritmetičku sredinu. Za koeficijent spljoštenosti , oznaka α4 , izabran je odnos centralnog momenta četvrtog reda i četvrtog stepena standardne devijacije, tj. α4 = η4 / σ4 Ovaj koeficijent ima samo pozitivne vrednosti jer je reč o stepenovanju parnim brojem. Za normalnu Gausovu raspodelu vrednost ovog koeficijenta je 3 i u odnosu na tu raspodelu se određuje zaobljenost drugih raspodela. -Ako je za neku raspodelu α4 = 3, onda je ta raspodela normalne visine; Ako je α > 3 distribucija je izduženog oblika (visoka distribucijaveća je koncentracija vrednosti slučajne promenljive oko aritmetičke sredine); Ako je α < 3 onda je distribucija spljoštenog oblika (niska distribucija – manja je koncentracija vrednosti obeležja oko aritmetičke sredine). Primer 11.1. Odrediti EX, σ2, α3 i α4 za sledeći raspored :
xi X : fi 6 4 8 5 10 3 11 2 12 5 14 1 15 2

Iz sledeće radne tabele sledi :

xi 6 8 10 11 12 14 15

fi 4 5 3 2 5 1 2 22

fi xi di = xi – EX 24 -4 40 -2 30 0 22 1 60 2 14 4 30 5 220

di2 fi di2 16 64 4 20 0 0 1 2 4 20 16 16 25 50 172

fi di3 -256 -40 0 2 40 64 250 60

fi di4 1024 80 0 2 80 256 1250 2692

EX = x = ∑ fi xi / N = 220/22 = 10; σ2 = ∑ fi (xi – EX)2/ N = 172 / 22 = 7,82, σ = 7,821/2 = 2,80; σ3= 21,90 ; σ4 = 61,15; α3 = η3 / σ3 = ( ∑ fi (xi – EX)3/ N): σ3 =( 60/22) : 21,90 = 0,13 (desna asimetrija) α4 = η4 / σ4 = ( ∑ fi (xi – EX)4/N): σ4 = (2692/ 22): 61,15 = 2 (spljošteniji raspored od normalnog). Primer 11.2. Koeficijent asimetrije i koeficijent spljoštenosti se određuje na osnovu sledeće intervalne distribucije:
Težina u kp 56-60 broj studenata 7 60-64 15 64-68 28 68-72 24 72-76 16 76-80 10

Iz radne tabele (sa xi su označene sredine gornjih podintervala) sledi:

xi 58 62 66 70 74 78

fi 7 15 28 24 16 10 100

xi fi 406 930 1848 1680 1184 780 6828

di= xi - EX -10,28 -6,28 -2,28 1,72 5,72 9,72

di2 105,68 39,44 5,20 2,95 32,72 94,47

fi di2 739,76 591,6 145,6 70,8 523,52 944,7 3015,98

fi di3 -7604,73 -3715,25 -331,97 121,77 2994,53 9182,48 643,83

fi di4 78176,62 23331,77 756,89 209,44 17128,71 89253,7 208857,13

EX = ∑ xi fi / N = 6828/100 = 68,28
i =1

6

σ2 = ∑ fi di2 /N = 3015,98/100 = 30,16 ; σ = 5,4918; σ3= 165,63;
i =1

6

σ = 909,62 η3 = ∑ fi di3 / N = 646,83 / 100 = 6,47
i =1 6

4

pa je

α3 = η3 /σ3 = 6,47 / 165,63 = 0,0391 η4 = ∑ fi di4 /N = 208857,13 / 100 = 2088,57 pa je α4 = η4 / σ4 = 2,296.
i =1 6

Primer 11.3. Dobijeno je sledećih 50 podataka o nekom obeležju:
69 61 65 70 70 63 66 71 76 83 65 80 73 81 82 68 62 73 78 66 83 88 72 71 67 75 75 80 79 73 76 79 84 69 70 74 72 83 78 78 85 86 82 78 76 74 84 75 77 87

Potrebno je da se formiraju intervali frekvencija, a zatim odrede koeficijenti asimetije i spljoštenosti. Vrednosti slučajne promenljive se grupišu u podintervale pri čemu se za broj i širinu intervala koristi tzv. pravilo Sturgesa: K = 1 + 3,3 log N - broj intervala; d = (xmax – xmin) / K - širina jednog podintervala. K = 1 + 3,3 log 50 = 7 ; d = (88 – 61) / 7 = 4 Radna tabela ima oblik : (d=4, A = 74 , N= 50, yi = (xi – 74) /4 )
razmak 60-64 64-68 68-72 72-76 76-80 80-84 84-88 xi 62 66 70 74 78 82 86 fi 3 6 8 12 9 8 4 50 yi -3 -2 -1 0 1 2 3 fi yi -9 -12 -8 0 9 16 12 8 fi yi2 27 24 8 0 9 32 36 136 fi yi3 -81 -48 -8 0 9 64 108 44 fi yi4 243 96 8 0 9 128 324 808

EY = m1 = 8/50 = 0,16 ; m2 = EY2 = 136/50 = 2,72 ; m3 = EY3= 44/50 = 0,88 ; m4 = EY4 = 808/50 = 16,16, a kako je X= 4Y + 74 to je EX = 4·0,16 +74 = 74,64; σ2X = σ2(4Y + 74) = 16 σ2Y = 16(EY2 - (EY)2) = 16(2,72- 0,162) = 16·2,6944, pa je σX= σ = 6,56. Iz ηk = E( X – EX)k = E( 4Y +74 – 4EY – 74)k = E(4(Y – EY))k = 4k E(Y – EY)k dobija se η3 = 43E(Y – EY)3 = 43 E(Y3- 3Y2 EY + 3 Y(EY)2 - (EY)3) = 43(EY3- 3EY2 EY + 3 EY (EY)2 - (EY)3) =

43(m3 – 3m1m2 +2m13) = 43(0,88 - 3·0,16·2,72 + 2·0,163) = -26,7; η4 = 44 E(Y – EY)4 = 44 E(Y4-4Y3 EY +6Y2(EY)2-4 Y (EY)3+(EY)4)= 44(m4 –4m1m3+6m12m2-3m14)= 4099 , pa je α3 = η3/ σ3 = (-2,67)/ 6,563 = -0,09 ; α4 = η4 / σ4 = 2,2 ▲

14. Zadatak statistike Statistika, kraći naziv za matematičku statistiku, se obično definiše kao skup metoda za kvantitativno istraživanje pojava i to ne na pojedinim već na mnoštvu slučajeva. Predmet njenog istraživanja su skupovi (populacije ili mase sveukupnosti) čiji su elementi (tzv. statističke jedinice) međusobno slični i povezani s nekom opštom vezom (recimo posedovanje iste osobine-obeležja). Statistika je opšta metoda saznavanja koja koristi rezultate teorije verovatnoća. U njoj se masovno i opšte saznaje na osnovu posebnog i pojedinačnog, dok se kvalitet upoznaje na osnovu kvantiteta. Reč statistika se, takođe, često odnosi i na rezultate kvantitatativnog istraživanja pojava. Statističke jedinice, po pravilu, poseduju, više različitih obeležja (karakteristika, svojstava, vrednosti neke slučajne promenljive). Ta obeležja mogu biti numeričkog karaktera, ali i opisnog, atributivnog karaktera (pol, zanimanje, boja očiju). Ljudsko iskustvo pokazuje da ako se posmatra mali broj statističkih jedinica onda vrednosti obeležja pokazuju od elementa do elementa značajna kolebanja. Međutim, ako se broj posmatranih jedinica poveća onda se jače manifestuje određena zakonitost kod kolebanja tog obeležja.

Cilj statističkih istraživanja je da se dođe do adekvatnih informacija o karakteristikama posmatrane populacije. Te se karakteristike izražavaju pomoću određenih parametara kao što su sredine (EX, G, H), varijanse, momenti proizvoljnog reda, medijana, modus, koeficijent korelacije itd. Takvi parametri se posmatraju i izračunavaju na određenim podskupovima populacije koji se tovu uzorci. Često se određene karakteristike, tj. odgovarajući parametri na uzorku, nazivaju i statistike. Kako se u različitim uzorcima mogu nalaziti različiti elementi populacije to se vrednosti jedne iste statistike menjaju od uzorka do uzorka, tj. prisutna je određena fluktuacija uzorka. Ako se iz iste populacije uzme određeni broj uzoraka sa po n elemenata (kažemo da se radi o uzorcima obima n ), i za svaki uzorak izračuna vrednost jedne iste statistike, dobija se niz vrednosti te statistike od kojih se može obrazovati odgovarajući raspored frekvencija. Raspored frekvencija jedne statistike koji bi se dobio kada broj takvih uzoraka od n elemenata neograničeno raste, zove se raspored statistike. Kao i svaki raspored i ovaj raspored može imati svoje parametre- sredine, varijansu, medijanu i sl. Dakle, na statistiku se može gledati kao na jednu slučajnu promenljivu. Statistika se može posmatrati i kao nauka o tzv. induktivnom ponašanju čoveka (i ne samo čoveka) u situacijama kada je on prinuđen da na osnovu nedeterminističkog eksperimenta dolazi do rešenja na najbrži i najekonomičniji način.
Najšire posmatrano, u statistiku spada sve što je vezano za stvaranje i korišćenje metoda za prikupljanje i obradu pojedinih podataka u cilju dolaženja do određenih saznanja odnosno do izvođenja određenih naučnih i praktičnih zaključaka. Konkretnije, osnovni zadaci statistike su: -prikupljanje podataka o nekoj pojavi, obeležju, stavu, ...;

-obrada podataka u cilju dobijanja informacija neophodnih za dobijanje zaključaka, formulisanje zakonitosti ili proveravanje neke unapred zadate pretpostavke (hipoteze); -predviđanje (predikcija) i donošenje odluka.

Primer 12.1 . Za mnoge proizvode je bitno obeležje vek trajanja (npr sijalice) koji je nemoguće tačno unapred odrediti. Iskustvo pokazuje da ako se proizvodni proces ne menja onda se ta trajanja X1, X2, ... mogu posmatrati kao nezavisne i jednako raspoređene slučajne promenljive. Parametar θ vezan za vek trajanja prirodno je povezati sa EXi , i = 1,2,... Jedan od osnovnih zadataka u statistici je da se odredi parametar θ . U tom cilju se uzima n gotovih proizvoda i na njima se vrši provera datog svojstva – registruje se vek trajanja konkretne sijalice. Neka su sa x1, x2 , ... , xn označena vremena trajanja posmatranih n proizvoda. Prirodno je očekivati da broj x =
1 x n∑ i
i =1 n

pri dovoljno velikom n bude blizu θ , tj. da se se θ može zameniti sa x , a da se pri tome ne napravi velika pogreška. Svakako da je od interesa da n bude što manje (npr. da se što manje sijalica žrtvuje), kao i da je tzv. ocena parametra θ što pouzdanija. Primer 12.2. Neka se neki eksperiment prvo n puta izvodi u uslovima A, a zatim m puta u uslovima B. Postavlja se pitanje uticaja uslova eksperimenta na rezultate eksperimenta. Tako, recimo, ako se posmatra uticaj nekog preparata na rast biljaka onda se izvode dve serije eksperimenata (sa preparatom i bez njega) i vrši

poređenje dobijenih rezultata. Analogno je i kod raznih pedagoških istraživanja (kontrolna i eksperimentalna grupa).▲ 15. Uzorak Generalni skup (populaciju) označimo sa Ω , a njegove elemente sa ω. Za ma koji ω∈ Ω se uočava posmatrano obeležje X(ω). X = X(ω) je slučajna veličina koja je, kao što znamo, potpuno određena svojom funkcijom raspodele F(x) , koju ćemo u daljem zvati teorijska funkcija rasspodele populacije. Ukoliko bi populacija bila sa manje elemenata i za svaki od njih se utvrdila vrednost obeležja X onda bi i funkcija F(x) bila potpuno određena. U praksi obično nije tako, već se registrovanje zadatog svojstava vrši nad nekim pravim podskupom iz populacije, na uzorku. Uzorci se dele u dve osnovne grupe u zavisnosti od toga da li svi elementi populacije imaju jednaku verovatnoću da uđu u uzorak – tada se radi o prostom slučajnom uzorku ili se radi o uzorcima gde svaki elemenat populacije ima određenu, ali ne uvek i podjednaku verovatnoću, da bude izabran za uzorak- tada je reč o kontrolisanim uzorcima. Najćešći kontrolisani uzorci su: - stratifikovani uzorak. Ako se uzorak izabere iz populacije gde su prisutne velike varijacije kod obeležja onda će se kod evidentiranog svojstva pojaviti velike razlike u odnosu na svojstvo kod cele populacije. Te se razlike mogu smanjiti povećavanjem obima uzorka, ali i tako što bi se heterogeni skup podelio na više

homogenijih podskupova-stratuma pa se onda uzorci birali iz stratuma. Na takvim uzorcima bi se registrovala vrednost obeležja, odnosno vrednost nekog parametra (statistike) obeležja, a onda bi se, uz odgovarajuće ponderisanje, izračunavala vrednost tog parametra za celu populaciju. Na taj način se dolazi do informacija ne samo o karakteristikama cele populacije, već podskupova te populacije. -višefazni uzorak. Ako je reč o istraživanju gde je nemoguće ili vrlo skupo (ili skopčano sa rizicima) neposredno ispitivanje čak i na uzorku tada se u prvoj fazi izvrše sva ona ispitivanja koja su moguća, dok se u drugoj fazi izvrši u određenoj grupaciji specifično ispitivanje koje se nije primenilo na ceo uzorak. -višestepeni uzorak. Ova se uzorak koristi kada je u pitanju velika teritorija, pa je otežan direktan izbor elemenata za uzorak. Tada se u prvom stepenu odabiraju elementi iz kojih će se vršiti odabir elemenata drugog reda i tako redom. sistematski uzorak. Radi se o varijanti višestepenog uzorka pri čemu se odabiranje elemenata vrši po određenom algoritmu. Obično se prvo odredi korak izbora K = N/n (N – broj jedinica cele populacije, n – obim uzorka). Prvo se odredi prvi element uzorka a (a ≤ K) . Ostali elementi uzorka su onda a+K, a+2K, a+3K , ... Pokazuje se da se na osnovu registrovanih vrednosti u prostom slučajnom uzorku , pri dovoljno velikom n može , sa dosta velikom tačnošću,ustanoviti nepoznata funkcija raspodele odgovarajuće slučajne promenljive – obeležja

populacije. Da bi se to postiglo mora se obezbediti reprezentativnost uzorka, tako da saznanje izvučeno iz njega bude što tačnije za celu populaciju. Reprezentativnost se postiže ako je izbor elemenata u uzorak slučajan i nezavisan od obeležja koje se posmatra. Slučajni izbor se najbolje postiže ako se koriste tablice slučajnih brojeva koje su sastavljene tako da parni i neparni brojevi imaju šansu od 50% da uđu u uzorak, a brojevi od 0 do 9 verovatnoću od 10%. Za korišćenje tablica mora se utvrditi obim populacije (N), izvršiti njeno numerisanje i utvrditi obim uzorka (n).Za n ≤30 govori se o malom uzorku, a u protivnom o velikom uzorku. Tako, recimo, ako je N = 3300 učenika, a treba izabrati uzorak od n = 85 učenika – prvo se u tablicama slučajnih brojeva bira početni broj (naravno ne veći od 3300) a zatim se vrši odabiranje četvorocifrenih brojeva (jer je N četvorocifreni broj) sve dok se ne popuni broj od 85 učenika. Pri odabiranju brojeva može se ići horizontalno, vertikalno ili dijagonalno po tablicama - bitno je da se po izabranom postupku izbor sprovede do kraja. Pomoću spiska utvrdiće se onda o kojim se učenicima radi. Ako su elementi uzorka obima n izabrani slučajno onda imamo n nezavisnih ishoda ω1, ω2, ... , ωn, kojim u odnosu na posmatrano obeležje odgovara n- dimenzionalna slučajna veličina (X1, X2, ... , Xn) gde je Xk = X(ωk) ; k = 1,2,..., n koja se zove slučajni uzorak. U konkretnom slučaju – konkretnom utvrđivanju svojstva dobija se registrovana vrednost uzorka (x1 , x2 , ... , xn) ili, što je isto, – realizovana vrednost date n – dimenzionalne slučajne veličine.

Slučajni uzorak je prost ako su sve slučajne veličine X1, X2, ..., Xn međusobno nezavisne i sve imaju istu funkciju raspodele kao i obeležje populacije X. To znači da se kod uzorka radi o registrovanju n nezavisnih vrednosti obeležja X. U daljem će se uvek pretpostavljati da se radi o prostom slučajnom uzorku. Primer 13.1. Poznato je da je zakon verovatnoće (gustina) obeležja populacije f(x) = ½ (x+1) za -1 < x < 1 i f(x) = 0 u ostalim slučajevima. Iz populacije je uzet uzorak obima 5. Potrebno je odrediti verovatnoću da su tačno tri izvučena elementa iz uzorka pozitivna. Za ma koji elemenat Xi iz slučajnog uzorka (X1, X2, X3, X4, X5) je p(Xi > 0 ) = ∫ f(x) dx = ∫ 1/2 (x+1) dx = 0,75,
1 0

1

0

pa je p(Xi ≤ 0) = 1 –0,75= 0,25; i = 1,2,3,4,5. Uzorak oblika (X1≤ 0, X2 ≤ 0 , X3> 0, X4>0, X5 > 0) ispunjava uslove zadatka a verovatnoća njegovog izbora je p(X1≤ 0 ) p(X2≤ 0) p(X3> 0) p(X4> 0) p (X5> 0) = 0,252 ∙ 0,752 . Kako takvih uzoraka ima koliko i kombinacija bez ponavljanja druge klase od 5 elemenata to je tražena verovatnoća p = 5!/2! ∙0,252 ∙0,752 = 135/512.▲ 16. Centralna teorema statistike Na osnovu uzorka (X1, X2, ... , Xn) definiše se empirijska funkcija raspodele Fn*(x) na sledeći način: Fn (x) = 1/n ∑ I (Xk< x) gde je funkcija indikator događaja A, oznaka I(A)
*
k =1 n

definisana sa I(A) = 1 , ako se događaj A ostvario, 0, ako se događaj A nije ostvario. Za zadati realni broj x događaja Fn*(x) pokazuje relativnu učestalost

A = (Xk< x). Očigledno je da se ova funkcija za registrovani uzorak poklapa sa funkcijom raspodele kod diskretne uniformno raspodeljene slučajne promenljive. Sledeći iskaz je od odlučujućeg značaja za zaključivanja koja se izvode u statistici i poznat je pod imenom centralna teorema statistike (GlivenkoKanteli): Ako je F(x) teorijska funkcija raspodele obeležja populacije i Fn*(x) empirijska funkcija raspodele koja odgovara prostom uzorku (X1, X2, ..., Xn) onda p( sup| F(x) - Fn*(x)|→0, kada n→ ∞ ) = 1 za svako x∈ R. To znači da sve realizacije funkcije Fn*(x), izuzev možda onih koje odgovaraju događaju čija je verovatnoća 0, konvergiraju ka odgovarajućim vrednostima teorijske funkcije raspodele, i to za svaki realni broj x. Time se opravdava »zaključivanje sa uzorka na populaciju« tj. da su zaključci dobijeni sa »dovoljno dobrog uzorka« tačni , sa verovatnoćom koja je bliska 1, i za celu populaciju. Drugim rečima, ako je obim uzorka dovoljno veliki (n→ ∞ ) verovatnoća »razlikovanja« empirijske i teorijske funkcije raspodele je veoma mala. Na osnovu poznavanja empirijske funkcije raspodele mogu se izračunati različiti uzorački parametri kao što su obični i centralni momenti, medijana i sl. Jedna od posledica centralne teorme statistike je da obični i centralni uzorački momenti konvergiraju ka odgovarajućim momentima slučajne promenljive X – obeležja cele populacije (kada se obim uzorka povećava). Iz tog razloga se u

praksi umesto nepoznatih parametara obeležja populacije koriste izračunate vrednosti odgovarajućih uzoračkih parametara iz realizovanog uzorka. Uobičajeno je da se sa x = xn i s2= sn2 označavaju redom izračunata uzoračka aritmetička sredina i uzoračka disperzija (varijansa). 17. Tačkaste ocene parametara Ponekad su o nepoznatoj funkciji raspodele obeležja populacije dostupne neke informacije. Tako je, recimo, poznato da se radi o raspodeli određene vrste (normalnoj, binomnoj, uniformnoj,...). Pri tome je nepoznat određeni parametar u takvoj raspodeli, ili se, eventualno, može ukazati na interval u kome bi se on mogao nalaziti. Kaže se da je u takvim slučajevima nepoznata raspodela smeštena u skup dopustivih raspodela koje zavise od nekog nepoznatog parametra, odnosno X : {F(x,θ) , θ∈ Θ} gde je sa Θ označen skup u kome se može nalaziti nepoznati parametar u raspodeli označen sa θ. Tako, recimo, oznaka X: { N (m,σ) - ∞ < m < ∞ , σ > 0 } ukazuje na to da je reč o normalno raspoređenom obeležju sa dva nepoznata parametra od kojih je drugi pozitivan. Jedan od zadataka u statistici je da se na osnovu slučajnog uzorka uzetog iz populacije čije obeležje ima funkciju raspodele F(x,θ) na neki način odredi vrednost parametra θ a time i konačni analitički oblik te funkcije raspodele. Radi se o oceni (estimaciji) nepoznatog parametra, tj. o dobijanju njegove vrednosti, odnosno o tzv. tačkastoj oceni parametra raspodele. U tom cilju se na osnovu registrovanih vrednosti u uzorku izračunava neka prikladna vrednost (statistika), obično označena

sa θˆ, koja se može proglasiti za ocenu nepoznatog parametra θ. Da bi takva ocena bila »dovoljno dobra« uvode se zahtevi kao što su: Nepristrasnost ocene. Dobijena ocena θˆ od paramerta θ je nepristrasna (centrirana) ako je E(θˆ) = θ. Napomenimo da se θˆ izračunava na osnovu slučajnog uzorka pa je reč o slučajnoj veličini koja može imati svoje matematičko očekivanje. Korektnost ocene. Ocena θˆ je korektna (asimptotski centrirana) ako E(θˆ) →θ kada n → ∞ , tj. obim uzorka neograničeno raste. Konzistentnost ocene. Ocena θˆ je konzistentna ukoliko E(θˆ- θ)2→0 , kada n→ ∞ . Drugim rečima radi se o najmanjoj mogućoj disperziji te ocene u odnosu na dati raspored. Primer 14.1. Može se pokazati da je očekivana vrednost uzoračke aritmetičke sredine jednaka matematičkom očekivanju obeležja populacije, što znači da je aritmetička sredina registrovanih vrednosti u uzorku nepristrasna ocena za matematičko očekivanje kod populacije. Isto tako, može se dobiti da je E(sn2) = (n-1)σ2/n gde σ2 predstavlja varijansu obeležja populacije. To znači da uzoračka varijansa nije nepristrasna ocena varijanse populacije. Međutim, kako (n-1)σ2/n → σ2 kada n→ ∞ to uzoračka disperzija jeste korektna ocena disperzije populacije. Primetimo da bi veličina n sn2/(n-1) mogla biti nepristrasna ocena disperzije. Metod maksimalne verodostojnosti je često korišćena metoda za dobijanje korektnih tačkastih ocena nepoznatog parametra u funkciji raspodele obeležja za celu populaciju.

Neka su {p(xk, θ) θ∈ Θ} k= 1,2,..., n ; ili {f(x,θ) θ ∈ Θ} familije dopustivih raspodela obeležja populacije X u zavisnosti od toga da li je obeležje X slučajna promenljiva diskretnog ili neprekidnog tipa (f(x,θ) je gustina raspodele sa nepoznatim parametrom θ). Broj θˆ za koji tzv. funkcija verodostojnosti L(θ, x1, x2 , ... , xn) = L(θ) dostiže maksimum je korektna ocena napoznatog paramerta θ. Funkcija verodostojnosti za dati slučajni uzorak (X1 , X2 , ... , Xn) ima oblik: L(θ) = p(X1,θ) p(X2, θ) ... p(Xn, θ) u diskretnom slučaju, odnosno L(θ) = f(X1,θ) f(X2, θ) ... f (Xn, θ) u neprekidnom slučaju. Ako se posmatra realizovani uzorak onda je L(θ) = L(θ, x1, x2, ..., xn) funkcija od jedne promenljive θ pa se diferenciranjem po toj promenljivoj može započeti sa traženjem mogućeg maksimuma po toj promenljivoj. Napomenimo da je ponekad pogodnije da se prvo funkcija L(θ) logaritmuje pa onda diferencira (naravno, uz uslov da diferenciranje ima smisla). Primer 14.1. Poznato je da obeležje X populacije ima gustinu raspodele: X : xi pi -2 θ/5 0 θ/5 7 1-2θ/5 0 < θ < 5/2

Potrebno je da se na osnovu realizovanih vrednosti u uzorku obima 4 (0, -2, 7, -2 ) odredi ocena maksimalne verodostojnosti za nepoznati parametar θ. Kako je L(θ) = p(X1,θ) p(X2, θ) p(X3,θ) p(X4,θ) = p(X1= 0) p(X2= -2) p(X3= 7) p(X4=-2) = θ/5 ∙θ/5 ·(1-2θ/5)·θ/5 = (θ/5)3(1-2θ/5), to iz L′(θ) = 3θ2/125 - 8θ3/625 = 0 sledi θˆ= 15/8. Primer 14.2.Obeležje populacije ima gustinu sa nepoznatim parametrom θ:

f(x, θ) = (θ – 1) x-θ za x ≥1 i f(x,θ) = 0 u ostalim slučajevima. Na osnovu uzorka obima n , odnosno realizacija (x1,x2, ... , xn) dobija se: L(θ) = (θ-1) x1-θ (θ-1) x2-θ ... (θ-1) xn-θ = (θ-1)n (x1 x2 ... xn)-θ lnL(θ) = n ln(θ-1) – θ (lnx1+ lnx2 + ... + lnxn), pa iz (lnL(θ))′ = n/(θ-1) – (lnx1+ lnx2 + ... + lnxn) = 0 sledi θˆ= 1 + n/(lnx1+ lnx2 + ... + lnxn)

18. Intervalno ocenjivanje Ocena nepozmatog parametra u raspodeli obeležja populacije se može vršiti i tako da se na osnovu slučajnog uzorka odredi interval u kome se nalazi taj parametar. Na osnovu realizovane vrednosti uzorka (X1, X2, ... , Xn) određuju se dva broja u1 i u2 ( u1 < u2) tako da se sa unapred zadatom verovatnoćom 1 – α ( tzv. koeficijent pouzdanosti ili nivo poverenja) može tvrditi da se nepoznati parametar θ nalazi u intervalu ( u1, u2) = I( X1 , X2 , ... , Xn)= I . Znači: p (θ ∈ I ) = p(u1 ≤ θ ≤ u2) = p(θ ∈ I(X1 , X2 , ... , Xn) = 1 – α. Interval I = I(X1 , X2 , ... , Xn) je slučajna promenljiva koja se menja od uzorka do uzorka. Neki od tih intervala će sadržati parametar θ , a neki ne. Ipak, u dužoj seriji uzoraka relativna frekvencija slučajeva kada će dobijeni interval sadržati θ je približno 1 – α. Ako je, recimo, u pitanju 95% nivo poverenja, tj. 1 – α = 0,95 (α = 0,05) onda se može očekivati da će 95% uzoraka generisati intervale koji će sadržati θ, (koji će “pokrivati θ”).

Na ovaj način se dolazi do intervala u kome sa zadatom (obično visokom– preko 90%) verovatnoćom treba tražiti pravu , ali nepoznatu vrednost parametra θ. Prirodno je da se želi da je dobijeni intervala I = (u1 , u2) što uži, a da je nivo poverenja što viši, ali su ova dva zahteva, u opštem slučaju, suprotna. U sledećim primerima razmotrićemo određivanje intervalne ocene parametara u pojedinim slučajevima. A. Pretpostavimo da je poznato da obeležje populacije ima normalni raspored sa parametrima m i σ , pri čemu je σ poznato. Potrebno je da se odredi interval poverenja za nepoznato matematičko očekivanje m (srednja vrednost) sa nivoom poverenja 1 – α. Za ocenu nepoznatog parametra m (aritmetička sredina) koristi se odgovarajuća vrednost tog parametra u uzorku. Može se pokazati da ako je obeležje raspoređeno normalno, onda slučajna veličina koja za svoje vrednosti ima uzoračke sredine, oznaka Xn takođe ima normalni raspored sa izmenjenom disperzijom (odnosno standardnom devijacijom). Naime, važi: Ako je X : N ( m , σ) onda je Xn : N (m, σ/ n1/2). (Pokušajte da sami napišete zakon verovatnoće za slučajnu veličinu Xn ). Kako je za slučajnu veličinu X: p(m – tσ <X < m + tσ) = p( -t < (X –m) /σ < t) = 2Φ(t) = 1 –α (Φ(x) = ∫ 1/(2π)1/2exp(-u2/2) du ) to se, analognim rasuđivanjem, može utvrditi da se nepoznata vrednost parametra m nalazi u intervalu I = ( xn – t σ/ n1/2 , xn + t σ/ n1/2) sa verovatnoćom 1-α = 2Φ(t) ( xn - izračunata srednja vrednost iz uzorka). Broj t se određuje na osnovu veze t = Φ-1 ((1 –α) /2), tj. iz tablice funkcije Φ(x). Vrednosti od t (dobijene zaokruživanjem) za najčešće korišćene nivoe poverenja su :
x 0

1 –α

0,80

0,90

0,95

0,96

0,98

0,99

t

1,28

1,645

1,96

2,05

2,33

2,58

Primer 15.1. Neka je poznato da je disperzija pri proizvodnji jedne vrste hleba σ2= 25 (tj. σ = 5). Iz serije je uzeto 100 vekni i nađena je prosečna vrednost težine vekne x100 = 596 grama. Naći 98% interval poverenja za težinu vekne u celoj seriji. Zamenom odgovarajuh vrednosti dobija se : I = (596- 2,33 ·5 /1001/2 , 5,96 + 2,33 ·5/10) =(5,94,835 ; 597,165) = (u1 , u2). To znači da 98% uzoraka generiše srednju težinu vekne u granicama od u1do u2. Primer 15.2. Mereći vreme reakcije pacijenta psiholog je utvrdio da je standardno odstupanje σ = 0,05 sekundi. Koliko veliki uzorak treba uzeti da bi bilo sigurno da u 95 % slučajeva greška procene srednjeg rezultata (reakcije) neće biti veća od 0,01. Kako su granice 95 % intervala poverenja xn ± 1,96 σ/ n1/2 to iz uslova zadatka proizilazi da treba da bude 1,96 σ/n1/2 ≤ 0,01 . Uzimajući da je σ = 0,05 dobija se 1,96·0,05 /n1/2 ≤ 0,01 odakle je n ≥ 97 što znači da uzorak sa 97 i više elemenata zadovoljava dati uslov. Primetimo da se u slučaju 99 % nivoa poverenja dobija n ≥ 167.▲ B. Pretpostavimo da je poznato da je obeležje populacije raspoređeno po normalnom zakonu sa nepoznatim parametrima i m i σ (što je bliže realnosti). Potrebno je da se nađe interval poverenja za m uz uslov, dakle, da se ne poznaje vrednost parametra σ. Da bi se dobila tražena intervalna ocena koristi se sledeća izračunata vrednost

(statistika) t = (Xn – m) /( n –1)1/2 Sn za koju se može pokazati da ima raspodelu Student-a sa n-1 stepena slobode. Pri tome su Xn i Sn uzoračka sredina i uzoračka standardna devijacija za dati slučajni uzorak, dok je raspodela Student-a sa n stepena slobode određena sledećim zakonom verovatnoće: f(x) = Г(n/2 + ½)/ (Г(n/2)(nπ)1/2 (1+ x2/n)-(n+1)/2, Г(x) = ∫ tx-1 e-t dt ;
0 ∞

x∈ R i

Г(n) = (n-1)! ; Г(1/2) = π1/2.

Na osnovu tablica Student-ove raspodele može se za dati nivo poverenja i za dati obim uzorka (on određuje broj stepena slobode) odrediti broj t0, a time i interval poverenja za nepoznato matematičko očekivanje I = ( xn – t0 sn/ (n-1)1/2 , xn + t0 sn/ (n-1)1/2) dužine 2 t0 sn/(n-1)1/2 Može se konstatovati da se na ovaj način za uzorke malog obima dobijaju intervali velike širine što je posledica činjenice da mali intervali pružaju malo informacija o obeležju koje se posmatra ( pa i o parametrima vezanim za raspodelu obeležja). Radi lakšeg snalažanja u tablicama Studenta (posmatra se dati nivo poverenja i n-1 stepena slobode) daju se vrednosti od t0 koje su najćešće u upotrebi i to za n = 16 stepena slobode (znači da je u pitanju uzorak obima 17): 1–α t0 0,80 1,33 0,90 1,74 0,95 2,12 0,98 2,58 0,99 2,92

Primer 15.3. Iz uzorka obima 26 gajbi jabuka utvrđena je prosečna težina gajbe od xn = 9,8 kp i disperzija s26 = 0,5 kp. Odrediti 90 % interval poverenja za nepoznatu srednju vrednost težine gajbe.

Za n - 1 = 25 stepena slobode i 1 – α = 0, 90 tj. α = 0,10 je t0 = 1,708 pa je I = (9,8 – 1,708 ·0,707 /5 ; 9,8 + 1,708 ·0,707/5) = (9,73 ; 9,97 ) .▲ C. Uz pretpostavku da je obeležje populacije raspoređeno normalno, ali sa nepoznatim parametrima m i σ mogu se dobiti i jednostrani, odnosno dvostrani intervali poverenja za nepoznato σ. Pri tome se koristi činjenica da ako je slučajna veličina X: N (m, σ) onda veličina n Sn2/ σ2 ima χ2 (hi kvadrat) raspodelu sa n – 1 stepena slobode. Raspodela χ2 je takođe tabelirana i iz nje se može dobiti jednostrani interval za σ oblika I = ( 0, n Sn2/ χ2n-1, 1-α) , odnosno dvostrani interval oblika I = ( n Sn2/ χ2n-1, α/2 ; n Sn2/ χ2n-1, (1-α/2 ). To znači da je : p(σ ∈ I ) = 1 – α. Pri tome, ako je obim uzorka veći od 30 umesto tablica za χ2 raspodelu koriste se tablice normalne raspodele. Primer 15.4. Iz uzorka obima 16 uzetog iz normalno raspoređene populacije su dobijene vrednosti x16 = 3,2 i s162 = 0,24. Odgovarajući jednostrani interval za nepoznato σ i nivo poverenja 1 – α = 0,90 (znači α = 0,10 ) je , zbog χ215, 0,90 = 8,547, I = (0 ; 16·0,24 / 8,547) = ( 0 ; 0,449) . Slično, zbog : χ215, 0,05 = 24,996 i χ215, 0,95 = 7,69 dobija se dvostrani interval poverenja za σ: I = (0,154 ; 0,449).▲

19.Testiranje statističkih hipoteza Najvažniji zadatak statistike je, svakako, da se na osnovu raspoloživih podataka o nekom obeležju koji su dobijeni na uzorku, dođe do raspodele tog obeležja u celoj populaciji, ili do vrednosti pojedinih parametara vezanih za tu raspodelu. U tom cilju se obično pretpostavi da obeležje ima određenu raspodelu, ili da parametar ima određenu vrednost- i ta pretpostavka se naziva statistička hipoteza. Postupak verifikacije, provere, da li je postavljena hipoteza istinita naziva se statistički test. Hipoteza se, po pravilu, može odnositi na oblik raspodele obeležja i vrednost nekog parametra kod raspodele, ali i na: -jednakost parametara dve ili više raspodela; - nezavisnost uzoraka; -jednakost raspodela dva različita obeležja, itd. Statistička hipoteza može biti prosta- ako sama u potpunosti određuje neku raspodelu ili se odnosi na pojedinačnu vrednost nekog parametra, ili složena – ako se sastoji iz više prostih hipoteza. Primer 16.1. Ako je ξ vrednost parametra u eksponencijalnoj raspodeli, onda je hipoteza H1 : ξ = 2 prosta, dok je hipoteza H2: ξ > 2 složena.▲ Obično se testira jedna prosta hipoteza H0 koja se naziva u nulta hipoteza.

Suprotna hipoteza H1 nultoj hipotezi se zove obično alternativna hipoteza i ona može biti i prosta i složena. Prilikom verifikacije hipoteze moguće je napraviti dve vrste grešaka : -greške prve vrste koje se sastoje u tome da se odbaci H0 ako je ona faktički tačna (opovrgavanje tačne hipoteze), i -greške druge vrste – da se prihvati hipoteza H0 i ako ona nije tačna (potvrđivanje netačne hipoteze). Jasno je da do pravilnog rešenja u postupku sprovođenja statističkog testa dolazi u dva slučaja: -hipoteza se prihvata pri čemu je ona stvarno i pravilno postavljena (istinita), i -hipoteza se odbacuje , a ona je istovremeno i nepravilna. Ako se hipoteza odnosi na parametre raspodele onda se odgovarajući test za njenu proveru naziva parametarski, dok su ostali testovi neparametarski. Postupak za proveru kod parametarskih testova ćemo opisati na primeru provere hipoteze H0 : θ = θ0 protiv hipoteze H1: θ ≠ θ0 . Na osnovu uzorka (X1 , X2, ... , Xn) se bira statistika θn = f (X1, X2, ... , Xn) kojom ce ocenjuje nepoznati parametar θ. Kada je reč o konkretnom uzorku onda statistika θn postaje određeni broj vn ( vn= f(x1,x2,...,xn)) pa je od interesa da se posmatra odstupanje | vn – θn| i postavi pitanje da li je to odstupanje bitno ili ne za prihvatanje hipoteze H0. U tom cilju treba odrediti broj vn,α takav da verovatnoća da se pojavi odstupanje ne manje od vn,α iznosi α, ukoliko je hipoteza H0 tačna tj. p( |θn – θ|≥ vn,α ) = α Broj α se naziva prag (nivo) značajnosti, on je unapred zadat i obično je mali broj, najčešće α = 5 % ili α = 1 %.

Ako izračunato odstupanje na osnovu uzorka nije manje od vn,α hipotezu H0 odbacujemo, dok u slučaju da je dobijeno odstupanje koje je manje od vn,α hipotezu H0 nema razloga da odbacimo ( kažemo i : rezultati testiranja ne protivureče hipotezi H0). Pogledacemo neke slučajeve testiranja hipoteza. A. Obeležje X je N(m, σ) i poznato je σ. Testira se hipoteza H0 : m = m0 protiv hipoteze H1 : m≠ m0. Iz datog uzorka (x1,x2,...,xn) izračunava se uzoračka sredina xn i onda nađe vrednost izraza C = 1 - 2Ф(| xn- m0|/ (σ n-1/2)) = p(|Xn- m0|≥|xn –m0| ) koja se poredi sa zadatim pragom značajnosti α. U slučaju da je C ≤α hipotezu H0 treba odbaciti, a ako je C >α zaključuje se da uzorak ne protivureći hipotezi. Primer 16.2. Iz uzorka od 50 vekni hleba nađena je srednja vrednost težine koja iznosi 596 grama. Ako je standardno odstupanje σ = 20 grama sa pragom značajnosti α = 5 % = 0,05 testirati hipotezu H0 : m = 600 grama protiv alternativne hipoteze H1 : m ≠ 600 grama. Kako je C = 1 - 2Ф(| 596 - 600|/ (20∙50-1/2) = 1 - 2Ф(1,41) = 0,16 > 0,05 nema razloga da se odbaci hipoteza H0 odnosno odstupanje od 4 grama se može smatrati slučajnim.▲ B. Neka je obeležje X : N(m, σ) pi čemu σ nije poznato. Testira se ponovo hipoteza H0: m = m0 protiv H1 : m ≠ m0. Iz zadatog uzorka (x1,x2,...,xn) se izračunavaju uzoračka sredina xn i uzoračka standardna devijacija sn a zatim vrednost veličine C = |xn – m0|(n –1 )1/2 / sn

Iz tablice Student-ove raspodele se čitaju tzv. kritične vrednosti tn-1,α ( α je zadati prag značajnosti). Ako je C≥ tn-1,α hipotezu H0 odbacujemo, a ako je C < tn-1,α zaključujemo da uzorak ne protivureči hipotezi. Primer 16.3. Obrano je 17 stabala višanja i nađen je prosečan rod po stablu x17 = 20,2 kg uz standardno odstupanje s17 = 0,64 kg. Da li je pretpostavka o prosečnom prinosu po stablu od m = 20 kg tačna ili ne, uz prag značajnosti od 5 % = 0,05. Kako je C = |20,2 - 20|(17 – 1)1/2 / 0,64 = 1,25, a t16, 0,05 = 2,12 > 1,25 zaključuje se uzorak ne protivureći postavljenoj hipotezi. C. Testira se hipoteza H0 : m1 = m2 kod dva normalno raspoređena obeležja. U tom cilju se iz uzetih uzoraka izračunavaju sredine i standardne devijacije tj. xn1 , yn2, sn1 i sn2 , a zatim se izračuna vrednost od C = (| xn1 – yn2| (n1n2(n1+n2- 2)/(n1+ n2))1/2 / (n1 (sn1 )2+ n2 ( sn2)2)1/2 ) Iz tablica za raspodelu Student-a se čita broj tn1 +n2 – 2 , α pa ako je C ≥ tn1 + n2 – 2 , α hipotezu H0 se odbacuje, dok se u ostalim slučajevima prihvata. Primer 16.4. Na prijemnom ispitu iz matematike je: 80 učenika prve škole osvojilo prosečno po 14,2 poena uz standardno odstupanje od 3,1 poena; 100 učenika iz druge škole postiglo prosečno 13,8 poena uz standardno odstupanje od 3,1 poen. Može li se smatrati da je na obe populacije normalna raspodela sa istim matematičkim očekivanjem i disperzijom, uz prag značajnosti od 1%. Kako je C = (|13,8 – 14,2|(80∙100(80 + 100 –2)/(80 + 100))1/2/ (80∙3,12 +100∙3,42)1/2 odnosno C = 1,467 a zbog n1 + n2 –2 = 178 ne vredi koristiti raspodelu studenta već normalnu raspodelu odnosno broj t ∞ , 0,01 = 2,576. Kako je C < 2,576 to se može smatrati da je hipoteza tačna – razlike u raspodelama nisu

značajne.▲ D. Testiranje hipoteze o disperziji H0 : σ2> σ20 kod normalne raspodele. Iz uzorka se računa uzoračka disperzia sn2, a zatim veličina C = n sn2/σ20 pa se iz tablice za χ2 raspodelu nalazi broj χ2n-1,α i za C ≥ χ2n-1,α se H0 odbacuje , a u protivnom se H0 prihvata. Primer 16.5. Mašina pakuje mleko u vrećice od 1 l , sa disperzijom od σ20 = 0,001 l. Posle nekog vremena radnik je izvršio proveru jedne gajbe mleka od 20 komada i konstatovao da je disperzija s202= 0,0013 l. Ispitati da li je proces normalan ili se mašina »raštelovala« , uz prag značajnosti od 5 %. Zbog C = 20·0,0013/ 0,001 = 26 < 30,144 = χ219, 0,05 zaključuje se da je proces normalan (ali kako je broj C blizu »granične vrednosti« treba biti oprezan).▲ E. Testiranje hipoteze o koeficijentu korelacije H0 : ρXY = 0 protiv alternativne hipoteze H1 : ρXY ≠ 0. Iz uzorka (x1,y1) , (x2,y2) , ... , (xn,yn) se izračunava uzorački koeficijent korelacije rXY ≠ 0 pa zatim veličina C = |rXY | (n – 2)1/2 / (1 – rXY 2)1/2. Iz tablica za raspodelu Student—a se nalazi vrednost tn-2 , α i u slučaju C ≥ tn-2,α odbacuje se H0. Primer 16.6. Na sistematskom pregledu 29 učenika konstatovano je da kada se posmatraju visina i težina je rXY = 0,64. Testirati hipotezu da ne postoji linearna veza protiv hipoteze da ta veza postoji. C = 0,64 (29 –2)1/2 /(1- 0,4096)1/2 = 4,33 > 2,771= t27, 0,01 pa se odbacuje hipoteza.

20. T – test Procena vrednosti nekog parametra (recimo aritmetičke sredine) je tačnija ukoliko je uzorak veći i ukoliko je obeležje koje posmatramo manje varijabilno. Kako se na varijabilitet ne može delovati, jedino je moguće povećanjem uzorka smanjiti grešku procene koja se vezuje uz naše merenje. Pri tome je poznato da greška u merenju opada srazmerno kvadratnom korenu broja elemenata uzetih u uzorak. Tako je, recimo, standardna greška aritmetičke sredine, oznaka SE, data sa SE = σ/ n1/2 = standardna devijacija obeležja populacije / n1/2 Kako je, po pravilu, σ nepoznato, to se ona zamenjuje sa standardnom devijacijom sn iz uzorka (SD uzorka = sn ) tako da se dobija procena standardne greške aritmetičke sredine SE = sn / n1/2 = standardna devijacija uzorka / n1/2 = SD uzorka/ n1/2 saglasno, tzv. »pravilu sigmi« moguće je uz pomoć standardne greške oceniti interval u kome se kreće aritmetička sredina populacije koju ne znamo. Uz verovatnoću od 68,3 % prava sredina je u untervalu xn ± SE , uz verovatnoću od 95,5 % je prava sredina u intervalu xn ± 2 SE, dok je uz verovatnoću 99,7 % prava sredina u intervalu xn ± 3 SE, tj. p( xn – 3 SE <EX < xn + 3 SE ) = 0,997. Ako su podaci iskazani putem frekvencija posmatranog svojstva (oboleli od neke bolesti, umrli od obolelih od specifične bolesti i sl.) kažemo da radimo sa proporcijama. Ako je r broj »uspešnih« (odgovarajućih) u uzorku obima n onda je proporcija takvih p = r / n , dok je q = 1 – r/ n propocija »onih drugih« . Da bi se pomoću

standardne devijacije sa uzorka odredila nepoznata standardna devijacija populacije posmatra se odgovarajući raspored frekvencija, odnosno slučajna veličina X koja ima samo dve realizacije 0 i 1, tj. X : xi pi 1 p 0 1-p za koju je EX = p i SD = σ = (pq)1/2

Da bi se našao interval u kome se nalazi proporcija ili procenat npr. umrlih u osnovnom skupu, izračunava se se standardna greška po formuli SE = (pq/(n-1))1/2 ili približno SE = (pq/n)1/2 tako da se dobija interval poverenja za proporciju koji je za verovatnoću od 0,95 : p – 2 SE ≤ p ≤ p + 2 SE Primer 17.1. Od 1000 pregledanih osoba 15 % je obolelo od neke bolesti. Koliki se procenat obolelih može očekivati sa verovatnoćom od 95 %. Kako je SE = (0,15∙0,85 /1000)1/2 = 0,0106 to iz 0,15 – 2 ∙0,0106 ≤ p ≤ 0,15 + 2∙0,0106 je 0,13 ≤ p ≤ 0,17 što znači da se broj obolelih kreće između 13% i 17 %, ili, recimo, za grad od 10000 stanovnika je broj obolelih između 1300 i 1700. ▲ U slučaju da se radi o dva velika nezavisna uzorka SE proporcija se izračunava kao kvadratni koren iz zbira kvadrata standardnih grešaka svake proporcije , tj. SE = SEp1-p2 = ( SE 2p1 + SE2p2 )1/2 T- test se koristi za parametarske podatke, na osnovu kojih se može izračunati aritmetička sredina i standardna devijacija. On se , recimo, koristi kada se želi utvrditi pripadnost uzorka osnovnom skupu ili pripadnost dva uzorka istoj ili različitim populacijama. Naime, ako se slučajnim izborom uzmu dva uzorka iz iste populacije, njihove aritmetičke vrednosti će biti različite- kao rezultat slučajnog izbora.

Ako su razlike velike onda se to mora i proveriti tako da se razlika aritmetičkih sredina uporedi sa standardnom greškom. U tu svrhu se nalazi vrednost izraza t = (x1 – x2 )/ (SE21 + SE22)1/2 Ako su podaci izraženi pomoću proporcija formula za T –test je : t = (p1 – p2) /(p1q1/n1 + p2q2/n2)1/2 U slučaju da je uzorak do 30 jedinica T-test se računa kao: t = (x1 – x2) / ((n1SD21+ n2SD22)/(n1+ n2) ∙(n1 + n2)/ n1n2) Nakon izračunavanja T-testa dobijene vrednosti se porede sa tabličnim za odgovarajući stepen slobode, koji iznosi n-1 ako se utvrđuju razlike aritmetičkih sredina uzorka i populacije, odnosno n1 + n2 –2 ako je u pitanju rad sa dva uzorka obima n1 i n2. Primer 17.2. Merene su telesne mase (TM) učenika sa sela i grada i dobijene su sledeće vrednosti: Grad n1= 250 x1 = 54,0 kg SD1 = 1,5 kg Selo n2 = 210 x2 = 51,5 kg SD2 = 1,6 kg

Da li je razlika u (TM) značajna kod učenika sela i grada. Kako se radi o velikim uzorcima uzima se da je t = (x1 – x2)/(SD21/n1 + SD22 /n2)1/2 = 2,5 /(0,009 + 0,012)1/2 = 17,24 Kako je n1 + n2 – 2 = 458 (izvan tablica) primenjuje se radno pravilo: »Ako je realizovano t veće od 1,96 onda je p <0,05, a ako je realizovano t veće od 2,58 onda je p < 0,01«. Očigledno dobijeno t je veće od obe tablične vrednosti što znači

da je razlika statistički značajna (za oba nivoa značajnosti ).▲ Primer 17.3. U grupi od 450 žena obolelo je 150, a od 270 muškaraca njih 30. Postoji li značajna razlika u obolevanju muškaraca i žena. Očigledno, p1= 30/270 = 0,11, pa je q1 = 0,89 , odnosno p2= 0,33 i q2= 0,67, pa je t =(p1 – p2)/ (p1q1/n1 + p2q2/n2)1/2 = 7,59 što na nivou p< 0,01 znači da razlika postoji i da je statistički značajna.▲

21. χ2 – test Pirsonov χ2 –test je svakako najpoznatiji test u grupi neparametarskih testova. On se najčešće koristi za proveru da li je pretpostavljeni oblik funkcije rasporeda (ili gustine raspodele) adekvatan, tj. o kom obliku slaganja je reč kada se posmatraju teorijska i empirijska funkcija raspodele. Postavlja se hipoteza da obeležje X ima potpuno određenu funkciju raspodele F(x) (ili gustinu raspodele f(x)), dok je alternativna hipoteza da obeležje X nema tu funkciju (gustinu) raspodele. Skup svih vrednosti obeležja X (realna osa u opštem slučaju) se podeli na r disjunktnih podskupova (intervala) S1,S2, ..., Sr

(r > 2). Uz pretpostavku da je hipoteza tačna označimo sa pk verovatnoće da vrednosti obeležja budu u intervalu Sk , k = 1,2,...,r . Ako se sa Mk označi broj Xj iz uzorka (X1 , X2 , ... , Xn) koji se nalaze u Sk onda je M1 + M2 + ... + Mr = n (obim uzorka). Za meru odstupanja raspodele slučajnih veličina Xj iz uzorka od pretpostavljene funkcije raspodele F(x) uzima se veličina A = ∑ (Mk – npk)2/npk
k =1 r

Može se pokazati da, pod pretpostavkom da je hipoteza tačna raspodela za A teži ka raspodeli χ2 sa n – 1 stepena slobode ako n → ∞ . Skup tačaka za koji je, uz dati nivo značajnosti α, C = ∑ (mk – npk)2/ npk ≥ χ2r-1, α
k =1 r

pri čemu mk , k = 1,2,...,r označava broj xj iz realizovanog uzorka (x1,x2,..., xn) koji se nalaze u skupu Sk , je tzv. kritična oblast. Hipoteza se odbacuje ako je C ≥ χ2r-1, α . Da bi se primenio ovaj test treba da je obim uzorka veći (bar n> 50). Isto tako, podskupove Sk treba odabrati tako da je r što veće, ali i da je mk > 5 za k = 1,2,...,r. Primer 18.1. Na šalteru banke je registrovan broj ljudi u jednakim vremenskim raznacima koji je dat tabelom: broj ljudi xi 0 1 2 3 4 broj intervala ni 80 76 36 15 5 2 Koristeći χ test sa nivoom značajnosti α = 0,05 ispitati da li je ova raspodela Puasonova. ( Pusaonova raspodela P(λ) je diskretna raspodela za koju je p(X = k) = e-λ λk/k! , k = 0,1,2,... pri čemu je EX = x = λ i σ2X = λ.) Kako je za Puasonovu raspodelu parametar λ jednak matematičkom očekivanju (aritmetičkoj sredini) to je : λ = (0·80 + 1·76 + 2·36 +3·15 + 4·5)/(80+76+36+15+5) ≈ 1.

Iz tablica za Puasonovu raspodelu nalazimo teorijske verovatnoće sa pretpostavkom da je hipoteza tačna i to: p1= 0,367879 p2= 0,367879 p3 = 0,183940 p4 = 0,061313 p5 = 0,018989 Izračunavaju se proizvodi npi (očekivani brojevi ljudi na šalteru): np1= 212∙ 0,367879 = 77,99 ≈ 78 np2 = 212 ∙ 0,367879 ≈ 78 np3 = 212 ∙0,183940 ≈ 39 np4 = 212 ∙ 0,061313 ≈ 13 np5 = 212 ∙ 0,018989 ≈ 4 C = (80 – 78)2/78 + (76 – 78)2/78 + (36 –39)2/39 + (15-13)2/13 + (5-4)2/4 = =0,891< 7,815 = χ25-1-1, 0,05 pa se hipoteza da je raspodela Puasonova prihvata. (Broj stepeni slobode se umanjuje za 1 jer se izračunava jedan nepoznati parametar raspodele λ). Primer 18.2. Uspeh studenata se poentira sa 0 do 100 poena i oni se dele u 5 grupa: A : 90 –100; B: 80-89 ; C : 70-79 ; D : 60 –69 i E : 0-59. Pretpostavlja se da je reč o normalnom rasporedu sa parametrima m = 75 i σ = 10. U posmatranom ocenjivanju 200 studenata je konstatovano sledeće: A : 20 ; B : 60;C : 75 ; D : 35 i E : 10. Testirati hipotezu H0 : X : N(75, 10) uz nivo značajnosti α = 1 %. Kako je r = 5, m1= 20; m2 = 60; m3 = 75; m4 = 35 i m5 = 10, a zatim p1 = p(90 ≤ X ≤ 100) = p((90-75)/10 ≤ (X – 75)/10 ≤ (100 – 75)/10) = Ф(2,5) – Ф(1,5) = 0,07; p2 = p( 80 ≤ X ≤ 89) = 0,24 ; p3 = 0,38 ; p4 = 0,24 i p5= 0,07 dobija se:

C = ∑ (mk – npk)2/ npk = 10,25 < 13,28 = χ24; 0,01.
k =1

5

Nema razloga za odbacivanje hipoteze.▲

22. Regresije Fransis Galton je 1855. godine analizirao zavisnost između visine očeva i sinova i pri tome zaključio da sinovi ekstremno visokih očeva nisu toliko visoki, već da regresiraju. Tada je i uvedena reč regresija. Čest je slučaj da se na osnovu vrednosti (ili ponašanja) jedne slučajne promenljive zaključuje nešto o drugoj slučajnoj promenljivoj (ili o više njih). U prirodnim naukama se posmatraju deterministički zakoni oblika y = f(x) u kojima se uvek pretpostavljaju idealni uslovi (npr. vakuum, konstantnost temperature i sl.). Međutim, ukoliko se veličine X i Y posmatraju u realnim uslovima , uvek postoji deo zavisnosti između njih koji se ne može opisati determinističkim zakonom. Ako bi postojala jednoznačna funkcionalna zavisnost između dve slučajne promenljive X i Y onda bi svakoj vrednosti za X odgovarala neka vrednost od Y i tada bi govorili o funkciji slučajne veličine ( o čemu je već bilo reči). Ako bi bio poznat zakon raspodele sistema (X , Y) , odnosno odgovarajuće dvodimenzionalne promenljive onda bi se mogle određivati uslovne verovatnoće u diskretnom, odnosno uslovne gustine u neprekidnom slučaju, tj. p(Y = yj / X = xi) = pX = xi(Y = yj) = p(xi, yj)/ p(xi) = pij / pi. =p(yj/xi) i f(y / x) = fx (y) = f(x,y) / f1(x), odnosno f(x / y) = fy(x) = f(x,y) /f2(y) Ako je zavisnost među slučajnim veličinama samo delimična, tj. neke vrednosti slučajne promenljive Y zavise od nekih vrednosti slučajne promenljive X,a druge ne (sa obe strane) može se govoriti samo o očekivanoj vezi među X i Y. Radi se o tzv. uslovnom matematičkom očekivanju y(x) = E( Y / X = x) = R(X)

koje u diskretnom slučaju ima oblik R(X) = y(x) = ∑ yj p(yj/xi) dok je za neprekidni slučaj
j

R(X) = y(x) = ∫ y f(y/x) dy
−∞

Očigledno je da funkcija R(X) ima smisla samo za one vrednosti od X = x za koje je p(x) > 0 , odnosno f1(x) > 0. Funkcija y = R(X) se zove regresija Y na X , a njen grafik je regresiona kriva. Da bi se došlo do oblika regresione zavisnosti, tj. do R(X), konstruišu se različite aproksimativne krive kao što su: polinomi različitog stepena y = a0 +a1x , y = a0+a1x+a2x2, ..., hiperbole y = 1/(a0+a1x) , eksponencijalne krive y = abx, geometrijske krive y = axb, modifikovane eksponencijalne krive y = abx+c, logističke krive y = 1/( abx+c), itd. Najboljom aproksimativnom krivom se smatra ona kod koje je greška odstupanja najmanja. Može se pokazati da za ma koju krivu y = g(X) greška aproksimacije E(Y – g(X))2 najmanja ako se za g(X) izabere upravo R(X). Na tome ze zasniva tzv. metoda najmanjih kvadrata putem koje se dolazi do konkretnog analitičkog izraza za neku regrecionu krivu. Razmotrimo, u svojstvu primera, slučaj linearne regresije kada se traži da aproksimativna kriva bude linearna, tj. oblika Y = α X + β. Parametri α i β će se odrediti iz uslova da izraz G(α , β) = E(Y – (α X + β))2 ima najmanju vrednost. Potrebno je da se odredi minimum funkcije od dve promenljive. Korišćenjem osobina matematičkog očekivanja i uslova G′α = 0 i G′β = 0 dobija se sistem tzv. normalnih jednačina u obliku: α EX2 + β EX = E(XY) i α EX + β = EY

iz koga se, rešavanjem po nepoznatim α i β i zamenom dobijenih vrednosti u izraz y = α x + β dobija oblik linearne regresije Y na X : y = ρXY σX/ σY (x – EX) + EY ili (y – EY)/σY = ρ (x – EX) / σX gde su EX, EY, σX, σY , ρ = ρXY - parametri koje smo već upoznali ranije i koji se često mogu izračunati i bez poznavanja zakona raspodele dvodimenzionalne slučajne promenljive (X,Y). Primer 19.1.Na osnovu datih podataka o uticaju investicija na povećanje dohotka firme odrediti jednačinu regresione prave Y na X.

investicije (milioni din.) povećanje dohotka Na osnovu sledeće radne tabele: X 15 20 30 40 60

15 6

20 8

30 10

40 12

60 15

Y 90 160 300 480 900 51

XY

X2

Y2

6 8 10 12 15 165
n

225 36 400 64 900 100 1600 144 3600 225 1930 6725 569

EX = 1/n ∑ xi = 165/5 = 33 ; EY = 51/5 = 10,2 sXY = 1/n ∑ xiyi – EX EY = 1930/5 - 33·10,2 = 49,4 sx2 = 1/n ∑ xi2 – (EX)2 = 6725/5 – 332 ) = 256 ; sx = 16
i =1

sy2 = 569/5 – 10,22 = 9,8, sy = 3,13 ρ = ρXY = sXY / sx sy = 49,4 /(16·3,13) = 0,987 Vidi se da je koeficijent korelacije veoma blizak broju 1, tj. da postoji »jaka« linearna zavisnost. Unošenjem nađenih vrednosti u ranije datu formulu dobija se oblik regresije y = 0,19 x + 3,97. Primer 19.2. Sistem (X, Y) je zadat tabelom

Y X 1 2 3 4

0 1 1

2 2 1 2

3 2 1 1

4

5

1 1

1

Potrebno je da se odredi regresija Y na X. Iz sledeće radne tabele dobija se: yi xi 1 2 3 4 fi 0 1 1 2 2 1 2 5 3 2 1 1 4 4 5 fi 3 4 4 3 14 fi xi fi xi2 ∑ fij yj 3 8 12 12 35 3 16 36 48 103 4 8 11 12 xi ∑ fij yj 4 16 33 48 101

1 1

1

2

2 1

fj yj fj yj2 ∑ fijxi yj ∑ fij xi

0 10 12 8 5 35 0 20 36 32 25 113 3 10 11 7 4 35 0 20 33 28 20 101

EX = x = 1/n ∑ fi xi = 35/14 = 2,5; EY = y = 1/n ∑ fj yj = 35/14 = 2,5; s2x = 1/n ∑ fi xi2 – (EX)2 = 103/14 – 2,52 = 1,11, sx = 1,05 ; sy = 1,35 sxy = 1/n ∑∑ fij xi yj – EX EY )= = 1/n ∑ (xi ∑ fij yj ) – EX EY = 1/n ∑ (yj ∑ fij xi ) – EX EY = = 101/14 – 2,5 ·2,5 = 0,96 ρ = ρxy = sxy /sx sy = 0,686 ; y = 0,87 x + 0,33▲ 23. Trendovi Pod pojmom trend podrazumeva se očekivani razvoj (kaže se i razvojna tendencija) neke pojave u u određenom budućem periodu, a na osnovu posmatranja te pojave u nekom dosadašnjem (dovoljno dugom) periodu vremena. Na osnovu podataka o kretanju pojave u dosadašnjem periodu (serije podataka iz određenih prethodnih vremenskih uzastopnih perioda) bira se matematička funkcija koja na »najbolji način prati te podatke« ( koja najviše odgovara tim podacima) pa se onda ta funkcija »produžava« u budućnost. Naime, pretpostavlja se da će se ta pojava, bar u neposrednoj budućnosti, i dalje razvijati na način koji je iskorišćen za dobijanje pomenute matematičke funkcije. Najčešće birane funkcije pomoću kojih se vrši izražavanje trenda su : -linearna funkcija y = a + bx i trend izražen ovom funkcijom je linearni; -kvadratna funkcija y = a +bx + cx2 i onda je reč o paraboličkom trendu; -eksponencijalna funkcija y = abx , radi se o eksponencijalnom trendu;

-pomerena eksponencijalna funkcija y = k + abx – modifikovani eksponencijalni trend; -recipročna vrednost pomerene eksponencijalne funkcije y = 1 /(k + x ab ) – trend logističke krive , itd. Određivanje vrednosti nepoznatih parametara kod funkcija koje se koriste za izražavanje trenda se vrši na osnovu podataka koji su poznati iz nekog ranijeg perioda i to primenom metode najmanjih kvadrata koji smo upoznali kod kriva regresije. U slučaju linearnog trenda na raspolaganju treba da postoje podaci iz dvodimenzionalnog uzorka ( (x1,y1) , (x2,y2) , ... , (xn,yn)) . Neophodno je da se proveri da li među podacima postoji izražena linearna zavisnost koja se ogleda u koeficijentu korelacije: ρ = ρxy = ( ∑ (xi – EX) (yi – EY))/ ( ∑ (xi – EX)2( yi – EY)2)1/2
i =1 i =1 n n

Smatra se da za: 0 <| ρ | ≤ 0,3 linearna veza je neznatna; 0,3 < |ρ | ≤ 0,5 linearna veza je slaba; 0,5 < | ρ | ≤ 0,7 linearna veza je značajna; 0,7 < | ρ | ≤ 0,9 linearna veza je jaka; 0,9 <| ρ | ≤ 1 linearna veya je vrlo jaka. Dobijena vrednost koeficijenta korelacije će odrediti da li je svrsishodno određivati jednačinu prave pomoću koje će se vršiti prognoziranje ponašanja posmatrane pojave u budućem periodu. Napomenimo da se nepoznati parametri a i b izračunavaju istovremeno kada i koeficijent korelacije. Postoji razrađen postupak za kraće određivanje parametara a i b na osnovu podataka iz vremenskog niza promenljivh X i Y: - ako je broj uzastopnih elemenata u vremenskom nizu (broj zadatih parova (xi,yi)) neparan, tj. N = 2n +1 označavamo ih sa -n , -(n-1) , ..., -2 , -1, 0, 1,2, ... , (n-1), n

pa se onda dobija ∑ xi = 0, pa se koeficijenti prave y = a+bx računaju iz formula
i =1

n

a = ( ∑ yi)/ N ; b = ( ∑ xiyi) / ∑ xi2
i =1 i =1 i =1

N

N

N

-ako je broj uzastopnih elemenata u vremenskom nizu paran, tj. N = 2n označavamo ih sa -(n – 0,5), ..., -1,5 , 0,5 , 1,5 , 2,5 , ... , (n – 0,5) i ponovo se dobija x1+x2 + ... +xn= 0 i iste formule za izračunavanje a i b. Primer 20.1. Proizvodnja u jednoj fabrici u prethodnih 9 godina je data u tabeli: I 20 II 25 III 30 IV 40 V 30 VI 40 VII 45 VIII 45 IX 50

Prognozirati proizvodnju u naredne dve godine. Iz sledeće radne tabele je:

xi -4 -3 -2 -1

yi 20 25 30 40

xiyi -80 -75 -60 -40

xi2 16 9 4 1

0 1 2 3 4
∑ 0

30 40 45 45 50 325 ;

0 40 90 90 200 210

0 1 4 9 16 60 y = 3,5x + 36,11

a = 325/9 = 36,11 36.11, tj.

b = 210/ 60 ≈ 3,5 ;

Ako je »nulta« godina na sredini odnosno onda je y = 3,5 (x –5) + y = 3,5x + 18,61 ako je početna godina prva. Na osnovu zadnjeg izraza se dobija prognoza proizvodnje za desetu i jedanaestu godinu: y10 = 3,5 ∙10 + 18,61 = 53,61 ; y11 = 3,5 ∙11 + 18,61 = 57,11.▲ U slučaju paraboličkog trenda za određivanje parametara a, b i c u izrazu y = a +bx +cx2 koriste se sledeće normalne jednačine (na osnovu parova datih vrednosti za xi i yi ):

∑ yi = na + b ∑ xi + c ∑ xi2
i =1 i =1 i =1

n

n

n

∑ xi yi = a ∑ xi + b ∑ xi +c ∑ xi3
2
i =1

n

n

n

n

∑ xi yi2 = a ∑ xi2 + b ∑ xi3 + c ∑ xi4
i =1 i =1 i =1 i =1

n

i =1 n

i =1 n

i =1 n

I ovde pomaže skraćeni postupak kao kod linearnog trenda tako da »nestaju«

∑ xi i ∑ xi3 pa se gornji sistem po nepoznatim a, b i c uprošćava.
i =1 i =1

n

n

Primer 20.2. U sledećoj tabeli je potrošnja nekog artikla tokom osam godina, a

potrebno je da se prognozira pomoću paraboličkog trenda potrošnja u narednoj godini. I 4 Iz radne tabele : xi -3,5 -2,5 -1,5 -0,5 0,5 1,5 2,5 3,5

II 8

III 9

IV 11

V 12

VI 13

VII 12

VIII 13

yi 4 8 9 11 12 13 12 13 82

xi2 12,25 6,25 2,25 0,25 0,25 2,25 6,25 12,25 42

xi3 -42,875 -15,625 -3,375 -0,125 0,125 3,375 15,625 42,875 0

xi4 149,06 39,06 5,06 0,06 0,06 5,06 39,06 149,06 386,5

xi yi -14,0 -20,0 -13,5 -5,5 6,0 19,5 30,0 45,5 48

xi2 yi 49,00 50,00 20,25 2,75 3,00 29,225 75,00 159,25 388,5

0

se dobija sledeći sistem jednačina 82 = 8a + 42c 48 = 42b 388,5 = 42a + 386,5c odakle je a= 12,13 ; b = 1,14 ; c = -0,31 tj. y = 12,13 + 1,14x – 0,31x2 Ako se vrati sistem na početno stanje , pomeranjem za 4,5, dobija se funkcija paraboličkog trenda y = 12,13 + 1,14 (x – 4,4) – 0,31 (x – 4,5)2 tj. yp = 0,72 + 3,93x- 0,31x2 , odakle je prognoza artikla za narednu, devetu godinu: y = 0,72 + 3,93 ∙9 – 0,31∙92 = 10,98.

Napomenimo da ako bi se u ovom slučaju odredio linearni trend dobili bi jednačinu prave u obliku yL = 1,14x + 5,12 odakle bi se dobila prognozirana potrošnja za narednu godinu y9 = 15,38.▲ Postavlja se pitanje, shodno prethodnom primeru, koja je od dve dobijene prognoze bolja ? Zbog toga je potrebno da se oceni greška. Jedna od formula za ocenu veličine standardne greške kod trenda je: St = ( ∑ (y – yt)2/ (n – k))1/2 gde je k broj parametara koji se izračunava – kod linearnog trenda je k = 2, a kod paraboličkog je k = 3, dok se vrednosti razlika ordinata računaju za svaki trend posebno. Naravno, smatra se da je bolji onaj trend kod koga je ocena greške manja. Primenom ove formule za trendove iz poslednjeg primera dobija se: (x1 = 1, x2 = 2, ...; yL (1) = 6,26, ..., ; yp (3) = 0,52, ...) yi 4 8 9 11 12 13 12 13

yL 6,26 7,40 8,54 9,68 10,82 11,96 12,10 13,24

yp 4,34 7,34 9,72 11,48 12,62 13,14 13,04 12,32

(yL – yi )2 5,11 0,36 0,21 1,74 1,39 1,08 0,01 0,06 9,96

(yp – yi)2 0,12 0,44 0,52 0,27 0,38 0,02 1,08 0,46 3,29
1,66

Greška kod linearnog trenda je SL = (9,96/ (8-2))1/2 = nego kod paraboličnog trenda ( Sp = ( 3,29 / (8-3))1/2 =
0,6 6

i veća je

.

DODATAK A
Statistika pomoću Microsoft Excel-a Različita, često veoma dugotrajna izračunavanja, kao i predstavljanja podataka i rezultata u statistici, mogu se u značajnoj meri olakšati korišćenjem mogućnosti programa Microsoft Excel-a. Naime, među 320 ugrađenih funkcija svrstanih u 11 grupa, u ovom programu je i 77 funkcija namenjenih statističkoj obradi podataka. Ove su funkcije sistematizovane prema zadatku koji obavljaju u sledeće grupe: -za sortiranje podataka (13 funkcija) . Tako recimo MIN –utvrđuje najmanju vrednost u listi argumenata; SMALLizračunava k-tu najmanju vrednost u skupu podataka, COUNT – određuje koliko se brojeva nalazi na listi argumenata, itd. -za sredine i odstupanja (16 funkcija). Funkcija AVERAGE služi za određivanje aritmetičke sredine za zadate argumente, GEOMEAN za izračunavanje geometrijske sredine, MODE – utvrđuje vrednost koja se najčešće javlja u seriji podataka, STDEVP utvrđuje standardnu devijaciju zadate populacije, itd. -za distribucije i ocene (37 funkcija). Među njima, recimo CONFIDENCE daje interval poverenja u slučaju da je poznata sredina obeležja, TDIST izračunava Studentovu traspodelu, POISSON daje raspodelu Poisson-a, CHIDIST daje jednostranu verovatnoću kod χ2 raspodele, itd. -za trendove i korelacije (11 funkcija). Pomoću funkcije CORREL izračunava se koeficijent korelacije za dve serije podataka ; FORECAST izračunava vrednosti duž linearnog trenda, LINEST utvrđuje parametre linearnog trenda, itd. U meniju Help Excela mogu se naći ove funkcije, kao i detaljna uputstva o značenju, nameni i načinu njihovog

korišćenja. Čitaoci se, takođe, upućuju na izvore iz literature br. |12| i |13| .

DODATAK B Pregled važnijih raspodela
Bernulijeva raspodela p( X=1 ) = p , p( X=0 ) = 1-p EX = p , σ2X = p(1-p) Binomna raspodela B (n,p) p(X = k) = n(n-1)...(n-k+1) / k! pk (1-p)n-k , EX = np , σ2X = np(1-p) Hipergeometrijska raspodela
m n− m

k = 0,1,2, ..., n

p(X = k) = ( ) (
k

r− k

) / ( ) , k = 0, 1, ...,r , r ≤ m ≤ n
r

n

EX = r m / n, Geometrijska raspodela

σ2X = r m(n-m)(n-r) / (n2(n-1))

p(X = k) = p(l – p) k-1 , EX = 1/p , Puasonova raspodela P(λ)

k = l, 2,... ,

σ 2 X = (1-p)/p 2

p( X = k) = e -λ λk/ k! , k = 0,1,2,..., EX = λ , σ 2X = λ 2 Uniformna raspodela U(a, b)

f(x) = 1/(a-b) , EX = (a+b)/2 ,

a≤x≤b

σ 2X = (b-a) 2/12

Eksponencijalna raspodela f(x) = λ e λx , x ≥ 0 , λ > 0 EX = 1/λ , σ 2X = 1/λ 2

Normalna raspodela N (m, σ) f(x) = 1/(σ(2π) 1/2 ) exp (- (x-m) 2/2σ 2) EX = m , σ 2X = σ 2

Gama raspodela Γ(α , λ) f(x) = λ α e-λx xα-1 / Γ(α) gde je Γ(α) = ∫ 0

xα-1 e-x dx

EX = α/λ , σ 2X = α/λ 2

Hi kvadrat raspodela χ 2(n) sa n stepena slobode f(x) = 1/ (2 n/2 Γ(n/2)) x n/2-1 e-n/2 EX = n , σ 2X = 2n Studentova raspodela t(n) sa n stepena slobode f(x) = Γ((n+1)/2)/( (nπ)
1/2

Γ(n/2)) (1 + x 2/n) -(n+1)/2 n>2

EX = 0 , σ 2X = n/(n-2) ,

Košijeva raspodela f(x) = λ / (π(1 + x 2)) Relejeva raspodela f(x) = x/ σ 2 exp (- x 2/ 2σ 2) , x > 0 f(x) = σ /(2π) 1/2 , σ 2X = σ 2(4-π)/2 Laplasova raspodela f(x) = 1/2λ exp (-(x-μ)/λ) EX = μ , σ 2X = 2λ 2 Vejbulova raspodela V(α,β ) f(x) = α/β 2 xα-1 exp(-(x/β) α), Lognormalna raspodela L(μ, β) f(x) = 1/((2π)1/2σ x) exp( -(ln x – μ)2/2σ2) x>0

You're Reading a Free Preview

Download
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->