Tip:
Highlight text to annotate it
X
.
I denne video skal vi snakke om en af de
mest fundamentale og dybgående koncepter i statistik og
måske også i hele matematikkens Verden.
Og det er netop den "centrale grænseværdi sætning".
.
og den viser os, at vi kan starte med en hvilken som helst
fordeling, som har et vel-defineret gennemsnit og varians.
Og hvis den har en vel-defineret varians, så har den også en vel-defineret
standard afvigelse.
Det kan være en kontinuert fordeling eller en diskret fordeling.
vi tegner en diskret en, fordi det er nemmere at
forestille sig - i det mindste for denne videos formål.
Lad os sige, at vi har en diskret sandsynligheds
fordelings funktion.
og vi skal sikre os, at den ikke kommer til at ligne
en normal fordeling, fordi vi vil vise
styrken ved den centrale grænseværdi sætning.
Lad os sige, at vi en fordeling.
Lad os sige, vi bruger værdierne 1 til 6
1, 2, 3, 4, 5, 6.
det er en slags skør terning
lad os sige, at det er meget sandsynligt at slå 1
lad os lige lave en lige linie - der er en meget store sandsynlighed
for at slå en 1'er, lad os sige det er umuligt at slå 2, lad os
sige at der er OK stor sandsynlighed for at slå en 3'er og en 4'er,
Lad os sige det er umuligt at slå 5.
og lad os sige at det er meget sandsynligt at slå 6.
Det er så vores sandsynligheds fordelings funktion.
Hvis vi skulle vise gennemsnittet - denne er symetrisk, så måske ville gennemsnittet
se nogenlunde sådan her ud.
Så ville gennemsnittet være halvvejs.
Det ville altså være gennemsnittet lige her.
Standard afvigelsen, ville måske - den ville
være så langt over og så langt under gennemsnittet.
Men det er altså vores diskrete sandsynligheds
fordelings funktion.
Det vi så gør nu, i stedet for bare at udvælge stikprøver
af denne tilfældige variabel som er beskrevet af denne sandsynligheds
fordelings funktion. Vi tager en stikprøve..
men vi laver et gennemsnit af stikprøverne og ser så på
stikprøverne og den frekvens som gennemsnittene giver.
og når jeg siger "average", så mener jeg gennemsnittet.
Lad os sige - og lad os lige definere en ting - lad os sige at vores
stikprøve størrelsen, og her kunne vi skrive et hvilket som helst tal, med lad os
først prøve en stikprøve størrelse af n = 4.
og det betyder altså, at vi tager 4
stikprøver fra denne.
Lad os sige vi tager 4 stikprøver.
Så vores stikprøve-størrelse er 4.
Lad os antage, at vi en 1'er, og en til 1'er, lad os sige
vi får en 3'er og en 6'er.
Så det er altså min første stikprøve med prøve-størrelsen 4.
Terminologien kan være lidt forvirrende fordi dette er
en stikprøve der består af 4 stikprøver.
Men når vi snakker om stikprøvens gennemsnit og den fordeling
som prøvetagningen antager, af stikprøve-gennemsnittet, som vi kommer til at tale mere
og mere omkring i de næste par videoer. Normalt vil prøvetagningen
referere til stikprøverne fra vores fordeling.
Og stikprøvestørrelsen fortæller os hvor mange vi rent faktisk tog
fra vores fordeling.
Men igen kan terminologien være meget forvirrende fordi vi kan
let komme til at se en af disse som en stikprøve.
Men vi tager altså 4 stikprøver her.
Vi har en stikprøve-størrelse på 4.
Og det vi gør nu, er at vi tager gennemsnittet af dem.
Så lad os tage gennemsnittet
Gennemsnittet af den første stikprøve på 4 er hvad?
1 + 1 er 2
2 + 3 er 5.
5 + 6 er 11.
11 divideret med 4 er 2,75.
Det er gennemsnitet af første stikprøve på 4.
Lad os tage en til.
Min anden stikprøve er på 4.
Lad os sige, at vi har en 3'er, en 4'er, og en til 3'er,
og lad os sige vi får en 1'er.
Denne gang fik vi ikke en 6'er.
og bemærk, at vi ikke kan få 2 og 5.
Det er umuligt for denne fordeling.
Chancen for at få en 2'er eller en 5'er er 0.
Vi kan ikke slå nogle 2'ere og 5'ere.
Så for denne anden stikprøve på 4, vores prøve gennemsnit
vil være 3 + 4 er 7.
7 + 3 er 10, plus 1 er 11.
11 divideret med 4, er atter en gang 2,75.
Lad os tage en til for at gøre det helt klart
hvad vi har gang i.
Vi tager en til - rent faktisk tager vi mange
flere, men lad os tage en til
Lad os sige vores tredje stikprøve på 4
Vi laver 4 stikprøver.
Vores stikprøve består af 4 prøver fra denne originale
skøre fordeling.
lad os sige vi får en 1'er, en 1'er, en 6'er og en 6'er.
Og så bliver vores tredje stikprøve gennemsnit 1 + 1 er 2.
2 plus 6 er 8.
8 plus 6 er 14.
14 divideret med 4 er 3,5.
.
Så for hvert af vores
stikprøver, af prøve-størrelse 4, finder vi vores gennemsnit
og som vi beregner hvert af dem, plotter vi dem ind i denne frekvens fordeling.
Og dette vil sikkert overraske jer om lidt.
Vi plotter dette ind i en frekvens fordeling.
I vores første strikprøve er
vores gennemsnit 2,75.
Vi plotter frekvenserne af stikprøve gennemsnittene ind
for hver af vores stikprøver.
2,75 - har vi allerede.
Så vi sætter en lille markering her.
Det er fra den lige her.
Den anden er også 2,75.
Det er 2,75 der.
Det fik vi så to gange.
vi markere frekvensen lige her.
Så har vi 3,5.
Altså alle vores mulige værdier. Vi kunne have 3, og
3,25, vi kunne have 3,5
Så vi markere 3,5 her.
Og vi bliver ved med at
tage disse stikprøver.
Måske tager vi 10.000 stikprøver.
Vi bliver altså ved med at tage stikprøver.
Så vi kommer helt op til 10.000.
Vi tager lige nogle flere.
Over tid vil vi markere en prik for hver af disse
vi zoomer lige lidt ud
Når vi ser på det, på denne måde - over tid - vil den stadig have
alle de værdier som den kan antage.
Vi ved, at 2,75 må være her.
Så den første prik, bliver altså den lige her,
som vi placerer der, og den anden sætter vi lige
der, og den der placerer vi ved 3,5, lige der.
Men vi skal gøre det 10.000 gange, så
vi har 10.000.
Og imens vi beregner dem, så
plotter vi dem ind.
Vi markerer bare frekvenserne
igen og igen
og igen og igen.
Og det vi vil se, som vi tager mange mange
stikprøver á 4
får vi noget der begynder at
ligne en normal fordeling.
hver af disse prikker indikere altså et gennemsnit af en stikprøve.
Som vi bliver ved med at tillægge den kolonne her, betyder
det at vi blev ved med at gå gennemsnittet 2,75.
Så over tid, får vi altså noget der begynder
at ligne en normal fordeling.
Og det er det der gør central grænse sætningen speciel.
Så central grænsen - vi skriver det i
orange - er tilfældet for n = 4.
Dette var for prøvestørrelse 4.
Hvis vi så gjorde det samme med en prøvestørrelse på 20.
I dette tilfælde, i stedet for bare at tage 4 prøver fra vores
originale skøre fordeling, tager vi 20
tilfælde af vores tilfældige variable og regner gennemsnittet af disse 20 og
vi markerer prøve gennemsnittet her.
I det tilfælde, får vi en fordeling
som ser sådan her ud.
Og det vil vi diskuterer mere i andre videoer.
Men det viser sig, at hvis vi plottede 10.000 gennemsnit ind
her, får vi noget der - to ting:
-kommer mere til at ligne en normal
fordeling.
Og vi vil kunne se i senere videoer, at den
vil have en mindre - eller lad os være specifikke - den vil
have det samme gennemsnit.
Så det er altså gennemsnittet.
Den vil have det samme gennemsnit.
Den vil have en mindre standard afvigelse.
Så vi plotter disse fra bunden, fordi
vi, nærmest stabler dem.
man får flere og flere tilfælde.
Og dette vil mere end nærme sig
en normal fordeling.
Så det er altså - og det er det som er så fedt ved
central grænse sætningen - som vores stikprøve størrelse bliver større,
eller vi kan sige som den nærmer sig uendeligt
eller så tæt behøver vi heller ikke at komme på uendeligt,
så kommer vi tættere på en normal fordeling.
Selv hvis vi har en stikprøve størrelse på 10 eller 20, vil vi
komme tæt på en normal fordeling.
Ja rent faktisk så tæt på som vi vil se det
i vores hverdag.
Men det lækre er, at vi kan starte med en tilfældig
fordeling.
Dette har ikke noget at gøre med en normal fordeling
Men hvis vi sætter stikprøvestørrelsen til - her var den 4 - men hvis vi
sætter den til 10 eller 100 og vi skulle
tage 100 af disse i stedet for 4 here og finde gennemsnittet af dem
og så plotte gennemsnittene, frekvensen af dem.
Og vi tager 100 igen, gennemsnitter dem,
og plotter det igen.
Og hvis vi gjorde det et par gange, ja faktisk hvis vi
gjorde det uendeligt mange gange, ville vi se -
især hvis vi havde uendeligt mange - vi
ville se en perfekt normal fordeling.
Det er det skøre ved det.
Og det virker ikke ved bare at tage gennemsnittet af stikprøven.
Her tog vi gennemsnittet, men vi kunne også have
taget summen.
Central grænse sætningen ville stadig have virket.
Og det er det som gør den så brugbar.
Fordi i det virkelige liv, er der alle mulige processer der ude,
proteiner der slår mod hinanden, folk der gør skøre
ting, mennesker agerer på mærkelige måder.
Og vi kender ikke sandsynligheds fordelings
funktionen for nogle af disse ting.
Men det som central grænse sætningen fortæller os, er hvis vi
lagde en masse af de funktioner sammen, og antog at de
alle havde den samme fordeling, eller hvis vi tog gennemsnittet
af alle de funktioner og hvis vi plottede
frekvensen af de gennemsnit ind, ville vi få en normal
fordeling.
Og det derfor normal fordelingen ses så
ofte i statistik, og også derfor det er er en meget god
tilnærmelse for summen af gennemsnittene for en masse
processer.
Normal fordelingen.
Det vi skal se på i den næste video er
at dette er virkeligheden.
At som vi øger vores stikprøvestørrelse, som vi gør
n større, og som vi tager en masse gennemsnit, vil vi
have et frekvens plot, der vil afspejle en
normal fordeling.
.