Hypergeometrische distributieformules, vergelijkingen, model

1335
Robert Johnston

De hypergeometrische distributie is een discrete statistische functie, geschikt voor het berekenen van de kans in gerandomiseerde experimenten met twee mogelijke uitkomsten. De voorwaarde die nodig is om het toe te passen is dat het kleine populaties zijn, waarin de extracties niet worden vervangen en de kansen niet constant zijn.. 

Daarom, wanneer een element van de populatie wordt gekozen om het resultaat (waar of onwaar) van een bepaald kenmerk te kennen, kan datzelfde element niet opnieuw worden gekozen..

Figuur 1. In een populatie van bouten als deze, zijn er zeker defecte exemplaren. Bron: Pixabay.

Zeker, het volgende gekozen element zal dus waarschijnlijker een echt resultaat opleveren als het vorige element een negatief resultaat had. Dit betekent dat de waarschijnlijkheid varieert naarmate elementen uit de steekproef worden gehaald..

De belangrijkste toepassingen van de hypergeometrische verdeling zijn: kwaliteitscontrole in processen met weinig populatie en het berekenen van kansen bij kansspelen.

Wat betreft de wiskundige functie die de hypergeometrische verdeling definieert, deze bestaat uit drie parameters, namelijk:

- Aantal populatie-elementen (N)

- Steekproefomvang (m) 

- Aantal gebeurtenissen in de gehele populatie met een gunstig (of ongunstig) resultaat van het bestudeerde kenmerk (n).

Artikel index

  • 1 Formules en vergelijkingen
    • 1.1 Belangrijke statistische variabelen
  • 2 Model en eigenschappen 
    • 2.1 Belangrijkste eigenschappen van de hypergeometrische distributie
    • 2.2 Benadering door de binominale verdeling
  • 3 voorbeelden
    • 3.1 Voorbeeld 1
    • 3.2 Voorbeeld 2
  • 4 Opgeloste oefeningen
    • 4.1 Oefening 1
    • 4.2 Oefening 2
    • 4.3 Oefening 3
  • 5 referenties

Formules en vergelijkingen

De formule voor de hypergeometrische verdeling geeft de kans P. over wat X gunstige gevallen van een bepaald kenmerk komen voor. De manier om het wiskundig te schrijven, op basis van de combinatorische getallen, is:

In de bovenstaande uitdrukking N, n Y m zijn parameters en X de variabele zelf. 

-De totale bevolking is N.

-Aantal positieve resultaten van een bepaald binair kenmerk ten opzichte van de totale populatie is n.

-Aantal voorbeelditems is m.

In dit geval, X is een willekeurige variabele die de waarde aanneemt X P (x) geeft de kans op voorkomen van X gunstige gevallen van het bestudeerde kenmerk.

Belangrijke statistische variabelen

Andere statistische variabelen voor de hypergeometrische verdeling zijn:

- Voor de helft μ = m * n / N

- Variantie σ ^ 2 = m * (n / N) * (1-n / N) * (N-m) / (N-1)

- Typische afwijking σ dat is de vierkantswortel van de variantie.

Model en eigenschappen 

Om tot het model van de hypergeometrische verdeling te komen, gaan we uit van de waarschijnlijkheid van verkrijgen X gunstige gevallen in een steekproefomvang m. Dit monster bevat elementen die voldoen aan de onderzochte eigenschap en elementen die dat niet doen.

Onthoud dat n vertegenwoordigt het aantal gunstige gevallen in de totale bevolking van N elementen. Dan wordt de kans als volgt berekend:

P (x) = (# manieren om x # mislukte manieren te krijgen) / (totaal aantal manieren om te selecteren)

Door het bovenstaande uit te drukken in de vorm van combinatorische getallen, komen we tot het volgende kansverdelingsmodel:

Belangrijkste eigenschappen van de hypergeometrische distributie

Ze zijn als volgt:

- De steekproef moet altijd klein zijn, ook al is de populatie groot.

- De elementen van de steekproef worden een voor een geëxtraheerd, zonder ze weer in de populatie op te nemen.

- De te bestuderen eigenschap is binair, dat wil zeggen dat er maar twee waarden aan kunnen zijn: 1 of 0, O goed zeker of nep.

In elke elementextractiestap verandert de waarschijnlijkheid afhankelijk van de eerdere resultaten.

Benadering met behulp van de binominale verdeling

Een andere eigenschap van de hypergeometrische verdeling is dat deze kan worden benaderd door de binominale verdeling, aangeduid als Bi, zolang de bevolking N is groot en minstens 10 keer groter dan het monster m. In dit geval zou het er als volgt uitzien:

P (N, n, m; x) = Bi (m, n / N, x)           

Toepasbaar zolang N groot is en N> 10m

Voorbeelden

voorbeeld 1

Stel dat een machine die schroeven maakt en de verzamelde gegevens geeft aan dat 1% defecten vertoont. In een doos met N = 500 schroeven is het aantal defecten dan:

n = 500 * 1/100 = 5

Waarschijnlijkheden met behulp van de hypergeometrische verdeling

Stel dat we uit die doos (dat wil zeggen uit die populatie) een steekproef nemen van m = 60 bouten.

De kans dat er geen schroef (x = 0) in de steekproef defect is, is 52,63%. Dit resultaat wordt bereikt door de hypergeometrische verdelingsfunctie te gebruiken:

P (500, 5, 60, 0) = 0,5263

De kans dat x = 3 schroeven in het monster defect zijn, is: P (500, 5, 60, 3) = 0,0129.

Aan de andere kant is de kans dat x = 4 schroeven van de zestig van de steekproef defect zijn: P (500, 5, 60; 4) = 0,0008.

Ten slotte is de kans dat x = 5 schroeven in dat monster defect zijn: P (500, 5, 60; 5) = 0.

Maar als u de waarschijnlijkheid wilt weten dat er in dat monster meer dan 3 defecte schroeven zijn, dan moet u de cumulatieve waarschijnlijkheid verkrijgen door toe te voegen:

P (3) + P (4) + P (5) = 0,0129 + 0,0008 + 0 = 0,0137.

Dit voorbeeld wordt geïllustreerd in figuur 2, verkregen door te gebruiken GeoGebra een gratis software die veel wordt gebruikt op scholen, instituten en universiteiten.

Figuur 2. Voorbeeld van hypergeometrische distributie. Samengesteld door F. Zapata met GeoGebra.

Voorbeeld 2

Een Spaans kaartspel heeft 40 kaarten, waarvan 10 met goud en de overige 30 niet. Stel dat 7 kaarten willekeurig uit die stapel worden getrokken, die niet opnieuw in de stapel worden opgenomen.

Als X het aantal gouden munten is dat aanwezig is in de 7 getrokken kaarten, dan wordt de kans dat er x gouden munten zijn bij een trekking van 7 kaarten gegeven door de hypergeometrische verdeling P (40,10,7; x).

Laten we dit als volgt bekijken: om de kans te berekenen dat er 4 goud is in een trekking van 7 kaarten, gebruiken we de formule van de hypergeometrische verdeling met de volgende waarden:

En het resultaat is: 4,57% kans.

Maar als je de kans wilt weten om meer dan 4 kaarten te krijgen, dan moet je toevoegen:

P (4) + P (5) + P (6) + P (7) = 5,20%

Opgeloste oefeningen

De volgende reeks oefeningen is bedoeld om de concepten die in dit artikel zijn gepresenteerd te illustreren en te assimileren. Het is belangrijk dat de lezer ze zelf probeert op te lossen, voordat hij naar de oplossing kijkt.

Oefening 1

Een condoomfabriek heeft ontdekt dat van elke 1.000 condooms die door een bepaalde machine worden geproduceerd, er 5 defect zijn. Voor kwaliteitscontrole worden willekeurig 100 condooms genomen en wordt het lot afgekeurd als er minstens één of meer defecten zijn. Antwoord:

a) Wat is de mogelijkheid dat een lot van 100 wordt weggegooid?

b) Is dit criterium voor kwaliteitscontrole efficiënt??

Oplossing

In dit geval verschijnen er zeer grote combinatienummers. Berekening is moeilijk tenzij er een geschikt softwarepakket beschikbaar is.

Maar aangezien het een grote populatie is en de steekproef tien keer kleiner is dan de totale populatie, is het mogelijk om de benadering van de hypergeometrische verdeling te gebruiken door de binominale verdeling:

P (1000,5,100; x) = Bi (100, 5/1000, x) = Bi (100, 0,005, x) = C (100, x) * 0,005 ^ x (1-0,005) ^ (100-x)

In de bovenstaande uitdrukking C (100, x) is een combinatorisch getal. Dan wordt de kans dat er meer dan één defect is als volgt berekend:

P (x> = 1) = 1 - Bi (0) = 1- 0,6058 = 0,3942

Het is een uitstekende benadering als het wordt vergeleken met de waarde die wordt verkregen door de hypergeometrische verdeling toe te passen: 0,4102

Men kan zeggen dat, met een waarschijnlijkheid van 40%, een batch van 100 profylactica moet worden weggegooid, wat niet erg efficiënt is..

Maar omdat we iets minder veeleisend zijn in het kwaliteitscontroleproces en we de batch van 100 alleen weggooien als er twee of meer defecten zijn, zou de kans dat de batch wordt weggegooid tot slechts 8% afnemen..

Oefening 2

Een plastic plugmachine werkt zo dat van elke 10 stuks er één er misvormd uitkomt. In een monster van 5 stuks, hoe waarschijnlijk is het dat slechts één stuk defect is?.

Oplossing

Bevolking: N = 10

Aantal n defecten voor elke N: n = 1

Steekproefomvang: m = 5

P (10, 1, 5; 1) = C (1,1) * C (9,4) / C (10,5) = 1 * 126/252 = 0,5

Daarom is er een kans van 50% dat in een steekproef van 5 een keu vervormd uitkomt.

Oefening 3

In een bijeenkomst van jonge afgestudeerden van de middelbare school zijn er 7 dames en 6 heren. Van de meisjes studeren 4 geesteswetenschappen en 3 natuurwetenschappen. In de jongensgroep studeert 1 geesteswetenschappen en 5 wetenschap. Bereken het volgende:

a) Willekeurig drie meisjes kiezen: hoe groot is de kans dat ze allemaal geesteswetenschappen studeren?.

b) Als drie deelnemers aan de vriendenbijeenkomst willekeurig worden gekozen: wat is de mogelijkheid dat drie van hen, ongeacht hun geslacht, alle drie de wetenschap of de geesteswetenschappen ook alle drie studeren??.

c) Selecteer nu twee willekeurige vrienden en bel X naar de willekeurige variabele "aantal mensen die geesteswetenschappen studeren". Bepaal tussen de twee gekozen de gemiddelde of verwachte waarde van X en de variantie σ ^ 2.

Oplossing voor 

Bevolking is het totale aantal meisjes: N = 7. Degenen die geesteswetenschappen studeren zijn n = 4, van het totaal. De willekeurige steekproef van meisjes is m = 3.

In dit geval wordt de kans dat alle drie geesteswetenschappers zijn, gegeven door de hypergeometrische functie:

P (N = 7, n = 4, m = 3, x = 3) = C (4, 3) C (3, 0) / C (7, 3) = 0,1143

Er is dus een kans van 11,4% dat drie willekeurig gekozen meisjes geesteswetenschappen gaan studeren..

Oplossing b

De waarden die nu moeten worden gebruikt, zijn:

-Bevolking: N = 14

-De hoeveelheid die letters bestudeert is: n = 6 en de

-Steekproefomvang: m = 3.

-Aantal vrienden dat geesteswetenschappen studeert: x

Volgens dit betekent x = 3 dat alle drie geesteswetenschappen studeren, maar x = 0 betekent dat niemand geesteswetenschappen studeert. De kans dat alle drie hetzelfde studeren wordt gegeven door de som:

P (14, 6, 3, x = 0) + P (14, 6, 3, x = 3) = 0,0560 + 0,1539 = 0,2099

Dan hebben we een kans van 21% dat drie willekeurig gekozen deelnemers hetzelfde zullen bestuderen.

Oplossing c

Hier hebben we de volgende waarden:

N = 14 totale populatie vrienden, n = 6 totaal aantal in de populatie die geesteswetenschappen bestudeert, de steekproefomvang is m = 2.

Hoop is:

E (x) = m * (n / N) = 2 * (6/14) = 0,8572

En de variantie:

σ (x) ^ 2 =  m * (n / N) * (1-n / N) * (Nm) / (N-1) = 2 * (6/14) * (1-6 / 14) * (14-2) / (14 -1) =

2 * (6/14) * (1-6 / 14) * (14-2) / (14-1) = 2 * (3/7) * (1-3 / 7) * (12) / (13 )  = 0,4521

Referenties

  1. Discrete kansverdelingen. Hersteld van: biplot.usal.es
  2. Statistiek en waarschijnlijkheid. Hypergeometrische distributie. Hersteld van: projectdescartes.org
  3. CDPYE-UGR. Hypergeometrische distributie. Hersteld van: ugr.es
  4. Geogebra. Klassieke geogebra, kansrekening. Opgehaald van geogebra.org
  5. Probeer eenvoudig. Problemen met hypergeometrische distributie opgelost. Hersteld van: probafacil.com
  6. Minitab. Hypergeometrische distributie. Hersteld van: support.minitab.com
  7. Universiteit van Vigo. Belangrijkste discrete distributies. Hersteld van: anapg.webs.uvigo.es
  8. Vitutor. Statistieken en combinatoriek. Hersteld van: vitutor.net
  9. Weisstein, Eric W. Hypergeometrische distributie. Hersteld van: mathworld.wolfram.com
  10. Wikipedia. Hypergeometrische distributie. Hersteld van: es.wikipedia.com

Niemand heeft nog op dit artikel gereageerd.