Startpagina
Statistieken
Voorbeelden van niet-gegroepeerde gegevens en oefening opgelost

Voorbeelden van niet-gegroepeerde gegevens en oefening opgelost

1489

421

Jonah Lester

De niet-gegroepeerde gegevens zijn die welke, verkregen uit een studie, nog niet per klas zijn georganiseerd. Als het een beheersbaar aantal gegevens is, meestal 20 of minder, en er zijn weinig verschillende gegevens, kan het worden behandeld als niet-gegroepeerde en waardevolle informatie die eruit wordt gehaald.

De niet-gegroepeerde gegevens komen zoals ze zijn uit de enquête of de studie die is uitgevoerd om ze te verkrijgen en missen daarom verwerking. Laten we eens kijken naar enkele voorbeelden:

Figuur 1. De niet-gegroepeerde gegevens komen rechtstreeks uit een bepaald onderzoek en zijn niet geclassificeerd. Bron: Pxhere.

-Resultaten van een IQ-test op 20 willekeurige studenten van een universiteit. De verkregen gegevens waren de volgende:

119, 109, 124, 119, 106, 112, 112, 112, 112, 109, 112, 124, 109, 109, 109, 106, 124, 112, 112,106

-Leeftijd van 20 werknemers van een bepaalde populaire coffeeshop:

24, 20, 22, 19, 18, 27, 25, 19, 27, 18, 21, 22, 23, 21, 19, 22, 27, 29, 23, 20

-Het eindcijfergemiddelde van 10 leerlingen in een wiskundeklas:

3,2; 3.1; 2,4; 4,0; 3,5; 3.0; 3,5; 3.8; 4.2; 4.9

Artikel index

1 Gegevenseigenschappen
2 Berekening van het gemiddelde, de mediaan en de modus
3 Bereik, variantie, standaarddeviatie en bias
- 3.1 Variantie en standaarddeviatie
4 Oefening opgelost
- 4.1 Oplossing
5 referenties

Gegevenseigenschappen

Er zijn drie belangrijke eigenschappen die een set statistische gegevens karakteriseren, of ze nu gegroepeerd zijn of niet, namelijk:

-Positie, dat is de neiging van de gegevens om rond bepaalde waarden te clusteren.

-Spreiding, een indicatie van hoe verspreid of verspreid de gegevens zijn rond een bepaalde waarde.

-Vorm, Het verwijst naar de manier waarop de gegevens worden gedistribueerd, wat wordt gewaardeerd wanneer een grafiek hiervan wordt geconstrueerd. Er zijn zeer symmetrische curven en ook scheef, ofwel naar links of naar rechts van een bepaalde centrale waarde.

Voor elk van deze eigenschappen is er een reeks maatregelen die ze beschrijven. Eenmaal verkregen, geven ze ons een overzicht van het gedrag van de gegevens:

-De meest gebruikte positiematen zijn het rekenkundig gemiddelde of gewoon het gemiddelde, de mediaan en de modus.

-Bereik, variantie en standaarddeviatie worden vaak gebruikt bij spreiding, maar het zijn niet de enige maatstaven voor spreiding..

-En om de vorm te bepalen, worden het gemiddelde en de mediaan vergeleken door middel van bias, zoals je binnenkort zult zien.

Berekening van het gemiddelde, de mediaan en de modus

-Het rekenkundig gemiddelde, ook wel bekend als gemiddelde en aangeduid als X, wordt het als volgt berekend:

X = (x₁ + X_twee + X₃ +… X_n) / n

Waar x₁, X_twee,X_n, zijn de gegevens en n is het totaal ervan. In sommatie hebben we:

-Mediaan is de waarde die verschijnt in het midden van een geordende reeks gegevens, dus om deze te verkrijgen, is het noodzakelijk om eerst de gegevens te ordenen.

Als het aantal waarnemingen oneven is, is het geen probleem om het middelpunt van de verzameling te vinden, maar als we een even aantal gegevens hebben, worden de twee centrale gegevens doorzocht en gemiddeld.

-Mode is de meest voorkomende waarde die wordt waargenomen in de dataset. Het bestaat niet altijd, aangezien het mogelijk is dat geen enkele waarde vaker wordt herhaald dan een andere. Er kunnen ook twee gegevens zijn met gelijke frequentie, in dat geval spreken we van een bimodale verdeling.

In tegenstelling tot de vorige twee metingen, kan de modus worden gebruikt met kwalitatieve gegevens.

Laten we eens kijken hoe deze positiematen worden berekend met een voorbeeld:

Uitgewerkt voorbeeld

Stel dat we het rekenkundig gemiddelde, de mediaan en de modus willen bepalen in het aan het begin voorgestelde voorbeeld: de leeftijd van 20 werknemers van een cafetaria:

24, 20, 22, 19, 18, 27, 25, 19, 27, 18, 21, 22, 23, 21, 19, 22, 27, 29, 23, 20

De voor de helft het wordt eenvoudig berekend door alle waarden op te tellen en te delen door n = 20, het totale aantal gegevens. Op deze manier:

X = (24 + 20 + 22 + 19 + 18 + 27+ 25 + 19 + 27 + 18 + 21 + 22 + 23 + 21+ 19 + 22 + 27+ 29 + 23+ 20) / 20 =

= 22,3 jaar.

Om het mediaan- je moet de dataset eerst sorteren:

18, 18, 19, 19, 19, 20, 20, 21, 21, 22, 22, 22, 23, 23, 24, 25, 27, 27, 27, 29

Omdat het een even aantal gegevens is, worden de twee centrale gegevens, die vetgedrukt zijn gemarkeerd, genomen en gemiddeld. Omdat ze allebei 22 zijn, is de mediaan 22 jaar.

eindelijk, de mode Het zijn de gegevens die het meest worden herhaald of degene waarvan de frequentie hoger is, namelijk 22 jaar.

Bereik, variantie, standaarddeviatie en bias

Het bereik is gewoon het verschil tussen de grootste en de kleinste van de gegevens en stelt u in staat snel de variabiliteit van de gegevens te beoordelen. Maar afgezien daarvan zijn er andere dispersiemaatstaven die meer informatie bieden over de distributie van de gegevens..

Variantie en standaarddeviatie

De variantie wordt aangeduid als s en wordt berekend met de uitdrukking:

Dus om de resultaten correct te interpreteren, wordt de standaarddeviatie gedefinieerd als de vierkantswortel van de variantie, of ook de quasi-standaarddeviatie, de vierkantswortel van de quasi-variantie:

Het is de vergelijking tussen de gemiddelde X en de mediaan Med:

-Als Med = gemiddelde X: de gegevens zijn symmetrisch.

-Wanneer X> Med: naar rechts scheeftrekken.

-En als X < Med: los datos sesgan hacia la izquierda.

Oefening opgelost

Vind gemiddelde, mediaan, modus, bereik, variantie, standaarddeviatie en bias voor de resultaten van een IQ-test uitgevoerd op 20 studenten van een universiteit:

119, 109, 124, 119, 106, 112, 112, 112, 112, 109, 112, 124, 109, 109, 109, 106, 124, 112, 112, 106

Oplossing

We zullen de gegevens ordenen, omdat het nodig zal zijn om de mediaan te vinden.

106, 106, 106, 109, 109, 109, 109, 109, 112, 112, 112, 112, 112, 112, 112, 119, 119, 124, 124, 124

En we zullen ze als volgt in een tabel plaatsen om de berekeningen te vergemakkelijken. De tweede kolom met de titel "Geaccumuleerd" is de som van de overeenkomstige gegevens plus de vorige..

Deze kolom helpt om gemakkelijk het gemiddelde te vinden, door de laatste geaccumuleerde gegevens te delen door het totale aantal gegevens, zoals te zien aan het einde van de kolom 'Geaccumuleerd':

X = 112,9

De mediaan is het gemiddelde van de centrale gegevens die rood zijn gemarkeerd: het cijfer 10 en het cijfer 11. Omdat ze hetzelfde zijn, is de mediaan 112.

Ten slotte is de modus de waarde die het meest wordt herhaald en is 112, met 7 herhalingen..

Met betrekking tot de spreidingsmaten is het bereik:

124-106 = 18.

De variantie wordt verkregen door het eindresultaat in de rechterkolom te delen door n:

s = 668,6 / 20 = 33,42

In dit geval is de standaarddeviatie de vierkantswortel van de variantie: √33,42 = 5,8.

Aan de andere kant zijn de waarden van de quasi-variantie en de quasi-standaarddeviatie:

s_c= 668,6 / 19 = 35,2

Quasi-standaarddeviatie = √35,2 = 5,9

Ten slotte is de bias iets naar rechts, aangezien de gemiddelde 112,9 groter is dan de mediaan 112.

Referenties

Berenson, M. 1985. Statistieken voor management en economie. Interamericana S.A.
Canavos, G. 1988. Waarschijnlijkheid en statistiek: toepassingen en methoden. Mcgraw heuvel.
Devore, J. 2012. Waarschijnlijkheid en statistiek voor techniek en wetenschap. 8e. Editie. Cengage.
Levin, R. 1988. Statistieken voor beheerders. 2e. Editie. Prentice hal.
Walpole, R. 2007. Waarschijnlijkheid en statistiek voor techniek en wetenschappen. Pearson.