Formules voor correlatiecoëfficiënten, berekening, interpretatie, voorbeeld

1969
Basil Manning

De correlatiecoëfficiënt in de statistieken is het een indicator die de neiging meet van twee kwantitatieve variabelen X en Y om een ​​lineaire of evenredige relatie tussen hen te hebben.

Over het algemeen zijn de paren variabelen X en Y twee kenmerken van dezelfde populatie. X kan bijvoorbeeld de lengte van een persoon zijn en Y zijn gewicht..

Figuur 1. Correlatiecoëfficiënt voor vier dataparen (X, Y). Bron: F. Zapata.

In dit geval zou de correlatiecoëfficiënt aangeven of er al dan niet een trend is naar een evenredige relatie tussen lengte en gewicht in een bepaalde populatie..

De lineaire correlatiecoëfficiënt van Pearson wordt aangegeven met de letter r kleine letters en de minimum- en maximumwaarden zijn respectievelijk -1 en +1. 

Een waarde r = +1 zou aangeven dat de set paren (X, Y) perfect uitgelijnd zijn en dat wanneer X groeit, Y in dezelfde verhouding zal groeien. Aan de andere kant, als het zou gebeuren dat r = -1, zou de set paren ook perfect uitgelijnd zijn, maar in dit geval wanneer X toeneemt, neemt Y af in dezelfde verhouding.

Figuur 2. Verschillende waarden van de lineaire correlatiecoëfficiënt. Bron: Wikimedia Commons.

Aan de andere kant zou een waarde van r = 0 aangeven dat er geen lineaire correlatie is tussen de variabelen X en Y. Terwijl een waarde van r = +0,8 zou aangeven dat de paren (X, Y) de neiging hebben om aan één kant te clusteren en nog een van een bepaald straatje.

De formule om de correlatiecoëfficiënt r te berekenen is als volgt:

Hoe de correlatiecoëfficiënt te berekenen?

De lineaire correlatiecoëfficiënt is een statistische grootheid die wordt aangetroffen in wetenschappelijke rekenmachines, de meeste spreadsheets en statistische programma's..

Het is echter handig om te weten hoe de formule die deze definieert, wordt toegepast, en hiervoor wordt een gedetailleerde berekening weergegeven, uitgevoerd op een kleine gegevensset.

En zoals in de vorige paragraaf werd gezegd, is de correlatiecoëfficiënt de covariantie Sxy gedeeld door het product van de standaarddeviatie Sx voor de variabelen X en Sy voor de variabele Y.

Covariantie en variantie

De covariantie Sxy is:

Sxy = [Σ (Xi - ) (Yi - )] / (N-1)

Waar de som van 1 naar de N-gegevensparen gaat (Xi, Yi). en zijn de rekenkundige gemiddelden van de gegevens Xi en Yi respectievelijk.

Van zijn kant is de standaarddeviatie voor de variabele X de vierkantswortel van de variantie van de dataset Xi, met i van 1 tot N:

Sx = √ [Σ (Xi - ) ^ 2) / (N-1)]

Evenzo is de standaarddeviatie voor variabele Y de vierkantswortel van de variantie van de dataset Yi, met i van 1 tot N:

Sy = √ [Σ (Yi - twee ) / (N-1)]

Illustratief geval

Om in detail te laten zien hoe de correlatiecoëfficiënt wordt berekend, nemen we de volgende set van vier gegevensparen 

(X, Y): (1, 1); (2, 3); (3, 6) en (4, 7).

Eerst berekenen we het rekenkundig gemiddelde voor X en Y, als volgt:

= (1 + 2 + 3 + 4) / 4 = 2,5

= (1 + 3 + 6 + 7) / 4 = 4,25

Vervolgens worden de overige parameters berekend:

Covariance Sxy

Sxy = [(1 - 2,5) (1 - 4,25) + (2 - 2,5) (3 - 4,25) + (3 - 2,5) (6 - 4,25) +….…. (4 - 2,5) (7 - 4,25) ] / (4-1)

Sxy = [(-1,5) (- 3,25) + (-0,5) (- 1,25) + (0,5) (1,75) + ... . 

…. (1,5) (2,75)] / (3) = 10,5 / 3 = 3.5

Standaarddeviatie Sx

Sx = √ [(-1,5)twee + (-0,5)twee + (0,5)twee + (1.5)twee) / (4-1)] = √ [5/3] = 1,29

Standaarddeviatie Sy

Sx = √ [(-3,25)twee + (-1,25)twee + (1,75)twee + (2,75)twee) / (4-1)] = 

√ [22,75 / 3] = 2,75

Correlatiecoëfficiënt r

r = 3,5 / (1,29 * 2,75) = 0.98

Interpretatie

In de dataset van het vorige geval wordt een sterke lineaire correlatie waargenomen tussen de variabelen X en Y, die zowel tot uiting komt in het spreidingsdiagram (weergegeven in figuur 1) als in de correlatiecoëfficiënt, die een waarde opleverde die vrij dicht bij de eenheid ligt..

Voor zover de correlatiecoëfficiënt dichter bij 1 of -1 ligt, des te logischer het is om de gegevens op een lijn te passen, het resultaat van lineaire regressie..

Lineaire regressie

De lineaire regressielijn wordt verkregen uit Methode van de kleinste kwadraten. waarin de parameters van de regressielijn worden verkregen door het minimaliseren van de som van het kwadraat van het verschil tussen de geschatte Y-waarde en de Yi van de N-gegevens.

Aan de andere kant zijn de parameters a en b van de regressielijn y = a + bx, verkregen met de kleinste-kwadratenmethode:

* b = Sxy / (Sxtwee) Voor de helling

* a = - b voor het snijpunt van de regressielijn met de Y-as.

Bedenk dat Sxy de covariantie is die hierboven is gedefinieerd en Sxtwee is de variantie of het kwadraat van de hierboven gedefinieerde standaarddeviatie. en zijn de rekenkundige gemiddelden van de gegevens X en Y respectievelijk.

Voorbeeld

De correlatiecoëfficiënt wordt gebruikt om te bepalen of er een lineaire correlatie is tussen twee variabelen. Het is toepasbaar wanneer de te bestuderen variabelen kwantitatief zijn en bovendien wordt aangenomen dat ze een normale typeverdeling volgen..

We hebben hieronder een illustratief voorbeeld: een maat voor de mate van obesitas is de body mass index, die wordt verkregen door het gewicht van een persoon in kilogrammen te delen door de lengte in het kwadraat daarvan in meters in het kwadraat..

Je wilt weten of er een sterke correlatie bestaat tussen de body mass index en de concentratie van HDL-cholesterol in het bloed, gemeten in millimol per liter. Hiervoor is een onderzoek met 533 mensen uitgevoerd, dat is samengevat in de volgende grafiek, waarin elk punt de gegevens van een persoon weergeeft.

Figuur 3. Onderzoek naar BMI- en HDL-cholesterol bij 533 patiënten. Bron: Aragonese Instituut voor Gezondheidswetenschappen (IACS).

Nauwkeurige observatie van de grafiek laat zien dat er een zekere lineaire trend is (niet erg uitgesproken) tussen de concentratie van HDL-cholesterol en de body mass index. De kwantitatieve maat voor deze trend is de correlatiecoëfficiënt, die in dit geval r = -0,276 bleek te zijn.

Referenties

  1. González C. Algemene statistieken. Hersteld van: tarwi.lamolina.edu.pe
  2. IACS. Aragonese Instituut voor Gezondheidswetenschappen. Hersteld van: ics-aragon.com 
  3. Salazar C. en Castillo S. Basisprincipes van statistiek. (2018). Hersteld van: dspace.uce.edu.ec
  4. Superprof. Correlatiecoëfficiënt. Hersteld van: superprof.es
  5. USAC. Beschrijvende statistiekhandleiding. (2011). Hersteld van: Statistics.ingenieria.usac.edu.gt
  6. Wikipedia. Pearson's correlatiecoëfficiënt. Hersteld van: es.wikipedia.com.

Niemand heeft nog op dit artikel gereageerd.