Formules voor determinatiecoëfficiënt, berekening, interpretatie, voorbeelden

3933
Basil Manning
Formules voor determinatiecoëfficiënt, berekening, interpretatie, voorbeelden

De determinatiecoëfficiënt is een getal tussen 0 en 1 dat de fractie van punten (X, Y) vertegenwoordigt die de regressielijn van een dataset met twee variabelen volgen.

Het is ook bekend als goedheid van fit en wordt aangegeven met Rtwee. Om het te berekenen, wordt het quotiënt tussen de variantie van de gegevens Ŷi geschat door het regressiemodel en de variantie van de gegevens Yi die overeenkomen met elke Xi van de gegevens genomen.

Rtwee = Sŷ / Sy

Figuur 1. Correlatiecoëfficiënt voor vier dataparen. Bron: F. Zapata.

Als 100% van de gegevens op de lijn van de regressiefunctie staat, is de determinatiecoëfficiënt 1.

Integendeel, als voor een set gegevens en een bepaalde aanpassingsfunctie de coëfficiënt Rtwee blijkt gelijk te zijn aan 0,5, dan kan gezegd worden dat de pasvorm 50% bevredigend of goed is. 

Evenzo, wanneer het regressiemodel waarden van R retourneerttwee lager dan 0,5 geeft dit aan dat de gekozen afstelfunctie zich niet naar tevredenheid aanpast aan de data, daarom is het nodig om een ​​andere afstelfunctie te zoeken.

En wanneer de covariantie of de correlatiecoëfficiënt neigt naar nul, dan zijn de variabelen X en Y in de gegevens niet gerelateerd, en daarom Rtwee neigt ook naar nul.

Artikel index

  • 1 Hoe de determinatiecoëfficiënt te berekenen?
    • 1.1 Illustratief geval
  • 2 Interpretatie
  • 3 voorbeelden
    • 3.1 - Voorbeeld 1
    • 3.2 - Voorbeeld 2
    • 3.3 - Voorbeeld 3
    • 3.4 Fit-vergelijking
    • 3.5 Conclusies
  • 4 referenties

Hoe de determinatiecoëfficiënt te berekenen?

In de vorige paragraaf werd gezegd dat de determinatiecoëfficiënt wordt berekend door het quotiënt tussen de varianties te vinden:

-Geschat door de regressiefunctie van de variabele Y 

-Die van de variabele Yi die overeenkomt met elk van de variabele Xi van de N dataparen. 

Wiskundig uitgedrukt, ziet het er als volgt uit:

Rtwee = Sŷ / Sy

Uit deze formule volgt dat Rtwee vertegenwoordigt de proportie van variantie verklaard door het regressiemodel. Als alternatief kan R worden berekendtwee met behulp van de volgende formule, volledig gelijk aan de vorige:

Rtwee = 1 - (Sε / Sy)

Waar Sε de variantie vertegenwoordigt van de residuen εi = Ŷi - Yi, terwijl Sy de variantie is van de reeks Yi-waarden van de gegevens. Om Ŷi te bepalen wordt de regressiefunctie toegepast, wat betekent dat Ŷi = f (Xi).

De variantie van de dataset Yi, met i van 1 tot N, wordt als volgt berekend:

Sy = [Σ (Yi - twee ) / (N-1)]

En ga dan op dezelfde manier te werk voor Sŷ of voor Sε.

Illustratief geval

Om de details te tonen van hoe de berekening van de determinatiecoëfficiënt we nemen de volgende set van vier gegevensparen: 

(X, Y): (1, 1); (2, 3); (3, 6) en (4, 7).

Voor deze dataset wordt een lineaire regressie-aanpassing voorgesteld, die wordt verkregen met behulp van de kleinste-kwadratenmethode:

f (x) = 2,1 x - 1 

Door deze instelfunctie toe te passen, worden de koppels verkregen:

(X, Ŷ): (1, 1.1); (2, 3,2); (3, 5.3) en (4, 7.4).

Vervolgens berekenen we het rekenkundig gemiddelde voor X en Y:

= (1 + 2 + 3 + 4) / 4 = 2,5

= (1 + 3 + 6 + 7) / 4 = 4,25

Variantie Sy

Sy = [(1 - 4.25)twee + (3 - 4.25)twee + (6 - 4.25)twee +….…. (7 - 4.25)twee] / (4-1) =

= [(-3,25)twee+ (-1,25)twee + (1,75)twee + (2,75)twee) / (3)] = 7.583

Variantie Sŷ

Sŷ = [(1,1 - 4,25)twee + (3,2 - 4,25)twee + (5,3 - 4,25)twee +….…. (7.4 - 4.25)twee] / (4-1) =

= [(-3,25)twee + (-1,25)twee + (1,75)twee + (2,75)twee) / (3)] = 7,35

Bepalingscoëfficiënt Rtwee

Rtwee = Sŷ / Sy = 7,35 / 7,58 = 0,97

Interpretatie

De bepalingscoëfficiënt voor het illustratieve geval dat in het vorige segment werd beschouwd, bleek 0,98 te zijn. Met andere woorden, de lineaire aanpassing via de functie:

 f (x) = 2.1x - 1

Het is 98% betrouwbaar in het verklaren van de gegevens waarmee het is verkregen met behulp van de kleinste-kwadratenmethode.. 

Naast de determinatiecoëfficiënt is er de lineaire correlatiecoëfficiënt of ook wel bekend als Pearson's coëfficiënt. Deze coëfficiënt, aangeduid als r, wordt berekend door de volgende relatie:

r = Sxy / (Sx Sy)

Hier vertegenwoordigt de teller de covariantie tussen de variabelen X en Y, terwijl de noemer het product is van de standaarddeviatie voor de variabele X en de standaarddeviatie voor de variabele Y.

De coëfficiënt van Pearson kan waarden aannemen tussen -1 en +1. Wanneer deze coëfficiënt naar +1 neigt, is er een directe lineaire correlatie tussen X en Y. Als deze naar -1 neigt, is er een lineaire correlatie, maar wanneer X toeneemt, neemt Y af. Ten slotte is het dicht bij 0, er is geen correlatie tussen de twee variabelen.

Opgemerkt moet worden dat de determinatiecoëfficiënt alleen samenvalt met het kwadraat van de Pearson-coëfficiënt wanneer de eerste is berekend op basis van een lineaire aanpassing, maar deze gelijkheid geldt niet voor andere niet-lineaire aanpassingen..

Voorbeelden

- voorbeeld 1

Een groep middelbare scholieren ging op zoek naar een empirische wet voor de duur van een slinger als functie van de lengte. Om dit doel te bereiken, voeren ze een reeks metingen uit waarin ze de tijd van een slingeroscillatie voor verschillende lengtes meten en de volgende waarden verkrijgen:

Lengte (m) Periode (n)
0.1 0,6
0,4 1,31
0,7 1,78
1 1,93
1.3 2.19
1.6 2,66
1.9 2,77
3 3.62

Er wordt gevraagd om een ​​spreidingsdiagram van de gegevens te maken en een lineaire aanpassing uit te voeren door middel van regressie. Toon ook de regressievergelijking en de determinatiecoëfficiënt.

Oplossing

Figuur 2. Oplossingsgrafiek voor oefening 1. Bron: F. Zapata.

Er kan een vrij hoge determinatiecoëfficiënt worden waargenomen (95%), dus men zou kunnen denken dat de lineaire pasvorm optimaal is. Als de punten echter samen worden bekeken, lijkt het erop dat ze de neiging hebben om naar beneden te buigen. Dit detail wordt niet overwogen in het lineaire model.

- Voorbeeld 2

Maak voor dezelfde gegevens in Voorbeeld 1 een spreidingsdiagram van de gegevens. Bij deze gelegenheid wordt, in tegenstelling tot voorbeeld 1, een regressieaanpassing gevraagd met behulp van een potentiële functie.

Figuur 3. Oplossingsgrafiek voor oefening 2. Bron: F. Zapata.

Toon ook de fit-functie en de determinatiecoëfficiënt Rtwee.

Oplossing

De potentiële functie heeft de vorm f (x) = AxB, waarbij A en B constanten zijn die worden bepaald door de methode met de kleinste kwadraten.

De vorige afbeelding toont de potentiële functie en zijn parameters, evenals de determinatiecoëfficiënt met een zeer hoge waarde van 99%. Merk op dat de gegevens de kromming van de trendlijn volgen.

- Voorbeeld 3

Gebruik dezelfde gegevens uit Voorbeeld 1 en Voorbeeld 2 en voer een tweedegraads polynoompassing uit. Toon grafiek, polynoom van fit en determinatiecoëfficiënt Rtwee correspondent.

Oplossing

Figuur 4. Oplossingsgrafiek voor oefening 3. Bron: F. Zapata.

Met de tweedegraads polynoompassing kun je een trendlijn zien die goed past bij de kromming van de gegevens. Ook ligt de determinatiecoëfficiënt boven de lineaire aanpassing en onder de potentiële aanpassing..

Passende vergelijking

Van de drie getoonde passingen is degene met de hoogste determinatiecoëfficiënt de potentiële fit (voorbeeld 2).

De potentiële aanpassing valt samen met de fysische theorie van de slinger, die, zoals bekend, vaststelt dat de periode van een slinger evenredig is met de vierkantswortel van zijn lengte, waarbij de evenredigheidsconstante 2π / √g is, waarbij g de versnelling is van zwaartekracht.

Dit type potentiële fit heeft niet alleen de hoogste determinatiecoëfficiënt, maar de exponent en evenredigheidsconstante komen overeen met het fysieke model.. 

Conclusies

-Regressie-aanpassing bepaalt de parameters van de functie die bedoeld is om de gegevens uit te leggen met behulp van de methode met de kleinste kwadraten. Deze methode bestaat uit het minimaliseren van de som van het kwadraatverschil tussen de Y-waarde van de aanpassing en de Yi-waarde van de gegevens voor de Xi-waarden van de gegevens. Dit bepaalt de parameters van de aanpassingsfunctie.

-Zoals we hebben gezien, is de meest gebruikelijke aanpassingsfunctie de lijn, maar het is niet de enige, aangezien de aanpassingen ook polynoom, potentiaal, exponentieel, logaritmisch en andere kunnen zijn.. 

-De determinatiecoëfficiënt hangt in ieder geval af van de gegevens en het type pasvorm en is een indicatie van de goedheid van de toegepaste pasvorm..

-Ten slotte geeft de determinatiecoëfficiënt het percentage van de totale variabiliteit aan tussen de Y-waarde van de gegevens met betrekking tot de Ŷ-waarde van de fit voor de gegeven X.

Referenties

  1. González C. Algemene statistieken. Hersteld van: tarwi.lamolina.edu.pe
  2. IACS. Aragonese Instituut voor Gezondheidswetenschappen. Hersteld van: ics-aragon.com
  3. Salazar C. en Castillo S. Basisprincipes van statistiek. (2018). Hersteld van: dspace.uce.edu.ec
  4. Superprof. Bepalingscoëfficiënt. Hersteld van: superprof.es
  5. USAC. Beschrijvende statistiekhandleiding. (2011). Hersteld van: Statistics.ingenieria.usac.edu.gt.
  6. Wikipedia. Bepalingscoëfficiënt. Hersteld van: es.wikipedia.com.

Niemand heeft nog op dit artikel gereageerd.