Homocediciteit wat is, belang en voorbeelden

Homocediciteit wat is, belang en voorbeelden

De Homocediciteit In een voorspellend statistisch model treedt het op als in alle gegevensgroepen van een of meer waarnemingen de variantie van het model met betrekking tot de verklarende (of onafhankelijke) variabelen constant blijft.

Een regressiemodel kan homocedastisch zijn of niet, in welk geval we het over hebben heterocediciteit.

Figuur 1. Vijf gegevensgroepen en regressie -aanpassing van de set. De variantie met betrekking tot de voorspelde waarde is hetzelfde in elke groep. (Upav-bibliotheek.org)

Een statistisch regressiemodel van verschillende onafhankelijke variabelen wordt homocedastiek genoemd, alleen als de variantie van de voorspelde variabele fout (of de standaardafwijking van de afhankelijke variabele) uniform blijft voor verschillende groepen van de verklarende of onafhankelijke variabelen.

In de vijf gegevensgroepen in figuur 1 is de variantie in elke groep berekend, met betrekking tot de waarde geschat door de regressie, waardoor in elke groep hetzelfde wordt. Er wordt ook aangenomen dat de gegevens de normale verdeling volgen.

Op grafisch niveau betekent dit dat de punten gelijkelijk verspreid of verspreid zijn rond de voorspelde waarde door de regressie -aanpassing, en dat het regressiemodel dezelfde fout en geldigheid heeft voor het bereik van de verklarende variabele.

[TOC]

Belang van homocediciteit

Om het belang van homocedasticiteit in voorspellende statistieken te illustreren, is het noodzakelijk om te contrasteren met het tegenovergestelde fenomeen, heterocediciteit.

Homocedasticiteit versus heterocediciteit

In het geval van figuur 1, waarin er homocediciteit is, wordt vervuld dat:

Var ((y1-y1); x1) ≈ var ((y2-y2); x2) ≈ ... var (y4-y4); x4)

Waar var ((yi-ii); xi) de variantie vertegenwoordigt, vertegenwoordigt het paar (xi, yi) een feit van groep I, terwijl Yi de waarde is die de regressie voorspelt voor de gemiddelde XI-waarde van de groep. De variantie van de gegevens van groep I wordt als volgt berekend:

Var ((yi -ii); xi) = ∑j (yij - yi)^2/n

Integendeel, wanneer heterocediciteit optreedt, is het regressiemodel mogelijk niet geldig voor de hele regio waarin het werd berekend. Figuur 2 toont een voorbeeld van deze situatie.

Kan u van dienst zijn: wat zijn interne alternatieve hoeken? (Met oefeningen) Figuur 2. Gegevensgroep die heterocediciteit heeft. (Eigen uitwerking)

In figuur 2 worden drie gegevensgroepen en de set van de set weergegeven door een lineaire regressie. Opgemerkt moet worden dat de gegevens in de tweede en in de derde groep meer verspreid zijn dan in de eerste groep. De grafiek van figuur 2 toont ook de gemiddelde waarde van elke groep en de foutbalk ± σ, de σ standaardafwijking van elke datacroep. Er moet aan worden herinnerd dat de standaardafwijking σ de vierkantswortel van de variantie is.

Het is duidelijk dat in het geval van heterocediciteit de fout van de regressieschatting verandert in het bereik van waarden van de verklarende of onafhankelijke variabele, en in de intervallen waar deze fout erg groot is, is de voorspelling door regressie onbetrouwbaar of niet toepasbaar.

In een regressiemodel moeten fouten of afval (y -y) worden verdeeld met gelijke variantie (σ^2) gedurende het onafhankelijke variabele waardeninterval. Het is om deze reden dat een goed regressiemodel (lineair of niet -lineair) de homocedasticiteitstest moet doorstaan. 

Homocediciteitstests

De in figuur 3 getoonde punten komen overeen met de gegevens van een studie die een relatie zoekt tussen de prijzen (in dollars) van de huizen, afhankelijk van de grootte of het gebied in vierkante meter.

Het eerste model dat wordt gerepeteerd, is dat van een lineaire regressie. In de eerste plaats wordt opgemerkt dat de bepalingscoëfficiënt R^2 van de aanpassing vrij hoog is (91%), dus men kan worden gedacht dat de aanpassing bevredigend is.

Twee regio's kunnen echter duidelijk worden onderscheiden van de aanpassingsgrafiek. Een van hen, degene aan de rechterkant die in een ovaal is vergrendeld, ontmoet homocedasticiteit, terwijl het gebied van de linker geen homocedasticiteit heeft.

Kan u van dienst zijn: graad van een polynoom: hoe deze is bepaald, voorbeelden en oefeningen

Dit betekent dat de voorspelling van het regressiemodel voldoende en betrouwbaar is in het bereik tussen 1800 m^2 tot 4800 m^2 maar zeer onvoldoende buiten deze regio. In het heterocedische gebied is niet alleen de fout erg groot, maar ook de gegevens lijken een andere trend te volgen die anders is dan de voorgestelde door het lineaire regressiemodel.

figuur 3. Huisvestingsprijzen versus gebied en voorspellend model door lineaire regressie, met gebieden met homocedasticiteit en heterocediciteit. (Eigen uitwerking)

De gegevensdispersgrafiek is de eenvoudigste en meest visuele test van hun homocedasticiteit, maar soms is het niet zo duidelijk als in het voorbeeld dat wordt getoond in figuur 3, het is noodzakelijk om hun toevlucht te nemen tot afbeeldingen met hulpvariabelen.

Gestandaardiseerde variabelen

Met als doel de gebieden te scheiden waar homocedasticiteit wordt voldaan en waarin niet wordt voldaan, worden de gestandaardiseerde variabelen Zres en Zreded geïntroduceerd:

Zres = abs (y - y)/σ

Zpred = y/σ

Opgemerkt moet worden dat deze variabelen afhankelijk zijn van het toegepaste regressiemodel, omdat het de waarde van regressievoorspelling is. Hieronder is de ZRES versus Zred -dispersiekrafiek voor hetzelfde voorbeeld:

Figuur 4. Opgemerkt moet worden dat in de homocedasticiteitszone ZRES uniform en klein blijft in het voorspellingsgebied (eigen uitwerking).

In de grafiek van figuur 4 met de gestandaardiseerde variabelen is het gebied waar de restfout klein en uniform is, duidelijk gescheiden, met betrekking tot degene die dat niet doet. In het eerste gebied wordt homocedasticiteit vervuld, terwijl de restfout zeer variabel en groot is.

Een regressie -aanpassing wordt toegepast op dezelfde gegevensgroep 3. Het resultaat wordt getoond in de volgende figuur:

Figuur 5. Nieuwe homocedasticiteit en heterocediciteitsgebieden in gegevensaanpassing met een niet-lineaal regressiemodel. (Eigen uitwerking).

In de grafiek van figuur 5 moeten de homocedische en heterocedicastische gebieden duidelijk worden opgemerkt. Er moet ook worden opgemerkt dat deze gebieden zijn uitgewisseld met betrekking tot die welke werden gevormd in het lineaire aanpassingsmodel.

Kan u van dienst zijn: soorten hoeken, kenmerken en voorbeelden

In de grafiek van figuur 5 is het duidelijk dat zelfs wanneer er een bepalingscoëfficiënt is van de aanpassing vrij hoog (93,5%), het model niet geschikt is voor het gehele interval van de verklarende variabele, omdat de gegevens voor waarden ouder dan 2000 M^2 hebben heterocedasticiteit.

Niet -ografische homocedasticiteitstests

Een van de meest gebruikte niet -ografische tests om te controleren of de homocedasticiteit is voldaan, is de Breusch-Pagan-test.

Alle details van deze test zullen niet in dit artikel worden gegeven, maar de fundamentele kenmerken ervan en de stappen van dezelfde zijn breed beschreven:

  1. Het regressiemodel wordt toegepast op de N -gegevens en de variantie van hetzelfde wordt berekend met betrekking tot de waarde geschat door het model σ^2 = ∑J (yj - y)^2/n.
  2. Een nieuwe variabele ε = ((yj - y)^2) / (σ^2) is gedefinieerd
  3. Hetzelfde regressiemodel wordt toegepast op de nieuwe variabele en de nieuwe regressieparameters worden berekend.
  4. De chi -vierkante kritische waarde (χ^2) wordt bepaald, dit is de helft van de som van de vierkanten nieuw afval in de ε variabele.
  5. De chi -vierkante distributietabel wordt gebruikt, rekening houdend met het significantieniveau op de X -as (meestal 5%) en het aantal vrijheidsgraden (#van regressievariabelen behalve de eenheid), om de waarde van het bord te verkrijgen.
  6. De kritische waarde verkregen in stap 3 wordt vergeleken met de waarde in de tabel (χ^2).
  7. Als de kritische waarde lager is dan die van de tabel, heb je de nulhypothese: er is homocediciteit
  8. Als de kritische waarde boven die van de tabel is, hebt u de alternatieve hypothese: er is geen homocedasticiteit.

De meeste statistische computerpakketten zoals: SPSS, Minitab, R, Python Pandas, SAS, Statgraphic en verschillende anderen bevatten de homocedasticiteitstest van Breusch-Pagan. Een andere test om de uniformiteit van variantie te verifiëren Levene -test.

Referenties

  1. Box, Hunter & Hunter. (1988) Statistieken voor onderzoekers. Ik heb editors omgekeerd.
  2. Johnston, J (1989). Methoden van econometrie, redacties van Vicens -Ivens.
  3. Murillo en González (2000). Econometry Manual. Universiteit van Las Palmas de Gran Canaria. Opgehaald uit: ulpgc.is.
  4. Wikipedia. Homocediciteit. Hersteld van: is.Wikipedia.com
  5. Wikipedia. Homoscedasticiteit. Opgehaald uit: in.Wikipedia.com