verband tussen meerdere variabelen wiskunde-interactief.be

                                           

spreidingstabellen
In een klas van 16 lln werden gegevens verzameld als vertrekpunt voor deze pagina.
We willen nagaan of er een samenhang is tussen deze gevensreeksen.
Meerdere gegevens kunnen we samen weergeven in een spreidingsdiagram:

Op de horizontale as lees je het gewicht in kg af.
Op de verticale as lees je de schoenmaat af.
Wat kan je besluiten?

Kan je op een spreidingsdiagram ook de sterkte van verbanden vergelijken?

Op de horizontale as lees je het resultaat voor Frans af.
Op de verticale as lees je het resultaat voor Engels af.
Op de horizontale as lees je het resultaat voor wiskunde af.
Op de verticale as lees je het resultaat voor Frans af.

Verbanden is niet altijd 'meer van het een komt overeen met meer van het andere'.

Op de horizontale as lees je het semester% af.
Op de verticale as lees je het totaal aantal tekorten voor
dagelijks werk en proefwerken af.
Wat kan je besluiten?

Op de horizontale as lees je de schoenmaat af.
Op de verticale as lees je de uren computergebruik per dag af.
Wat kan je besluiten?

 

 

 

 

 

 

 

correlatie
Iemand met hogere punten voor Frans heeft over het algemeen ook hogere punten voor Engels.
We spreken van een positief verband of
positieve correlatie.
Iemand met een hoger semesterpercentage heeft over het algemeen ook minder tekorten.
We spreken van een negatief verband of
negatieve correlatie.
Wat is de oppervlakte van een rechthoek met een constante breedte?
In het onderstaande applet kan je de lengte veranderen en de bijhorende oppervlakte aflezen.

De punten van dit diagram liggen op een rechte. De voorspelbaarheid is perfect.
Er is een
maximaal positief verband tussen lengte en oppervlakte. De correlatie is 1.

Wat is de breedte van een rechthoek met een constante omtrek?
In het onderstaande applet kan je de lengte veranderen en de bijhorende breedte aflezen.

De punten van dit diagram liggen op een rechte. De voorspelbaarheid is perfect.
Er is een
maximaal negatief verband tussen lengte en oppervlakte. De correlatie is -1.

 

 

 

 

 

 

 

correlatiecoëficiënt
De correlatiecoëficiënt duidt de sterkte van de correlatie aan.
We definiëren:

correlatiecoëficiënt = ∑( x - x).(y -  y) 
N . sx . sy

hierin is:
x = het gemiddelde van de x-waarden       
y = het gemiddelde van de y-waarden
N = aantal getallenparen
sx = standaardafwijking van x
sy = standaardafwijking van y
 

Deze correlatiecoëficiënt ligt steeds tussen -1 en +1.
Hoe smaller de puntenwolk, hoe sterker de correlatie.
Ter illustratie hernemen we enkele spreidingsdiagrammen met de bijhorende correlatiecoëficiënt:

correlatiecoëficiënt  = 0,86                                                          correlatiecoëficiënt  = 0,36
bij een sterker verband is de correlatiecoëficiënt
  groter
correlatiecoëficiënt  = - 0,87
meer-minderverband: de correlatiecoëficiënt
 is negatief
correlatiecoëficiënt  = 0,28
wanneer er nauwelijks een verband
bestaat,
nadert de correlatiecoëficiënt
 naar 0

 

 

 

 

 

 

 

berekenen van correlatiecoëficiënt
In Excel is de correlatiecoëficiënt ingebouwd als functie.
Let op de manier van selecteren van de gegevens: scheidt de twee reeksen door een kommapunt:

 

 

 

regressie
In een rechthoek met constante breedte is de oppervlakte evenredig met de lengte.
In het spreidingsdiagram liggen de punten lengte-oppervlakte op een rechte.
Voor de punten Frans-Engels kunnen we ook een best-passende rechte tekenen: 

Deze rechte noemen we de
regressielijn.
De vergelijking van deze rechte geeft het verband weer tussen de punten Frans en Engels


 De vergelijking van de regressielijn vinden we met de formule:
 y = a . x + b
 
 a en b noemen we de regressiecoëficiënten met:    
a = r . sy 
sx
b =  y - r .  sy    .. x
sx

 Een andere schrijfwijze voor de vergelijking van de regressielijn is:   

y = r .  sy  ( x - x) +  y
sx

hierin is:
r = de correlatiecoëficiënt tussen x en y
x = het gemiddelde van de x-waarden       
y = het gemiddelde van de y-waarden
sx = standaardafwijking van x
sy = standaardafwijking van y
 

 

 

 

 

Correlatie en regressie in GeoGebra:

Regressielijn
- Bepaal een lijst met punten.
- Kies op de knoppenbalk de knop: '
Regressielijn'
- Selecteer met de pijlaanwijzer alle punten: de regressielijn verschijnt in het tekenvenster.
  In het algebravenster lees je de vergelijking van de regressielijn af.

Correlatiecoëficiënt r
- Typ in het invoerveld onderaan Correlatiecoëfficiënt(<lijst met punten>) en vul de gepaste lijst in.

Andere verbanden
Soms is het verband tussen variabelen duidelijk niet lineair, maar van een hogere orde, of exponentieel, of sinusoïdaal...
Ook deze verbanden kunnen onderzocht en getekend worden:
- typ in het rekenblad de x- en y- waarden
- selecteer alle waarden en kies met rechtermuisknop voor 'Maak een lijst van punten'
  (deze lijst wordt opgeslagen als l1)
- typ in het invoerveld het commando
Veeltermregressie(lijst1, n)
  hiermee bepaal je de trendlijn als een veelterm van de n-de graad.
  De graad n is instelbaar met een schuifknop

Determinatiecoëfficiënt R²
- Voor een willekeurig verband is de determinatiecoëfficiënt R² een maat voor de benadering van de een puntenwolk
  door een trendlijn. Hoe groter de determinatiecoëfficiënt, hoe passender het gekozen regressiemodel.
  Voor een trendlijn f en een lijst met punten l1 bepaal je R² als Determinatiecoëfficiënt(l1, f).

Je kunt op verschillende manieren met spreidingsdiagrammen werken in GeoGebra.
Zie voor meer opties het boek GeoGebra gebruiken.


ingebouwde regressiefuncties van geogebra:
 
Regressielijn(l1)      
 
regressielijn
 
van de vorm ax + by = c
 
MachtsRegr(l1)
 
machtsregressie
 
van de vorm f(x) = axb
 
VeeltRegr(l1)
 
veeltermregressie
 
van de vorm f(x) = anxn + an-1 xn-1 + ...     
 
ExpRegr(l1)
 
exponentiële regressie
 
f(x) = a . ebx
 
Logregr(l1)
 
logaritmische regressie   
 
f(x) = a + b. ln x
 
SinRegr(l1)
 
sinusoïdale regressie
 
f(x) = a + b. sin (cx + d)
 

Opmerking:
Met het commando PassendeKromme(Lijst met punten, functie) kan je om het even welk model toepassen:
- PassendeKromme(l1, a x) berekent de trendlijn voor een lijst l1 met punten volgens een recht evenredig model.
- PassendeKromme(l1, a x²) berekent de trendlijn voor een lijst l1 met punten volgens een zuiver kwadratisch model.
- PassendeKromme(l1, a /x) berekent de trendlijn voor een lijst l1 met punten volgens een omgekeerd evenredig model.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

nauwkeurigheid van voorspelling
Wanneer we de waarde van een variabele kennen, geeft de regressielijn
de best mogelijke schatting voor een tweede variabele.
Maar niet alle punten van het spreidingsdiagram liggen exact op de rechte (enkel als r=1 of r= -1).
Het verschil tussen de score en de voorspelling noemen we de
schattingsfout.

Voor deze fout kunnen we de standaardafwijking berekenen.
We kunnen hieruit de waarschijnlijkheid van een bepaalde afwijking afleiden.


 standaardafwijking van de schattingsfout:       

 

 of nog:
    

 hierin is:
 r = de correlatiecoëficiënt tussen x en y
 y' = schatting van y
 N = het aantal getallenparen
 sy = standaardafwijking van y
 

 

 

 

 

 


kruistabellen

Sommige leerlingen doen aan sport, sommigen hebben na school een job .
De variabelen 'aan sport doen' of 'werken in een studentenjob ' geen grootte.
We noemen ze nominale variabelen.
Ook tussen zulke variabelen kunnen we het verband onderzoeken:
sporten   
  niet      wel    
6 10
            job    
  geen      wel    
10 6

Het lijkt een perfecte symmetrie.
Maar zijn die 6 en die 10 leerlingen uit de eerste tabel wel dezelfde als de 6 en de 10 uit de tweede tabel?
We kunnen de twee variabelen in een tabel onderbrengen.
Zulk een tabel noemen we een
kruistabel:

      

job     

sporten
    geen     wel   totaal
  niet    2 4 6
  wel 8 2 10
totaal 10 6 16

Hoe zou de tabel eruit zien als er geen verband is tussen een job en actief sporten?

De kans op niet sporten en geen job is het product van de afzonderlijke kansen = 6 . 10
16 16
Het verwachte aantal leerlingen die niet sporten ? geen job is het product van de afzonderlijke kansen = 6 . 10 . 16 =    6 . 10 = 4
16 16

16

We kunnen voor alle cellen de verwachte waarden invullen.
We krijgen volgende tabel:
      

job     

sporten
    geen     wel   totaal
  niet    4 2 6
  wel 6 4 10
totaal 10 6 16

Voor de afwijking tussen beide tabellen bestaat ook een maat.
Hiervoor berekenen we het kwadraat van de afwijking en maken hiervan de som:

rij kolom aantal verwacht verschil (verschil)2
(verschil)2
verwacht
1 1 2 4 -2 4 1
1 2 4 2 2 4 2
2 1 8 6 2 4 0,7
2 2 2 4 -2 4 1
          Ҳ² = 4,7

Deze waarde noemen we  Ҳ2 (chi-kwadraat).

Ҳ² =  ∑ (fi - fe)²    met hierin:
   fi = geobserveerde frequentie   
   fe = verwachte frequentie
fe

Hoe groter Ҳ² , hoe kleiner de kans dat het verband tussen variabelen toeval is.
Net als de standaardnormale verdeling is de kansverdeling van het chi-kwadraat bekend.
De kans dat een gegeven waarde van chi-kwadraat door het toeval wordt bepaald is op te zoeken in een tabel
of te berekenen met een spreadsheet of statistisch programma.
In Excel kun je gebruik maken van de functie CHIDIST om de kans uit te rekenen dat een gevonden waarde van Ҳ?
door het toeval wordt bepaald (= de overschrijdingskans).


Omdat Ҳ² afhankelijk is van de steekproefgrootte, maar ook van het aantal rijen en kolommen van de tabel,
zijn er ook andere maten ontwikkeld die dit nadeel niet hebben.
De contingentieco?fici?t wordt gedefinieerd als volgt:

Contingentiecoëfficiënt:

  
   met hierin:
   N = het aantal getallen   
   Ҳ² = de waarde van chi-kwadraat    

 

 

 

 

 

 

 

 

 

 

 

 

naar startpagina
naar sitemap

spreidingstabellen
correlatie
correlatiecoëficiënt

berekenen corr.coëficiënt
regressie
in GeoGebra
nauwkeurigheid
kruistabellen