spreidingstabellen In een klas van 16 lln werden gegevens verzameld als vertrekpunt voor deze pagina. We willen nagaan of er een samenhang is tussen deze gevensreeksen. Meerdere gegevens kunnen we samen weergeven in een spreidingsdiagram:
Kan je op een spreidingsdiagram ook de sterkte van verbanden vergelijken?
Verbanden is niet altijd 'meer van het een komt overeen met meer van het andere'.
correlatie Iemand met hogere punten voor Frans heeft over het algemeen ook hogere punten voor Engels. We spreken van een positief verband of positieve correlatie. Iemand met een hoger semesterpercentage heeft over het algemeen ook minder tekorten. We spreken van een negatief verband of negatieve correlatie. Wat is de oppervlakte van een rechthoek met een constante breedte? In het onderstaande applet kan je de lengte veranderen en de bijhorende oppervlakte aflezen. De punten van dit diagram liggen op een rechte. De voorspelbaarheid is perfect. Er is een maximaal positief verband tussen lengte en oppervlakte. De correlatie is 1.
Wat is de breedte van een rechthoek met een constante omtrek? In het onderstaande applet kan je de lengte veranderen en de bijhorende breedte aflezen. De punten van dit diagram liggen op een rechte. De voorspelbaarheid is perfect. Er is een maximaal negatief verband tussen lengte en oppervlakte. De correlatie is -1.
correlatiecoëficiënt De correlatiecoëficiënt duidt de sterkte van de correlatie aan. We definiëren:
hierin is: x = het gemiddelde van de x-waarden y = het gemiddelde van de y-waarden N = aantal getallenparen sx = standaardafwijking van x sy = standaardafwijking van y
Deze correlatiecoëficiënt ligt steeds tussen -1 en +1. Hoe smaller de puntenwolk, hoe sterker de correlatie. Ter illustratie hernemen we enkele spreidingsdiagrammen met de bijhorende correlatiecoëficiënt:
berekenen van correlatiecoëficiënt In Excel is de correlatiecoëficiënt ingebouwd als functie. Let op de manier van selecteren van de gegevens: scheidt de twee reeksen door een kommapunt:
regressie In een rechthoek met constante breedte is de oppervlakte evenredig met de lengte. In het spreidingsdiagram liggen de punten lengte-oppervlakte op een rechte. Voor de punten Frans-Engels kunnen we ook een best-passende rechte tekenen: Deze rechte noemen we de regressielijn. De vergelijking van deze rechte geeft het verband weer tussen de punten Frans en Engels
Een andere schrijfwijze voor de vergelijking van de regressielijn is:
hierin is: r = de correlatiecoëficiënt tussen x en y x = het gemiddelde van de x-waarden y = het gemiddelde van de y-waarden sx = standaardafwijking van x sy = standaardafwijking van y
Correlatie en regressie in GeoGebra: Regressielijn - Bepaal een lijst met punten. - Kies op de knoppenbalk de knop: 'Regressielijn' - Selecteer met de pijlaanwijzer alle punten: de regressielijn verschijnt in het tekenvenster. In het algebravenster lees je de vergelijking van de regressielijn af. Correlatiecoëficiënt r - Typ in het invoerveld onderaan Correlatiecoëfficiënt(<lijst met punten>) en vul de gepaste lijst in.
Andere verbanden Soms is het verband tussen variabelen duidelijk niet lineair, maar van een hogere orde, of exponentieel, of sinusoïdaal... Ook deze verbanden kunnen onderzocht en getekend worden: - typ in het rekenblad de x- en y- waarden - selecteer alle waarden en kies met rechtermuisknop voor 'Maak een lijst van punten' (deze lijst wordt opgeslagen als l1) - typ in het invoerveld het commando Veeltermregressie(lijst1, n) hiermee bepaal je de trendlijn als een veelterm van de n-de graad. De graad n is instelbaar met een schuifknop Determinatiecoëfficiënt R² - Voor een willekeurig verband is de determinatiecoëfficiënt R² een maat voor de benadering van de een puntenwolk door een trendlijn. Hoe groter de determinatiecoëfficiënt, hoe passender het gekozen regressiemodel. Voor een trendlijn f en een lijst met punten l1 bepaal je R² als Determinatiecoëfficiënt(l1, f). Je kunt op verschillende manieren met spreidingsdiagrammen werken in GeoGebra. Zie voor meer opties het boek GeoGebra gebruiken. ingebouwde regressiefuncties van geogebra:
Opmerking: Met het commando PassendeKromme(Lijst met punten, functie) kan je om het even welk model toepassen: - PassendeKromme(l1, a x) berekent de trendlijn voor een lijst l1 met punten volgens een recht evenredig model. - PassendeKromme(l1, a x²) berekent de trendlijn voor een lijst l1 met punten volgens een zuiver kwadratisch model. - PassendeKromme(l1, a /x) berekent de trendlijn voor een lijst l1 met punten volgens een omgekeerd evenredig model.
nauwkeurigheid van voorspelling Wanneer we de waarde van een variabele kennen, geeft de regressielijn de best mogelijke schatting voor een tweede variabele. Maar niet alle punten van het spreidingsdiagram liggen exact op de rechte (enkel als r=1 of r= -1). Het verschil tussen de score en de voorspelling noemen we de schattingsfout. Voor deze fout kunnen we de standaardafwijking berekenen. We kunnen hieruit de waarschijnlijkheid van een bepaalde afwijking afleiden.
of nog:
hierin is: r = de correlatiecoëficiënt tussen x en y y' = schatting van y N = het aantal getallenparen sy = standaardafwijking van y
kruistabellen
Het lijkt een perfecte symmetrie. Maar zijn die 6 en die 10 leerlingen uit de eerste tabel wel dezelfde als de 6 en de 10 uit de tweede tabel? We kunnen de twee variabelen in een tabel onderbrengen. Zulk een tabel noemen we een kruistabel:
job
Hoe zou de tabel eruit zien als er geen verband is tussen een job en actief sporten?
16
Voor de afwijking tussen beide tabellen bestaat ook een maat. Hiervoor berekenen we het kwadraat van de afwijking en maken hiervan de som:
Deze waarde noemen we Ҳ2 (chi-kwadraat).
Hoe groter Ҳ² , hoe kleiner de kans dat het verband tussen variabelen toeval is. Net als de standaardnormale verdeling is de kansverdeling van het chi-kwadraat bekend. De kans dat een gegeven waarde van chi-kwadraat door het toeval wordt bepaald is op te zoeken in een tabel of te berekenen met een spreadsheet of statistisch programma. In Excel kun je gebruik maken van de functie CHIDIST om de kans uit te rekenen dat een gevonden waarde van Ҳ? door het toeval wordt bepaald (= de overschrijdingskans).
Omdat Ҳ² afhankelijk is van de steekproefgrootte, maar ook van het aantal rijen en kolommen van de tabel, zijn er ook andere maten ontwikkeld die dit nadeel niet hebben. De contingentieco?fici?t wordt gedefinieerd als volgt:
naar startpagina naar sitemap
spreidingstabellen correlatie correlatiecoëficiënt berekenen corr.coëficiënt regressie in GeoGebra nauwkeurigheid kruistabellen