In dit hoofdstuk staan de volgende leerdoelen uit het leerstofoverzicht van KIW centraal:
- statistische gegevens, centrum- en spreidingsmaten en grafische voorstellingen van statistische gegevens
- de normale verdeling als continu model bij data met een klokvormige frequentieverdeling
- interpretatie bij een normale verdeling van relatieve frequentie als oppervlakte van een gepast gebied
In statistisch onderzoek wil men een uitspraak doen over een grote populatie. Zo kan men zich afvragen wat de verdeling is van het lichaamsgewicht van mensen, of hoeveel misdrukken er voorkomen op bankbiljetten. Het is echter niet doenlijk om de hele populatie te bestuderen. Men kan slechts een kleine steekproef bekijken.
Natuurlijk is het van belang dat de steekproef representatief is, d.w.z. dat het de eigenschappen van de populatie goed vertegenwoordigt. De kans van slagen is het grootst als men de steekproef geheel willekeurig kan trekken uit de bevolking. (De praktische uitdagingen die dit oplevert, zullen wij hier niet behandelen.) Zelfs dan is er een kans dat de steekproef toevallig een vertekend beeld levert. In de statistiek bestaan methoden om die onzekerheid in te schatten. De belangrijkste vuistregel is dat grotere steekproeven een betere kans hebben representatief te zijn.
Wij zullen ons hier beperken tot het statistisch onderzoek van één enkele eigenschap van een populatie, die bovendien als een getal weergegeven kan worden. Na het uitvoeren van de steekproef heeft men derhalve een lijst van n getalswaarden,
$$x_1,x_2,x_3,…,x_n$$
Voor het gemak nemen wij ook aan dat elk van deze waarden even betrouwbaar en belangrijk is.
Voorbeeld: In een onderzoek onder patiënten wordt gevraagd hoe vaak zij last hebben gehad van een bepaald symptoom in de afgelopen maand. Een steekproef levert n = 100 antwoorden op, een lijst getallen tussen 0 en 9.
In de volgende paragraaf zullen wij één en ander illustreren aan de hand van deze steekproef.