Background image

terug

Vraag 9

In ziekenhuizen verschijnen veel rapporten die over de behandeling van patiënten gaan. In dergelijke rapporten komen, naast het gewone taalgebruik, ook veel medische termen voor.
Bij twee ziekenhuizen heeft men onderzoek gedaan naar het woordgebruik in deze rapporten. Hiervoor heeft men van 5000 rapporten geteld hoe vaak ieder woord in totaal voorkwam.
Deze rapporten bevatten samen 996.734 woorden. Toch waren er in totaal slechts ongeveer 20.000 verschillende woorden. Dit komt omdat er woorden zijn die heel vaak gebruikt worden. Om je hiervan een idee te geven zie je in tabel 2 de tien woorden die het meest frequent in de rapporten werden gebruikt.

Je ziet dat in de tabel de woorden op rangnummer, in volgorde van hun frequentie, zijn genoemd. Zo kun je bijvoorbeeld aflezen dat het woord 'met' in totaal 27.667 keer is geteld en dat dit woord rangnummer 4 heeft.
De onderzoekers J. B. Estoup en G. K. Zipf hebben geprobeerd in allerlei teksten een verband te vinden tussen het rangnummer r van een woord en de bijbehorende frequentie fr.

In 1949 vond Zipf de formule:

fr = C / r

Deze formule wordt ook wel de 'wet van Zipf' genoemd.
De waarde van C hangt af van het totale aantal woorden in de tekst. Volgens Zipf is C de oplossing van de vergelijking:

2,3 · C · log C = aantal woorden in de tekst

De rapporten van het AZM bevatten samen 495.378 woorden.

Bereken de waarde van C die bij de rapporten van het AZM hoort.
Rond af op duizendtallen.

terug

Bijlage(n)

Bij deze vraag worden één of meerdere bijlagen gebruikt.

Bijlage: Frequentie woorden