Background image

terug

Vraag 12

De rapporten van beide ziekenhuizen bevatten samen 996.734 woorden. Toch waren er in totaal slechts ongeveer 20 000 verschillende woorden. Dit komt omdat er woorden zijn die heel vaak gebruikt worden. Om je hiervan een idee te geven zie je in bijlage "Frequentie woorden" de tien woorden die het meest frequent in de rapporten werden gebruikt.

Je ziet dat in de tabel de woorden op rangnummer, in volgorde van hun frequentie, zijn genoemd. Zo kun je bijvoorbeeld aflezen dat het woord 'met' in totaal 27.667 keer is geteld en dat dit woord rangnummer 4 heeft.
De onderzoekers J. B. Estoup en G. K. Zipf hebben geprobeerd in allerlei teksten een verband te vinden tussen het rangnummer r van een woord en de bijbehorende frequentie fr.

In 1949 vond Zipf de formule:

fr = C / r

Deze formule wordt ook wel de 'wet van Zipf' genoemd.
De waarde van C hangt af van het totale aantal woorden in de tekst. Volgens Zipf is C de oplossing van de vergelijking:

2,3 · C · log C = aantal woorden in de tekst

De rapporten van het AZM bevatten samen 495.378 woorden.

Bereken de waarde van C die bij de rapporten van het AZM hoort.
Rond af op duizendtallen.

terug

Bijlage(n)

Bij deze vraag worden één of meerdere bijlagen gebruikt.

Bijlage: Frequentie woorden