Vandaag verschijnt Wat gebeurt er in het Nederlands?! Over taal, frequentie en variatie. Daarom een voorpublicatie over leestekens van Nicoline van der Sijs.
Taalkundigen bestuderen taalverandering door te kijken naar het veranderende gebruik van woorden en zinnen in teksten. De onbeduidende vlekjes in die teksten, de leestekens, zijn in de Nederlandse context tot nu toe grotendeels verwaarloosd. Dit ondanks het feit dat in een gemiddelde moderne tekst de komma vaker voorkomt dan het lidwoord de. Die leestekens geven aan waar een langere of kortere pauze moet worden ingelast in het (hardop) lezen – vandaar de naam leestekens. De stilzwijgende veronderstelling is dat die leestekens irrelevant zijn voor taalveranderingsonderzoek. Maar is die veronderstelling wel terecht? Is het gebruik van leestekens in Nederlandse teksten constant of verandert het in de loop van de tijd? En als het verandert, wat betekent dat dan? Laten we voor de beantwoording van deze vragen eens kijken hoe leestekens door de tijd heen zijn gebruikt. Omdat er geen geschikt tekstcorpus beschikbaar is (zie het kader) heb ik voor dit leestekenonderzoek enkele omvangrijke en betrouwbare teksten of tekstcollecties geselecteerd uit verschillende perioden en van verschillende genres: bijbeltaal, fictie, kranten, en informele taal zoals genoteerd in brieven en tweets.
Het percentage leestekens
Figuur 1 toont een diachroon overzicht van het percentage leestekens (punt, komma, dubbelepunt, puntkomma, vraagteken en uitroepteken bij elkaar opgeteld) ten opzichte van het totale aantal woorden in de tekst, voor de vier genoemde genres.
De figuur laat een duidelijke trend zien. In de veertiende eeuw (Ferguut) ligt het percentage leestekens in de tekst heel laag. In fictie en in het bijbelcorpus stijgt het percentage sterk in de vijftiende en zestiende eeuw, vertoont een hoogtepunt in zeventiende- en achttiende-eeuwse literatuur, en daalt weer in de loop van de twintigste eeuw. Daarbij is het interessant dat het bijbelcorpus, waarin het toch telkens om de vertaling van dezelfde brontekst gaat, dezelfde evolutie laat zien – dat bewijst wel dat leestekens een eigen regelsysteem kennen, dat net als de grammatica in de loop van de tijd verandert. In kranten, die zijn gericht op een algemeen publiek, is het percentage leestekens door de tijd vrij constant en wat lager dan in fictie of bijbeltaal, maar het is goed denkbaar dat dit beeld moet worden bijgesteld als er ook een gecorrigeerd krantencorpus beschikbaar komt van de periode tussen 1650 en 1950. In informele brieven worden nauwelijks leestekens gebruikt, maar hoe hoger opgeleid de schrijver, hoe meer leestekens hij of zij gebruikt.
Terwijl in alle genres de trend is dat het percentage leestekens in de modernste tijd afneemt, zien we precies het tegenovergestelde in het Twittercorpus: daarin komen verreweg de meeste leestekens voor, meer dan in enige eerdere periode. Dat heeft te maken zowel met de inhoud van de berichten, die vaak informeel en persoonlijk van aard zijn, als met de vorm: een tweet bevat maximaal 280 tekens. Twitteraars compenseren de beperkte lengte door het toevoegen van leestekens, emoticons en smileys.
De fluctuering van leestekens blijkt samen te vallen met veranderingen in het taalgebruik. De veranderingen in de vijftiende en zestiende eeuw reflecteren de invloed van drukkers na de uitvinding van de boekdrukkunst: die kozen voor een vastere spelling, vermeden streekgebonden woorden en verbindingen, en deelden zinnen met behulp van leestekens op in kleinere eenheden. In de zeventiende eeuw kreeg de standaardtaal vorm. In die periode gold een lange, meanderende volzin met veel bijzinnen en bijstellingen als buitengewoon welluidend en navolgenswaard, want zo schreven de Romeinen. Dat verklaart de toename van leestekens in literaire en religieuze teksten in die periode. Interessant genoeg geldt dat voor álle literatuur: niet alleen voor de berucht ingewikkelde Histooriën van Hooft, maar ook voor het toneelstuk Gysbreght van Aemstel van Vondel, dat was bedoeld om op te voeren voor het publiek.
Onderlinge verdeling van de leestekens
Hoe zit het met de onderlinge verdeling van de leestekens door de tijd heen, vertonen ook die een evolutie? Ja, zo blijkt uit Figuur 2. Voor de overzichtelijkheid is de grafiek beperkt tot een verdeling in punten, komma’s en overige leestekens. In de oudste fictieteksten uit de veertiende en vijftiende eeuw, die sowieso slechts weinig leestekens bevatten, komt maar één leesteken voor, namelijk de punt. Die teksten zijn weggelaten uit de figuur.
De vijftiende-eeuwse tekst bevat alleen punten en dubbelepunten. In de zestiende-eeuwse teksten rukt de komma op, en neemt direct de eerste plaats in: 77 procent van de leestekens in de Liesveltbijbel is een komma.
Vanaf de zeventiende eeuw bestaat er een delicaat evenwicht tussen de verschillende leestekens, die ieder een eigen functie krijgen. In brieven overheerst de punt (zwart), maar hoogopgeleiden gebruiken wat meer komma’s dan laagopgeleiden. In de andere genres overvleugelt de komma (grijs) van de zestiende tot de twintigste eeuw de andere leestekens in frequentie. Dat verandert in de loop van de twintigste eeuw: dan neemt de frequentie van de punt toe en die van de komma af. Dit wijst erop dat zinnen korter worden, met minder bijzinnen. Het zal geen toeval zijn dat juist in die periode sprake is van informalisering van het taalgebruik. Ook kan een rol gespeeld hebben dat er toen een groot aantal taaladviesboeken verscheen. Daarin wordt bijvoorbeeld het gebruik van komma’s aan banden gelegd, doordat men een verschil ging maken tussen uitbreidende en beperkende bijzinnen. Bovendien pleiten dergelijke werken voor kortere zinnen omdat die gemakkelijker te begrijpen zouden zijn.
De Wablieft-krant is geschreven in eenvoudig te lezen Nederlands, en dat heeft enorme gevolgen voor de verhoudingen tussen de verschillende leestekens: de punten maken 82 procent van de leestekens uit, terwijl de komma’s slechts 9 procent vormen, de dubbelepunten ruim 2 procent en de puntkomma helemaal niet voorkomt.
Niet opgenomen in de figuur zijn de percentages leestekens in Twitter, omdat die volledig afwijken van de andere gegevens. Om te beginnen kennen tweets twee nieuwe leestekens, de apenstaart en de hashtag. De apenstaarten vertegenwoordigen meer dan een kwart van alle leestekens en zijn daarmee direct het meest gebruikte leesteken in tweets. De hashtags vormen ruim 11 procent. Verder neemt, tegen de algehele tendens in, het percentage punten (21,9 procent), net als dat van de komma’s (8,6 procent), sterk af, terwijl dubbelepunten (16,1 procent) toenemen.
Fluctuerende frequentie
Er valt nog veel meer te zeggen over de twee figuren, maar één ding is inmiddels wel bewezen: de frequentie en het gebruik van leestekens vertonen een duidelijke evolutie. Die evolutie hangt samen met veranderingen in het taalgebruik en met verschillen tussen genres. Een toename van leestekens wijst erop dat zinnen langer en ingewikkelder worden. Als in een bepaalde periode het percentage leestekens en/of de onderlinge verhouding ervan drastisch verandert – zoals in het moderne Twittercorpus – dan lijkt dat een reflectie te zijn van andere, grotere taalveranderingen.
Dat opent fascinerende nieuwe perspectieven. Het zou interessant zijn om in een veel groter tekstcorpus te onderzoeken of leestekens kunnen dienen als graadmeter voor taalveranderingen: als leestekens in een bepaalde periode duidelijk fluctueren, is dat waarschijnlijk een indicatie dat er op dat moment ook allerlei andere taalveranderingen aan de gang zijn of in een stroomversnelling raken. Ook zouden leestekens kunnen worden gebruikt om automatisch het genre van teksten te bepalen. Zo lijkt het mogelijk om informele teksten binnen een groot tekstcorpus op te sporen door te zoeken naar de teksten die het laagste percentage leestekens bevatten.
De grafieken bewijzen dat leestekens tot nu toe ten onrechte zijn genegeerd in het taalveranderingsonderzoek. Leestekens hebben, net als woorden, een eigen betekenis en eigen regels. Ze worden niet willekeurig gebruikt, en veranderingen in het leestekengebruik wijzen op betekenisveranderingen, op taalveranderingen en op genrewisseling. Meer aandacht en waardering voor de onaanzienlijke leestekens zal dus leiden tot beter inzicht in taalveranderingsprocessen.
Verder lezen?
Het bijbelcorpus waarop de tellingen zijn gemaakt, is beschreven in Gerlof Bouma, Evie Coussé, Trude Dijkstra, Nicoline van der Sijs ‘The EDGeS Diachronic Bible Corpus’, in: Proceedings of the 12th Conference on Language Resources and Evaluation (LREC 2020). Over het historische gebruik van leestekens in het Nederlands heeft J. Greidanus Beginselen en ontwikkeling van de interpunctie, in ’t biezonder in de Nederlanden geschreven in 1926. Dit werk bevat uiteraard geen statistisch onderzoek. Voor kleine deelstudies zie Nicoline van der Sijs ‘Verandering in het gebruik van de komma’ (Onze Taal 1996), en ‘Ode aan de punt’ in Drs. P en de punt (2021). Voor kritiek op de bestaande corpora en infrastructuren van dezelfde auteur ‘Historische taalkunde en Digital Humanities: samen naar een mooie toekomst’ (in Tijdschrift voor Nederlandse Taal- en Letterkunde 2019). In het Engelstalige gebied is wat meer aandacht besteed aan interpunctie, recent bijvoorbeeld David Crystal: Making a Point. The pernickety story of English punctuation (2015), Keith Houston: Shady Characters. The Secret Life of Punctuation, Symbols & Other Typographical Marks (2013), Gretchen McCulloch: Because Internet. Understanding how language is changing (2019) en K. Sun & R. Wang (2019) ‘Frequency distributions of punctuation marks in English: Evidence from large-scale corpora’, in: English Today 35.
Marc Kregting zegt
Schitterend!
In de eerste grafiek valt op dat in 1950 Carmiggelt meer leestekens gebruikte dan kranten deden, waarin hij toch publiceerde. Uit de tweede grafiek blijkt dat kranten rond die tijd meer komma’s gebruikten dan Carmiggelt. Waar ligt dan precies het (‘distinctieve’) verschil? In de zinslengte, of in een derde leesteken?
Ik zou ook benieuwd zijn of er iets bekend is over de frequentie van gedachtestreepjes en ronde haakjes. Puntjepuntjepuntje.
Nicoline van der Sijs zegt
Dit stukje is werk in uitvoering, ik wil hiermee verdergaan! Dus antwoorden volgen hopelijk later een keer.