(Persbericht Radboud Universiteit)
Op basis van de woorden op twitter die je gebruikt kan de computer weten wat voor persoon je bent: je geslacht, je leeftijd, de voorspelbaarheid van je woorden of je een agressieve inborst hebt of je graag sarcasme inzet. Taaltechnologen van de Radboud Universiteit laten met de demo ‘You Are What You Tweet’ zien wat de mogelijkheden zijn van de analyse van iemands taalgebruik. Op 4 november wordt de site officieel gelanceerd en kan iedereen zien wat de mogelijkheden zijn van de analyse van iemands taalgebruik.
De manier waarop je praat zegt veel over wie je bent: denk aan de onderwerpen die je kiest, en de woorden die je daarbij gebruikt. Mannen praten anders dan vrouwen, jonge mensen praten anders dan oude mensen, en ga zo maar door. Dat kun je ook in geschreven taal, zoals op een sociaal medium als Twitter, goed zien.
Algoritmes
De taaltechnologen Florian Kunneman en Wessel Stoop hebben voor grotere verzamelingen berichten op Twitter bijgehouden of ze zijn geschreven door mannen of vrouwen, jonge of oude mensen, maar ook of ze bijvoorbeeld agressief of sarcastisch zijn.
Kunneman: ‘Deze resultaten hebben we vervolgens aan zogenaamde machine learning algoritmes onderworpen. Dit zijn computerprogramma’s die automatisch patronen kunnen leren in grote hoeveelheden data. Zo leert het algoritme bijvoorbeeld dat een agressieve tweet typisch scheldwoorden bevat.’
Verzamelen van data
Kunneman: ‘Het lastigste is het verzamelen van zoveel mogelijke data en die analyseren, het systeem heeft voorbeelden nodig, en daarvoor hebben we wat trucs toegepast. Voor sarcasme hebben we bijvoorbeeld gekeken naar een set tweets met ‘#sarcasme’ en ‘#not’.
De resultaten zijn op zichzelf al een schat aan interessante sociolinguïstische informatie, die ook nog eens resultaten van eerdere onderzoeken bevestigen: dat jonge mensen meer Engelse woorden gebruiken, of vrouwen meer woorden gebruiken die met onzekerheid en emotie te maken hebben.
De site is een demonstratie voor het publiek wat er inmiddels allemaal mogelijk is op dit gebied. Stoop: ‘Het doel is om te laten zien wat voor technieken taaltechnologen gebruiken, en wat de computer over ons en ons taalgebruik kan leren. De technologie is overigens nog zeker niet af: je zult ook zien dat de computer er af en toe flink naast zit, maar vaak kun je wel raden waarom hij zich heeft vergist.’
Op basis van hun data-onderzoek kunnen de onderzoekers nu ook een analyse doen van individuele twitter-accounts. Twitteraars kunnen naar www.youarewhatyoutweet.nl om hun eigen twitteraccount of dat van iemand die ze kennen te laten analyseren. Vervolgens worden zo veel mogelijk tweets geïmporteerd en vergeleken met wat het onderzoek heeft geleerd over zaken als sarcasme of mannelijke taal. Vervolgens krijgt het Twitter-account per taalmodel een score. Let op! Deze webdemo is afhankelijk van Twitter, en Twitter beperkt het aantal tweets dat de onderzoekers per dag mogen opvragen. Daarnaast gaan bij grote drukte op de site de wachttijden omhoog, omdat er maar beperkte computerkracht voor de analyse beschikbaar is. Het zou dus kunnen dat de technologie tijdelijk niet beschikbaar is, probeer het in dat geval later nog eens!
Laat een reactie achter