Text Mining: wat is het en hoe zet je het in?

Door Pauline van der Waal | 21 augustus 2019
Data als strategische grondstof

‘Data is the new oil’, wordt vaak gezegd. Dat is niet voor niets, want met de juiste data heb je als organisatie een goudmijn in handen om elke dag een stukje beter te presteren. Maar het begrip data is veelomvattender dan veel mensen denken. De meesten denken bij data aan grote hoeveelheden cijfers, waarmee je kunt rapporteren, sturen en uiteindelijk zelfs voorspellen. Maar er is nóg een bron, die bij veel organisaties rijkelijk voorhanden is: tekst. Ook een vorm van data, maar wel een met bijzondere eigenschappen. Deze data kun je optimaal inzetten door gebruik te maken van text mining. Maar: wat is het, wanneer zet je het in en hoe?

Gestructureerde en ongestructureerde data

Zelf ben ik bovenmatig geïnteresseerd in taal en tekst, wat wellicht vreemd is voor een dataconsultant. Van oorsprong ben ik echter Communicatiewetenschapper en wat is er dan leuker om die oude liefde met mijn nieuwe te combineren? En tegenwoordig kan dat ook.
Als we naar tekst kijken als databron, is er één eigenschap die in het oog springt. Tekst rekenen we tot de ongestructureerde data; in veel gevallen namelijk letterlijk een ‘lap tekst’. Dit verschilt met gestructureerde data, waarbij je werkt met kolommen en rijen. Van elke kolom is bekend wat erin staat opgeslagen, omdat de gegevens zijn geïdentificeerd, gelabeld en makkelijk toegankelijk gemaakt. Daardoor zijn deze data makkelijk te verwerken en te interpreteren. Voor tekst geldt dat niet.

“Taal en getallen zijn beide waardevolle databronnen: hetzelfde, maar toch anders.”

Als we kijken wat we met ongestructureerde tekst willen bereiken, komt dat in grote lijnen overeen met andere gegevens. Je wilt tendensen of trends waarnemen, kijken waar je sterke en zwakke punten liggen en misschien wil je ook wel automatiseren. Wat maakt het analyseren van tekst dan zo anders?

Sarcasme: onze nationale sport

Laten we eens kijken naar de verschillen tussen taal – waar tekst per definitie uit bestaat – en data, zoals getallen. Het allergrootste verschil is waarschijnlijk dat taal onderhevig is aan interpretatie. Natuurlijk, ook bij getallen is de context belangrijk. Stel dat een meubelzaak in een maand vijftig stoelen verkoopt, dan zegt dat niet zo veel. Je moet weten hoeveel er de maand ervoor zijn verkocht, hoeveel stoelen er in de winkel staan en misschien ook wat ze kosten. Aan de andere kant is er geen discussie mogelijk over hoeveel ‘vijftig’ is. Iedereen die een beetje kan tellen, zal evenveel stoelen op een rij zetten als je vraagt er vijftig neer te zetten.

Dat is anders bij tekst. Bekijk de volgende zin maar eens, afkomstig uit een klanttevredenheidsonderzoek van een webwinkel:

‘Nou, heb ik daar even lekker drie uur op de pakketbezorger zitten wachten. Bedankt hoor, nu kwam ik mooi te laat bij m’n etentje.’

Als je de losse woorden analyseert, zou je kunnen denken dat deze persoon blij is. De woorden ‘lekker’, ‘bedankt’ en ‘mooi’ zijn tenslotte positief. Maar iedereen met een beetje taalgevoel snapt dat dit helemaal niet positief bedoeld is. Sarcasme, vooral wij Nederlanders zijn er dól op!

text mining mobilee

Taalbegrip en sentiment

Twee onderdelen maken of een tekst op de juiste wijze wordt geïnterpreteerd: taalbegrip en sentiment. De vaardigheid van een computerprogramma om een menselijke taal te begrijpen, wordt Natural Language Processing (NLP) genoemd. Niet te verwarren trouwens met Neuro-Linguïstisch Programmeren.

NLP richt zich vooral op het begrijpen van tekst, eigenlijk zoals je dat vroeger op de lagere school leerde. De computer moet – net als jij als tienjarige – weten wat het onderwerp en het lijdend voorwerp is. In bovenstaand voorbeeld kan daardoor worden bepaald of de ‘ik’ op de postbezorger heeft zitten wachten, of andersom. Bovendien heeft het woord ‘wachten’ vaak een negatieve connotatie.

Sentimentanalyse richt zich op het herkennen van emoties, zoals boosheid, blijdschap, angst enzovoorts. In bovenstaand voorbeeld zou dus op z’n minst ‘geïrriteerd’ moeten worden herkend. NLP en sentiment samen geven betekenis aan een tekst.

Text Mining vs. Text Analytics

Tekstbegrip en het analyseren van tekst is iets dat zowel door een mens als door een computer gedaan kan worden. Om teksten door een computer te laten analyseren, worden de termen Text Mining en Text Analytics gebruikt. Hoewel deze begrippen vaak door elkaar worden gebruikt, is er wel degelijk een verschil. Dit zal ik nu eerst toelichten. Laat ik vooropstellen dat beide termen een techniek betreffen met hetzelfde doel; het geven van betekenis aan geschreven tekst.

Text Analytics: linguïstische regels

Text Analytics gaat met name uit van het opstellen van linguïstische regels, zoals een bepaalde betekenis wanneer meerdere woorden in combinatie met elkaar gebruikt worden. Deze regels worden voornamelijk door mensen gemaakt. Hierdoor zit er best wat ‘handwerk’ aan deze manier van werken, maar is deze uiteindelijk wel bijzonder precies. Het nadeel is dat deze regels voor een heel specifieke tekst, organisatie of tekstvormen worden toegespitst, waardoor deze meestal niet klakkeloos op een volgend vraagstuk – ofwel andere teksten – kunnen worden ingezet.

Text Mining: machine learning & more

Text Mining daarentegen maakt meer gebruik van data-analysetechnieken, zoals statistiek, data mining en machine learning. Door grote hoeveelheden tekst te verwerken, ‘leert’ de techniek steeds verder en kan daardoor generiek worden ingezet. Maar ook Text Mining kent tekortkomingen. Zo blijven de mysteries van taal en tekst groot, want regelmatig mist zo’n systeem iets wat klip en klaar is voor mensen met een basis taalbegrip.

Uiteindelijk is de ene techniek niet beter dan de andere, maar ligt de kracht juist in het combineren ervan. Wel wordt Data Mining en daardoor Text Mining met de tijd natuurlijk steeds beter en preciezer, waardoor ik reikhalzend uitkijk naar wat de toekomst gaat brengen.

text mining mobilee

Wanneer zet je Text Mining in?

Mijn uitgangspunt is: gebruik tools als Text Analytics of Text Mining als je verwacht – of beter nog: aangetoond is – dat je bron inzichten gaat geven waarmee je je organisatie kunt verbeteren. Daarbij kun je deze analyse handmatig doen, maar door de grote hoeveelheden tekst is dat praktisch gezien bijna onmogelijk.

Stel dat je wekelijks tien klanttevredenheidsonderzoeken retour krijgt, waarin ook opmerkingen in een vrijetekstveld zijn opgenomen. In dat geval is het sneller, makkelijker en goedkoper als een medewerker deze responses handmatig analyseert en conclusies trekt. Daarvoor hoef je geen programma op te zetten.

De situatie verandert wanneer deze getallen in de honderden of duizenden gaan lopen. En wat dacht je van een veelvoud hiervan in e-mails aan de organisatie? Natuurlijk zijn er nog veel meer plekken waar tekst van onschatbare waarde wordt gegenereerd. Zoals op social media en fora, in onderzoeksresultaten, chatconversaties, interne documenten en enquêtes. Ik zie dat bij veel organisaties deze goudmijn nog niet wordt aangeboord.

“Op social media en fora, in onderzoeksresultaten, chatconversaties, interne documenten en enquêtes wordt tekst van onschatbare waarde gegenereerd.”

Actie in de taxi: hoe zet je Text Mining in?

Als je aan de slag gaat met Text Mining, zijn de uitkomsten van je onderzoek natuurlijk één ding. Het gaat echter vooral om de acties die je onderneemt op basis van deze inzichten.

Stel dat een grote groep klanten contact opneemt via e-mail, dan kun je daar veel stuurinformatie uithalen. Zeker als je het combineert met andere (interne of externe) gegevens, zoals salesgegevens of klanttevredenheidscijfers. Misschien kun je om te beginnen je FAQ aanpassen of je medewerkers trainen op een bepaald onderwerp. Of wil je op termijn vaak voorkomende vragen volledig automatisch laten afhandelen en hoeft er geen mens meer aan te pas te komen?

Heb je daarnaast een forum of social kanalen waarop klanten communiceren, dan kun je door middel van gedegen analyse achterhalen wat hen écht drijft en daarop acteren.

Tot slot kun je Text Mining ook inzetten in het kader van compliancy en het voorkomen van fraude. Zo kun je automatisch laten checken of bepaalde vragen worden gesteld in een chatconversatie, én natuurlijk of de juiste antwoorden worden gegeven. Ook kunnen potentiële fraudegevallen worden gedetecteerd op basis van tekst(gebruik), zeker in combinatie met andere data. Aan dit laatste – zeer boeiende – onderwerp zou ik nog een heel artikel kunnen wijden!

Dit zijn slechts enkele voorbeelden om Text Mining voor jouw organisatie te laten werken. Maar: bedenk zelf welke bronnen er beschikbaar zijn en op welke manier Text Mining jou het leven makkelijker kan maken.

“Zoals voor alle andere vormen van data-analyse geldt ook voor Text Analytics en Text Mining: begin klein. Je zult versteld staan van de grote hoeveelheid laaghangend fruit die je tegenkomt!”

What’s next?

De eerste vraag die je jezelf moet stellen is: wat wil je bereiken met het analyseren van teksten binnen jouw organisatie? Vervolgens geldt, zoals voor alle andere vormen van data-analyse: begin klein. Je zult versteld staan van de grote hoeveelheid laaghangend fruit die je tegenkomt.

Doe je nog niets met Text Analytics of Text Mining, dan loont het de moeite eens te zoeken naar kant-en-klare tools, die je in veel gevallen gratis kunt testen. Je doet dan ervaring op en kunt vervolgens bepalen welke tool voor jouw organisatie het meest geschikt is.

Natuurlijk is het ook belangrijk om de juiste kennis en kunde binnen je organisatie aan te boren of te gaan ontwikkelen. Zoals mijn collega Aniek al eerder zei: ‘een tool is geen doel’ en alleen de tool gaat je niet redden. Door alleen Word te installeren op je computer is ten slotte nog nooit een boek verschenen: je moet er wel iets mee doen. Dat laatste is geen probleem als je net zo enthousiast bent als ik over de geheimen (en mogelijkheden) van taal en tekst. En het mooie is: je hebt deze mensen geheid ook in je eigen organisatie.

Pauline van der Waal

Consultant

+31(0)30 7670350

Over Pauline van der Waal

Pauline van der Waal is Data consultant bij Mobilee. Haar specialisatie ligt op het gebied van datagedreven werken en datavisualisatie.

Lees ook:


Verdieping

5 adviezen voor een succesvolle digitale transformatie

Door Jeroen Stoop | 2 mei 2018
Verdieping

Personalisatie: het toverwoord bij een sterke customer experience

Door Berry Vermeulen | 16 oktober 2018

Ontvang meer artikelen direct in je inbox:

Aanmelden