Natural Language Processing für Ihr Media Monitoring

Natural Language Processing für Ihr Media Monitoring

Natural Language Processing (NLP) ermöglicht, dass Computer die menschliche Sprache und Texte autonom verarbeiten. Dies ist insbesondere für das Media Monitoring von großer Bedeutung, da Unternehmen für den optimalen Erfolg die Wahrnehmung ihrer Marke und Produkte in der Öffentlichkeit verfolgen müssen. Doch wie funktioniert NLP eigentlich und welche Vorteile ergeben sich aus seinem Einsatz für Ihr Unternehmen?

Menschliche Sprache und Digitalisierung

Die menschliche Sprache ist ein faszinierendes Produkt unserer Evolution. Sie ermöglicht es, unsere Gedanken mithilfe von Schallwellen anderen Menschen mitzuteilen. Durch unsere Schrift ist die Informationsübertragung sogar nahezu geräuschlos möglich. Dies ist bemerkenswert, da die menschliche Sprache äußerst komplex und vielschichtig ist. Sie ist oftmals mehrdeutig, grammatikalisch unregelmäßig und enthält gelegentlich Elemente wie Metaphern oder Ironie. Der Sinn einer objektiv undurchsichtigen Aussage erschließt sich oft nur vor dem Hintergrund eines situativen Kontexts sowie langjähriger Sozialisierung.

Trotz dieser Hürden etablieren sich derzeit in unserem Alltag immer mehr Programme und elektronische Geräte, die menschliche Sprache automatisch verarbeiten. Sprachgesteuerte Assistenten wie Siri (Apple) und Alexa (Amazon) werden allein in Deutschland bereits millionenfach genutzt. Der Google-Übersetzer ist für viele Menschen die erste Anlaufstation, wenn sie mit einer fremden Sprache konfrontiert werden. Darüber hinaus setzen bereits viele Unternehmen auf Sprach- und Chatbots, um beispielsweise ihren Kundenservice effizienter zu gestalten. Wie ist eine solche Entwicklung möglich?

Im Zentrum dieser Innovation steht das NLP. Dies ist ein Teilbereich der künstlichen Intelligenz (KI), die darauf abzielt, Computern das Verständnis von Texten und Sprache zu ermöglichen. Dabei werden Ansätze aus der Computerlinguistik mit Statistik und Machine Learning kombiniert. Während die Computerlinguistik regelbasierte (deterministische) Modelle der menschlichen Sprache verwendet, basieren Statistik- und Machine-Learning-Verfahren häufig auf Wahrscheinlichkeiten. Hieraus entsteht eine äußerst leistungsfähige Symbiose, die Computer in die Lage versetzt, geschriebene Texte und gesprochene Wörter autonom zu verarbeiten.

Das NLP weist eine Vielzahl technischer Herausforderungen auf, wie etwa:

  1. Sprach-Erkennung
    Konvertierung von gesprochenen Sätzen in digitale Textdaten. Dies ist notwendig für alle Anwendungen, welche auf Sprachsteuerung basieren. 
  2. Sentiment-Analyse
    Verwendung von digitalen Textdaten zur Untersuchung subjektiver Sprachqualitäten. Dies können etwa die Gefühle und Ansichten des Autors sein.
  3. Wortsinn-Erkennung
    Identifikation des kontextuellen Sinns eines mehrdeutigen Worts auf Basis semantischer Analysen. Beispiel: das Wort „Becken“ – Musikinstrument, Wassergefäß oder Körperteil?
  4. Koreferenz-Erkennung
    Automatische Erkennung, wenn mit zwei unterschiedlichen Ausdrücken ein und dieselbe Entität gemeint ist. Beispiel: „Martin sagt, dass er gerne Tennis spielt.“ – „Martin“ und „er“ beziehen sich auf dieselbe Person.

Diese Beispiele zeigen zum einen, welche bedeutenden Fortschritte die KI-Forschung in den letzten 20 Jahren gemacht hat. Zum anderen verdeutlichen sie aber nochmals, wie anspruchsvoll das menschliche Sprachverständnis ist, wenn man versucht es auf einen Computer zu übertragen. 

Wie funktioniert Natural Language Processing?

Vor dem Hintergrund der genannten technischen Herausforderungen stellt sich die Frage, wie Computer überhaupt ein adaptives Sprachverständnis erlernen können. An dieser Stelle ist es wichtig zu erwähnen, dass die genaue Art der Datenverarbeitung sehr stark von dem Ziel der jeweiligen NLP-Aufgabe abhängt. So bedarf die unmittelbare Text- und Sprachverarbeitung anderer Schritte als etwa eine morphologische Analyse von Sprache. Im Folgenden fokussieren wir uns der Einfachheit halber auf ausgewählte Elemente der unmittelbaren Textverarbeitung.

Hierzu muss festgehalten werden, dass Computer prinzipiell nicht in der Lage sind, sogenannte Strings (Zeichenketten; Beispiel: „Marco geht gerne laufen.“) im Sinne von NLP unmittelbar zu verarbeiten. Soll ein Computer also einen digitalen Text analysieren, so muss diese Aneinanderreihung von Strings zunächst transformiert werden. Eine wichtige Operation an dieser Stelle ist die Wort-Segmentierung (auch Tokenization genannt). Hierbei wird ein zusammenhängender digitaler Text in einzelne Wörter unterteilt. In den meisten für uns gängigen Sprachen ist dies oft einfach, da beispielsweise im Deutschen die Wörter überwiegend durch Leerzeichen getrennt sind. In chinesischen oder japanischen Texten gibt es jedoch aufgrund der Schriftzeichen oft keine klaren Wortgrenzen, weswegen die Segmentierung hier komplexer ist.

Die Verarbeitung einzelner Wörter (in dem Kontext auch Tokens genannt) ist jedoch für NLP in der Regel nicht ausreichend. Wörter erhalten häufig erst dann einen klaren Sinn, wenn sie eingebettet in einem Satz (oder mehreren Sätzen) betrachtet werden. Um derartige Zusammenhänge zu erkennen, braucht es komplexe Sprachmodelle, die Wörter gegeben Aspekte wie Kontext, Syntax und Semantik mathematisch repräsentieren. Wichtige Ansätze sind hier beispielsweise ELMo (Embeddings from Language Models), ULMFiT (Universal Language Model Fine-Tuning Method) oder auch BERT (Bidirectional Encoder Representations from Transformers). Stark vereinfacht ausgedrückt erlauben es diese Modelle die Tokens eines Textes derart in Relation zueinander zu setzen, dass der Computer sinnvoll mit diesen Tokens arbeiten kann.

Anhand der so erzeugten mathematischen Textrepräsentationen können nun konkrete NLP-Aufgaben angegangen werden – wie etwa die Sentiment-Analyse. Hierbei werden Texte (oder Textteile) vorab gemäß ihrem Inhalt in definierte Kategorien eingeordnet. Dies könnten beispielsweise emotionale Assoziationen wie „positiv“, „neutral“ und „negativ“ in Bezug auf das Textthema sein. Hierfür werden häufig Deep-Learning-Verfahren auf Basis künstlicher neuronaler Netze (KNNs) verwendet. Diese Verfahren werden in einem zukünftigem D²M-Blogbeitrag nochmals ausführlich beschrieben.

Um ein KNN in die Lage zu versetzen, einen Text einer emotionalen Assoziation zuordnen zu können, muss es zuvor trainiert werden. Hierfür braucht es eine möglichst große Anzahl an Beispieltexten, bei welchen das dahinterstehende Sentiment (positiv, neutral, negativ) bekannt ist. Diese Texte müssen dann ebenfalls für den Computer aufbereitet werden, wie zuvor beschrieben (Tokenization, Worteinbettung, etc.). Anhand dieser Beispieltexte lernt das KNN mittels Algorithmen, welche Tokens und welche linguistischen Relationen charakteristisch für eine bestimmte emotionale Assoziation sind. Nach dem erfolgreichen Abschluss des Trainings ist das KNN dann in der Lage, das auf den Trainingsdaten Erlernte zu transferieren. Folglich können dann neue Texte, deren Sentiment noch unbekannt sind, automatisch von dem KNN klassifiziert werden.  

Media Monitoring

NLP ist keineswegs eine Nischentechnik, die nur für spezielle IT-Konzerne relevant ist. Die Überwachung, wie Ihre Produkte im Web, Radio oder Fernsehen wahrgenommen werden, ist ein zentrales Element des Marketings sowie des Customer und Public Relation Managements. Ein solches Media Monitoring wird mittels professioneller Monitoring-Tools vorgenommen, wo NLP-Techniken täglich zum Einsatz kommen. Nachfolgend werden ein paar Beispiele für NLP-Elemente im Media Monitoring aufgeführt.

I. Queries:

Um wichtige Themen im Web- und Social-Media-Diskurs zu überwachen, werden sogenannte Queries für das Monitoring-Tool entwickelt. Dies sind kompakte Codes für Datenbankabfragen, die meist auf Boolescher Algebra basieren. Im Media Monitoring werden hierfür verschiedene kontextrelevante syntaktische Konstrukte hinterlegt. Diese erlauben es beispielsweise relevante Artikel und Beiträge zu einem bestimmten Thema anhand der in ihnen enthaltenen Texte automatisch zu identifizieren.

Beispielhafte Darstellung einer Query-Eingabe im Monitoring Tool Talkwalker. Quelle: Talkwalker.

II. Sprach-Erkennung:

Wenn ein Unternehmen verfolgen möchte, ob und in welchem Kontext seine Marke im Fernsehen oder Radio genannt wird, so kommt Sprach-Erkennung zum Einsatz. In diesem Fall werden Machine-Learning-Techniken angewendet, die es erlauben, gesprochene Wörter in Echtzeit zu analysieren. Mit ihrer Hilfe kann identifiziert werden, ob etwa der Name des Unternehmens in einem Beitrag genannt wurde. Der jeweilige Video- oder Radioausschnitt wird dann automatisch aufgenommen und später ausgewertet.

III. Sentiment-Analyse:

Um zu untersuchen, wie Kunden und Nutzer die Produkte eines Unternehmens bewerten (im Sinne von positiven oder negativen Reaktionen), wird die Sentiment-Analyse verwendet. Hierfür werden zunächst auf Basis von Queries jene Artikel und Beiträge identifiziert, die für das Unternehmen relevant sind. Anschließend kann diesen Texten nach abgeschlossener Aufbereitung (siehe vorherige Sektion) eine entsprechende emotionale Assoziation mithilfe von KNNs zugeordnet werden.

IV. Dokument-Analyse:

Media Monitoring beschränkt sich nicht zwangsläufig nur auf Internet-Artikel, Social Media und Fernseh- oder Radio-Beiträge. Beispielsweise werden Artikel in Fachzeitschriften häufig als PDF-Dateien veröffentlicht. Auf Basis von NLP ist es möglich, relevante Inhalte aus solchen Dokumenten automatisch zu extrahieren. Hierfür werden die PDF-Dateien durch eine KI sukzessiv gescannt und nach relevanten Mustern durchsucht, die zuvor antrainiert wurden.

Fazit: NLP als ausschlaggebender Faktor für Ihr Media Monitoring

Vor diesem Hintergrund wird deutlich, welche herausragende Bedeutung NLP für Ihr Media Monitoring hat und wie vielfältig Unternehmen von seiner Verwendung profitieren können. CURE Intelligence beschäftigt qualifizierte Data Science Experten, die modernste NLP-Techniken nicht nur routiniert anwenden, sondern bei Bedarf auch weiterentwickeln. Gemeinsam mit unseren Kunden erarbeiten wir maßgeschneiderte Lösungen für den optimalen Einsatz von NLP für jedes Unternehmen. Sprechen Sie uns gerne an!

Bleiben Sie mit unserem monatlichen D²M-Newsletter auf dem aktuellen Stand rund um Themen des datengetriebenen Marketings. Jetzt anmelden! 

Schreiben Sie einen Kommentar

one + 4 =

Close Menu