Keine Medien-Innovationen, Events und Startups mehr verpassen? Abonniere unseren Newsletter! Will ich haben!

Newsletter
  • Media Lab : DE
  • Blog
  • Aus Daten werden Stories - Keine Angst vor automatisierten Texten im Journalismus
vor Index zurück
14. September 2021
Best Cases

Aus Daten werden Stories - Keine Angst vor automatisierten Texten im Journalismus

Aus Daten werden Stories - Keine Angst vor automatisierten Texten im Journalismus

Text: Sabrina Harper
Foto: Media Lab Bayern

Automatisierte Texte sind bisher eher ein Schrecken in den Redaktionen. Zunehmend kristallisiert sich aber auch eine smarte Nutzung heraus. Denn Redakteur:innen können die großen Datenmengen nicht mehr ohne KI bewältigen. Es braucht einen smarten Data Driven Newsroom.

Börsennews im Schlaf schreiben

Die NASDAQ ist die größte elektronische Börse, welche in den USA/ New York ansässig ist. Während wir in Deutschland schlafen, ist dort der Handel in Bewegung. Für die Börsenberichterstattung ist die unterschiedliche Zeitzone unpraktisch. Denn morgens um 7 Uhr MEZ sollte für deutschsprachige Anleger:innen bereits Informationen auf Deutsch abrufbar sein. Wer jetzt an Schichtdienst denkt, ist von einer bequemen Lösung weit entfernt. Vielmehr ist solch ein Case eine Möglichkeit, wo künstliche Intelligenz (KI) eingesetzt werden kann.

Saim Alkan von AX Semantics und Kevin Gossling von Fusionbase möchten KI einsetzen, um den Journalismus mit automatischer Texterstellung sinnvoll zu ergänzen. Im Interview sprechen wir über die Angst vor KI im Journalismus, Sinnhaftigkeit und warum die Medienbranche die Möglichkeiten von KI nicht verschlafen sollte.

Was genau bedeutet automatisierte Texterstellung bei euch?

Saim: Wir haben uns auf die automatische Erstellung von Texten spezialisiert, die allerdings unter der Kontrolle der Texterstellenden liegen. Ein typisches Beispiel sind Onlineshops. Mit automatisch generierten Texten können Produktbeschreibungen erstellt werden, zum Beispiel eine  Strickjacke. Der Content Manager gibt einzelne Informationen ein, wie etwa das Material der Jacke, welche Verschlussform und Schnitt sie hat. Mit den eingegebenen Parametern entsteht ein automatisch generierter Text. Das sieht für die Kundschaft wesentlich schöner aus als eine Bulletpointliste und vermittelt, dass sich jemand bei der Beschreibung intensiv mit dem Produkt auseinandergesetzt hat. Außerdem kann auch eine schöne Story um das Produkt gebaut werden. Das kann so lauten: Die beigefarbene Strickjacke aus Mohair mit einer rustikalen Knopfleiste eignet sich hervorragend für ihren nächsten Ausflug aufs Land. Die modische A-Linie und die liebevollen Stickereien sorgen für einen lässigen und doch eleganten Stil. Das klingt doch gleich viel besser. Es ist sogar möglich, die Texte zu personalisieren, indem auf die Costumer Journey der Kundschaft eingegangen wird.

Durch die Marketingbrille ergibt das Sinn. Wie sieht ein Brückenschlag in den Journalismus aus?

Saim: Wir arbeiten unter anderem mit news.de oder der Österreichischen Presseagentur, kurz APA, zusammen. Medienpublikationen wie Wetterberichte, Fußballberichte, Verkehrsinfos oder auch aktuell brisante Themen wie Wetterberichte und Coronadaten lassen sich automatisieren. Gerade was Corona angeht, benötigen die Menschen, ständig aktuelle Informationen. Angenommen jemand hat einen Geschäftstermin in einer anderen Stadt, dann muss er wissen, welche Regeln aktuell gelten. Solche lokalen Aufbereitungen sind für eine einzige Redaktion nicht umsetzbar - da hilft die datenbasierte Automation.

Automatische Textgenerierung am Fall Coronazahlen.

Wie ist eure Kooperation entstanden?

Saim: Die Kooperation war naheliegend. Wir kennen uns über das Media Lab. Wir bzw. unsere Kundschaft braucht strukturierte Daten und Fusionbase stellt genau das zur Verfügung. Man muss wissen, manuell Daten zusammenzutragen ist unglaublich aufwendig. Hinzu kommt die Aktualisierung. Wenn jemand wie Kevin das technologisch lösen kann, ist das eine riesige Erleichterung. Und zwar nicht nur im Hinblick auf die Menge der Daten, sondern auch wegen der Aktualisierung und Verlässlichkeit der Daten.

Kevin, du bist also für die Rohdaten verantwortlich. Wie funktioniert das nun konkret mit der Texterstellung?

Kevin: Saim und ich haben ein gemeinschaftliches Projekt, dass sich um die Berichterstattung des Börsenindex Nasdaq dreht. Wir ziehen uns von der Webseite der Nasdaq die aktuellen Kurse und verarbeiten sie in Fusionbase. Diese strukturierten Daten werden über eine Schnittstelle übermittelt. Es findet so eine automatische Übermittlung an AX Semantics statt. Mit den Daten in AX Semantics kann dann Olaf Deininger, unser dritter Partner im Projekt, die Texte vorbereiten.

Saim: Genau. Der Ideengeber und Redakteur Olaf Deinninger erstellt dann Textbausteine für verschiedene Szenarien. Zum Beispiel einen neutralen Text in Richtung: [Name der Aktie] hat heute ein Plus von [Platzhalter XY Prozent] erreicht. Unter der [Wertpapierkennummer] wurden [Aktienmenge] gehandelt. Ein Tag an der Nasdaq geht zu Ende.

Saim: Es reicht etwa fünf Storytyps zu definieren. Zum Beispiel für stark steigend, leicht steigend, stark fallend, leicht fallend und gleichbleibend. Außerdem können verschiedene Varianten definiert werden, wie etwa für eine bestimmte Gruppe von Aktien, für den Tagessieger oder nur Technologieaktien. Zum Schluss werden noch Synonyme ergänzt, wie etwa stark, extrem, sehr positiv und besonders hoch. Mit solch einem regelbasierten System können an die 500 Texte automatisiert erstellt werden.

Warum sind Börsennachrichten so gut geeignet für die automatisierte Berichterstattung?

Kevin: Das spannende ist das deutsche Medienumfeld. Während wir schlafen, erheben wir mit Fusionbase automatisiert die Daten und die KI von AX Semantics schreibt die Texte. Aktuell nehmen wir die Schlusskurse der Nasdaq Top 100 und sind so schneller am Markt als jede andere Redaktion in Deutschland.

Saim: Das bedeutet aber nicht, dass die großen Geschichten alle automatisiert sind. Es ist eher so, dass die Berichte über alle Nasdaq Unternehmen automatisiert werden und wenn etwas Außergewöhnliches war, die Redaktion einen Text schreibt. Zum Beispiel stellt die Automation das Börsengeschehen von Amazon bereits in der Nacht zu Verfügung. Die Redaktion verfasst am Morgen einen Hintergrundbericht und erläutert, warum es beispielsweise einen großen Kurssprung gab.

Börsennachrichten sind eine Möglichkeit. Warum ist dieser Case für Medienhäuser interessant, die keine Börsennachrichten haben?

Kevin: Medienunternehmen können in vielen Fällen mit aktualisierten Datenstreams arbeiten. Ein aktuelles Beispiel sind die Corona-Statistiken. Durch die integrierten Datenstreams können aktuelle Zahlen und Richtlinien zeitnah publiziert werden. Aber auch andere Cases sind denkbar. Zum Beispiel, dass Wetterdaten gesammelt und bei außergewöhnlichen Ereignissen Journalist:innen einen Alert erhalten. Wir als Fusionbase verstehen darunter den sogenannten Data Driven Newsroom. Früher bedeutete Data Driven Newsroom man macht eine große Geschichte, die auch auf Daten basiert und bereitet das grafisch auf. Data Driven ist spätestens seit der Pandemie wesentlich komplexer und dynamischer geworden.

Kevin Gossling

CEO und Mitgründer von Fusionbase, dem führenden Data Hub für externe Daten.

Was bringt das nun einer Redaktion konkret?

Kevin: Unsere Zusammenarbeit zeigt, wie Redaktionen mit Daten Prozesse automatisieren können und Content ohne viel Mehrarbeit entwickeln können. Damit das aber möglich ist, benötigt man aktuelle Daten in einer strukturierten Form. Die gesammelten Daten stehen also in der Wertschöpfungskette weit vorn. In unserem Fall sind es die Börsenkurse. All die Texte können nur entstehen, wenn die Daten da sind. Das zeigt, dass Daten nicht nur für Analytics oder AI notwendig sind, sondern dass mit Daten noch ganz andere Use Cases entstehen und zum Beispiel ganze Texte entstehen können.

Saim: Wir hören immer wieder, was interessieren mich 100 Nasdaq-Aktien. Auf bestimmte Aktien bekomme ich nur fünf Klicks. Das ist richtig, aber addiere ich das auf das Jahr auf, bekomme ich 90 x 5 Klicks am Tag. Das sind 450 Klicks. Und das mal 200 Arbeitstage macht 90.000 Klicks im Jahr. Das hat Auswirkungen auf andere Faktoren wie etwa Anzeigenpreise. Optimal ist es, wenn die Redaktion den wichtigsten Geschehnissen des Tages von Hand schreibt, wie etwa ein Wechsel im Aufsichtsrat oder ähnliches. Durch die anderen automatisierten Texten, spart man sich eine Menge Zeit und lässt gleichzeitig die Klicks nicht auf der Straße liegen.

Was ist denn bei so einer KI ausschlaggebend?

Saim: Die neuronalen Netze sind wichtig. Dadurch wird beispielsweise Plural und Singular unterschieden oder grammatikalische Gegebenheiten wie reflexive Verben beachtet. Das wirkt sich auf die Varianz von Sätzen aus. Auch die Geschlechtlichkeit von Worten spielt eine Rolle. Im Deutschen aber auch in anderen Sprachen, ist die Angleichung an das Femininum, Maskulinum oder Neutrum wichtig. Außerdem muss der Redakteur bzw. die Redakteurin die Triggerworte im Text definieren. Das können auf Ebene der Gesamtgeschichte sein, aber auch Satzebene oder Wortebene. Auf diese Trigger bezieht sich die KI und erstellt den Text.

Bald ist Bundestagswahl. Ist das auch ein vorstellbarer Case?

Kevin: Daran arbeiten wir tatsächlich gerade. Größere Medienhäuser kamen dazu schon auf uns zu. Bei der Bundestagswahl arbeiten der Bundeswahlleiter:innen, sowie regionale Wahlleiter:innen meist mit Excellisten. Wir werden die einzelnen Daten von diesen Wahlleitern in Echtzeit abgreifen und eine Schnittstelle zu Verfügung stellen. Hinzu kommen noch soziodemografische Merkmale. Die kommende Wahl ist ein typischer Case für den Data Driven Newsroom. Klar, eine Woche später ist es wieder vorbei. Aber Wahlen auf Landes- oder Bundesebene kommen immer wieder.

Saim: In Österreich hat die APA übrigens genau das schon umgesetzt. Das zeigt eben genau die Stärke.

Saim Alkan

CEO von AX Semantics und ein Pionier der automatisierten Texterstellung.

 

Wir reden viel von Journalismus ergänzen. Aber nun mal konkret: Rauben automatisierte Texte die Grundlage für Journalismus aus Menschenhand?

Saim: Das ist eine Angst, mit der wir in  deutschen Verlagen immer wieder konfrontiert werden. Ich sage Nein. Ich brauche den Journalisten bzw. die Journalistin um tolle Hintergrundberichte zu verfassen. Zum Beispiel bei der Bundestagswahl, über die Kandidierenden um das Kanzleramt. Aber ich brauche keinen Journalisten, um aus 457 Wahlkreisen die soziodemografischen Daten auszulesen. Das macht die Maschine schneller und exakter.

Automatisierte Texte birgen doch aber auch Gefahren. Zum Beispiel, wenn der Algorithmus falsch trainiert wurde. Sind automatisierte Texte neutraler?

Saim: Grundsätzlich ja, aber man muss unterscheiden: Es gibt zwei Verfahren für automatisierte Texte. Ein regelbasiertes System richtet sich nach den Vorgaben der Redakteur:innen. Klar ist, hat der Verfassende einen politischen Bias und gibt den Text dementsprechend ein, dann ist der Text dementsprechend nicht neutral. Aber das wäre ja auch der Fall, wenn der Text von dieser Person manuell geschrieben würde. Die automatisierten Texte brauchen Leitplanken. Das System überspringt die Leitplanken nicht. Anders ist es bei unüberwachte Verfahren, wie beispielsweise gpt 3. Der Algorithmus zieht seine Informationen zum Beispiel aus Nachrichten und lernt daraus. Das System merkt sich etwa, dass auf ein bestimmtes Wort häufig ein anderes folgt. Steht in amerikanischen Nachrichten nun häufig der Schwarze Mann gefolgt von den Worten Mörder oder Drogendealer, adaptiert die Maschine das und verfasst dementsprechend Texte. Auf das Wort weißer Mann folgt das Wort Präsident, dann schreibt die Maschine in diesem Kontext über die Vorstände einer Firma. Wenn die Trainingsdaten vergiftet sind, dann hat das Auswirkungen. Deshalb braucht es die Kontrolle.

Kevin, ihr bezieht die Daten aus dem öffentlichen Raum. Wie stellst du denn sicher, dass ihr nicht nur einseitige Daten sammelt?

Kevin: Am Ende sind die Daten wie sie sind. Also wir können keine Statistik beeinflussen oder eine neue dazu schaffen - wir ziehen die Daten lediglich aus öffentlichen Quellen. Mir ist bewusst, dass eine rechts-konservative NGO andere Daten zur Migrationsbewegung liefern kann als eine Behörde. Deshalb nehmen wir all unsere Datenquellen in einen Katalog auf und machen die Quellen transparent. Das heißt, dass unsere Nutzer:innen für sich beurteilen können, ob sie die Quelle als vertrauenswürdig einstufen.

Bisher gibt es einige Datenanbieter, die sehr intransparent arbeiten. Die Nutzung von externen Daten wird zunehmen, und damit auch mehr auf die Qualität der Daten geachtet werden. Gerade Medienhäuser sind sich der Tatsache aufgrund ihrer journalistischen Sorgfaltspflicht schon immer bewusst gewesen. Andere Industrien ziehen da gerade nach.  

Saim: Ich möchte noch ergänzen. Wenn die Datenquelle klar ist, kann sich das auch im Bericht des Journalisten bzw. der Journalistin widerspiegeln. Da steht dann, die CDU-nahe Konrad-Adenauer-Stiftung. Das ist ja ohne Wertung, sondern hilft den Leser:innen die Daten einzuordnen. Oder bei Corona, die RKI-Daten und die der John-Hopkins Universität gegenüberzustellen ist auch ein Beispiel aus der Praxis. So kann Transparenz in einem Text entstehen.

Welche Rolle werden Daten und Datenjournalismus in Zukunft haben?

Kevin: Daten werden mehr Einzug in unseren Alltag halten. Fortlaufende Informationen und die Ableitung von Handlungsempfehlungen werden mehr. Daher glaube ich, dass das Thema auch in den Medien noch viel größer wird.

Saim: Ich gehe davon aus, dass im E-Commerce alles, was Richtung Kundschaft getextet wird, in den nächsten zwei Jahren automatisiert sein wird. Andere sagen, dass Reportings im Businesskontext bis 2022 automatisiert sein werden. Da bin ich etwas skeptischer. Die Medien werden am längsten brauchen. Das liegt nicht daran, dass die Texte schlecht sind - die Stuttgarter Zeitung hat dafür zum Beispiel auch schon Preise gewonnen. Es ist eher die Angst vor automatisierten Texten. Denn der Inhalt ist das wertschöpfende Element im Journalismus. Deshalb braucht es zunächst ein Umdenken.

Das könnte dich auch interessieren

Mehr Blog

top