Automatisierte Berichterstattung: Ein spontaner Versuch
24.07.2011
Aus einem spontanen Impuls heraus habe ich mich gestern noch einmal mit automatisierter Berichterstattung beschäftigt und auch gleich einen Prototypen programmiert. Als Thema wählte ich die Sonntagsfrage, die auf regelmäßiger Basis von den führenden Meinungsforschungsinstituten in Deutschland durchgeführt wird. Warum diese Zahlen immer neu umschreiben, wenn ein Computer sehr viel effizienter ein Artikelgerüst erstellen kann?
Geht man im ersten Schritt nur von wenigen Variablen aus (u.a. Institut, Prozentpunkte der Parteien, Umfragedatum, Teilnehmer) hält man die Aufgabe, so etwas zu programmieren, gar nicht für so komplex – man irrt.
Nach fünf Stunden bin ich zu folgenden generierten Sätzen gekommen:
Infratest dimap kommt in der regelmäßig durchgeführten Sonntagsfrage auf folgendes Ergebnis: Wäre am nächsten Sonntag Bundestagswahl, bekäme eine Koalition aus rot-grün die absolute Mehrheit der Stimmen.
Die rund tausend Befragten geben SPD 27 und Grünen 23 Prozent.
Natürlich ist hier nicht Schluss, aber zumindest der Zeitpunkt gekommen, an dem man das Konzept noch einmal anpasst. Die in dieser Zeit erstellte Anwendung kann immerhin bereits n unterschiedliche Einleitungen und Folgetexte erstellen und fragt den Benutzer nach der wahrscheinlichsten Koalition (der Computer weiß nicht, das rot-grün wahrscheinlicher ist als schwarz-grün und muss auch erst einmal lernen, dass der Begriff “schwarz” aus der CDU abgeleitet wird). Mit einem Knopfdruck auf “Generate” wird der obige Text aus einigen vorgegebenen Parametern erzeugt.
Hier ein Screenshot der “Story-Konfiguration”:

Die “Sonntagsfrage” ist dabei nur ein “Story-Set”. Ein solches Set könnte genauso gut “Erdbeben Eilmeldung” heißen und dann Parameter wie “location”, “magnitude”, “casualties”, o.ä. enthalten.
Da es aber schon bei einer Umfrage-”Story” so unglaublich viele Variablen gibt (z.B. müssen auch Umfragewerte vergangener Erhebungen in einen Artikel mit einfließen), bin ich sehr schnell an einen Punkt gekommen, an dem ich das Basiskonzept mit den Ebenen Articles, Parameters, ArticleParameters, ParameterCategories, ParameterTexts (Templates), ParameterTypes um etliche neue Ebenen erweitern müsste.
Spannend bleibt das Thema auf jeden Fall. Wenn mal wieder etwas Zeit übrig ist, versuche ich ein noch etwas abstrakteres Konzept zu entwickeln – dann mit neuer (manueller) Berichterstattung darüber.
Tags: Journalismus, Künstliche Intelligenz, Statistik
Von David Hamann















Pingback: lipo 6 black hers reviews
Pingback: visit website
Pingback: Fisher Investments
Pingback: my blog
Pingback: oro gold cosmetics las vegas
Pingback: Oro Gold
Pingback: Success With Anthony
Pingback: Marie
Pingback: montre automatique homme
Pingback: business for sale
Pingback: John Cracken
Pingback: site
Pingback: raspberry ketone supplement reviews