Pipeline

Wir haben eine Pipeline entwickelt. Sie gliedert sich in drei Stränge – verschiedene Methoden, um asemische Wörter und Texte zu erzeugen. M1 analysiert Text-Wort-Strukturen. Hier können ganze Fließtexte eingespeist werden. ( Romane, Wikipedia, Gedichte, Dialoge, … ) Nach einer optionalen Umwandlung ( Graphem – Phonem ) wird ein Recurrent Neural Network auf diese Daten trainiert und generiert wiederum Texte, die dem Ausgangsmaterial ähneln. Da hierbei auch Wörter generiert werden können, die bereits eine Bedeutung tragen, werden diese durch einen Wörterbuch-Filter verglichen und aussortiert. Schließlich können die gefilterten Wörter durch ähnliche, asemische Wörter aus M2 ersetzt werden. Die Pipeline für M2 ist beinahe identisch zu M1. Allerdings werden hier keine Fließtexte sondern Wortlisten ( plain oder PoS-tagged [1] ) eingespeist. Somit werden ebenfalls Wortlisten erzeugt, die – wie bei M1 – einen Filter durchlaufen. Ziel dieser Methode ist es, ein möglichst großes, vielseitiges Vokabular an asemischen Wörtern aufzubauen. Um dieses Vokabular wieder in Textform zu bringen benötigen wir M3. Diese Methode wird ebenfalls mit Fließtexten gefüttert. Sie generiert durch ein RNN keine Texte oder Wörter sondern schematische, rythmische Vorlagen, die schließlich mit Wörtern aus M2 befüllt werden können.

[1] Unter Part-of-speech-Tagging versteht man die Zuordnung von Wörtern eines Textes zu Wortarten.