Generierte Wörter

Unsere RNNs sind mittlerweile in der Lage einzelne Wörter zu generieren. Englisch dient derzeit als Ausgangssprache. Da durch PoS-Tagging die vielversprechendsten Ergebnisse entstanden, haben wir diesen Ansatz für unsere Zwecke noch etwas verbessert. Statt die Wörter mittels eines neuronalen Netzes nur ihrer Wortart zuzuweisen, gruppieren wir Wörter nach formalen Eigenschaften (aktuell Endsilben). So haben wir aus verschiedenen Texten Trainingsdatensätze mit insgesamt 412.000 verschiedenen Wörtern extrahiert. Diese Daten dienen neben dem Training auch dem Aussortieren von existierenden Wörtern. Hier einige erzeugte, bedeutungslose Wörter:

manuble, touchar, tivert, peternizing, palbering, sperian, cinemal, melary, lumatic, lanistic, lecular, locomeson, loddy, lematic, lausness, twerick, tarstair, twird, tinch, talic, beroving, ulery, amunit, afferential, accound

Google Translator erkennt die meisten dieser Wörter automatisch als Englisch, kennt jedoch keine sinnvolle Übersetzung. Da wir keinen vollständigen Datensatz mit allen englischen Wörtern und ihren Flexionen besitzen, können wir nicht ausschließen, dass gelegentlich Wörter generiert werden, die im englischen Sprachraum eine Bedeutung haben – insbesondere im Slang oder Jargon.

Um aus unserem generierten asemischen Wortschatz ganze Texte zu erzeugen ist ein weiteres neuronales Netz notwendig. Es soll lernen schematische Satzstrukturen zu erzeugen, die durch bedeutungslose Wörter befüllt werden.