Resultate
Am Beispiel von zwei der durchgeführten Versuche, der Klassifizierung von Büchern und der Klassifizierung von Nachrichten, sollen nun die beim Einsatz von languagesort.py erzielten Ergebnisse beschrieben werden.
Bei der Klassifizierung von Büchern werden als Trainingsmenge Texte in sechs Sprachen verwendet, jeweils 10 Texte pro Sprache. Die durchschnittliche Länge eines Textes liegt bei 150.000-200.000 Zeichen. Die Testmenge besteht aus 54 ähnlich langen Texten gleicher Herkunft. Nach dem 20 Epochen dauernden Training werden von diesen 54 Texten 52 richtig und eindeutig klassifiziert, d.h. die Ausgabe des Neurons für die Zielkategorie ist größer als 0,7. Zwei Texte werden zwar der richtigen Sprache zugeordnet, allerdings mit einer Zielausgabe kleiner als 0,7. Versuche mit einer unterschiedlichen Anzahl von Trainingstexten haben gezeigt, dass bei langen Texten ein Trainingsmuster pro Sprache für eine zuverlässige Kategorisierung genügt.
Bei der Klassifizierung von Nachrichten werden Texte in deutscher und englischer Sprache verwendet, deren durchschnittliche Länge etwa 2.000 Zeichen beträgt. Je höher die Zahl an Trainingstexten ist, umso eindeutiger ist die resultierende Klassifizierung. In den meisten Fällen genügen jedoch bereits ein bis zwei Trainingsmuster pro Sprache, um die restlichen Texte zuverlässig zuzuordnen.
Bei der Unterscheidung von zwei Sprachen machen sich Probleme bei der Klassifizierung erst dann bemerkbar, wenn Trainingstexte mit weniger als 300 Zeichen benutzt werden; bei mehreren Sprachen entsprechend früher. Grundsätzlich gilt: Je länger die beim Training eingesetzten Texte sind, umso zuverlässiger ist die Zuordnung der übrigen Texte. Mehrsprachige Texte, in denen nicht eine Sprache deutlich im Vordergrund steht, lassen sich naturgemäß keiner Sprache eindeutig zuordnen – hier kommt es zu Fehlklassifizierungen. Weiterlesen
