Praxisbeispiel Text-Klassifizierung

Beschreibung des Vorhabens

Im Folgenden wird die algorithmische Umsetzung eines Programms erörtert, das anhand von Beispieltexten lernt, andere Texte durch Analyse der Häufigkeit einzelner Zeichen bestimmten Sprachen zuzuordnen. Dazu wird zunächst das nicht spezifische Backpropagation-Modul backprop.py in der Programmiersprache Python entwickelt, das sich mit wenigen Zeilen Quellcode in andere Programme einbinden lässt. Eingesetzt wird es in der Anwendung languagesort.py, die sämtliche Texte in einem Ordner sowie in dessen Unterordnern analysiert und die in kein Unterverzeichnis einsortierten Texte dann jeweils in das bezüglich der Sprache passendste Unterverzeichnis verschieben kann. Das Programm soll auf Texte in beliebigen Sprachen anwendbar sein.

In der Praxis ist die Anwendbarkeit in der vorliegenden Form auf die Sprachen beschränkt, die in den Zeichensätzen ISO 8559-1 oder US-ASCII darstellbar sind, d.h. auf westeuropäische/westliche Sprachen. Erweiterungen sind durch das Hinzufügen weiterer Zeichensätze zur Funktion GetFileText denkbar. Weiterlesen

< Backpropagation | Inhaltsverzeichnis | Backpropagation-Modul >

Antwort schreiben