Schluss

Insgesamt hat sich der Einsatz von neuronalen Netzen zur Klassifikation von Texten als durchaus praktikabel und damit als sinnvolle Alternative zu statistischen Klassifikationsverfahren erwiesen. Das häufig vorgebrachte Argument, dass der Zeitaufwand für das Training eines neuronalen Netzes gegen den Einsatz im Alltagsbereich spreche, konnte nicht bestätigt werden. In den durchgeführten Versuchen war eine Lerndauer von über einer Sekunde stets Hinweis auf die falsche Einordnung eines Trainingstextes.

Dennoch sind diverse Verbesserungs- und Erweiterungsmöglichkeiten denkbar: Parameter wie Lernrate und Momentum müssen nicht starr vorgegeben sein, sondern könnten automatisch in Abhängigkeit von den zu kategorisierenden Texten bestimmt werden. Die Erkennungsrate könnte durch das Hinzufügen weiterer Merkmale als Eingaben für das neuronale Netz noch verbessert werden. Zusätzliche Merkmale wie die durchschnittliche Länge der Sätze oder die durchschnittliche Länge der Wörter könnten es möglich machen, das Einsatzgebiet des Programms deutlich zu erweitern: Anstatt Texte nur nach Sprachen zu sortieren, könnte das Programm versuchen, beliebige vom Benutzer vorgegebene Sortier-Kriterien anzuwenden, z.B. eine Sortierung nach Autor oder Textart.

Geht man einen Schritt weiter, so könnte man die Überlegung anstellen, ob sich das Prinzip auf andere Gebiete wie die Klassifikation von Bild- oder Musikdateien übertragen lässt. Ähnliche Entwicklungen sind im Bereich der Nachrichten- und Informationstechnik denkbar. Mit jedem Jahr nimmt die Bandbreite an Informationen, die dem Einzelnen zur Verfügung stehen, weiter zu. Schon heute fällt es vielen Leuten schwer, den Überfluss an Information zu bewältigen; „information overload“ ist kein Fremdwort mehr. Ein zukünftiges Einsatzgebiet von neuronalen Netzen ist deshalb meiner Ansicht nach die personalisierte Klassifizierung von Nachrichten. Das Interesse an bestimmten Informationen variiert stark von Person zu Person – im Zeitalter der digitalen Zeitung wird das „Überblättern von Seiten“ der Vergangenheit angehören. Weiterlesen

< Resultate | Inhaltsverzeichnis | Quellcode des Praxis-Projekts >

Antwort schreiben