Wahl der Netz-Topologie
Eingabeschicht
Die Anzahl der Neuronen in der Eingabeschicht hängt von der Anzahl der Daten ab, die dem neuronalen Netz pro Testmuster, d.h. in diesem Fall pro zu lernendem bzw. zu untersuchendem Text, präsentiert werden sollen. Hier ist das die Anzahl verschiedener Zeichen, deren Häufigkeit betrachtet wird. Anstatt ein Eingabeneuron für jedes in irgendeinem der untersuchten Texte vorkommende Zeichen zu verwenden, werden zunächst durch die Funktion GetTopChars in languagesort.py die in allen zu betrachtenden Texten am häufigsten vorkommenden Zeichen ermittelt. In Versuchen mit verschiedenen Anzahlen von betrachteten Zeichen hat sich 25 als ein guter Kompromiss zwischen Lernfähigkeit und Lerngeschwindigkeit herausgestellt – bei weniger Eingabeneuronen nimmt die Fähigkeit des Netzes, mehrere Sprachen zu erkennen, ab; bei mehr Eingabeneuronen nimmt die Zeit, die das Netz für den Lernvorgang benötigt, zu.
Verborgene Schichten
Auch die Zahl der verborgenen Schichten sowie die Zahl der darin enthaltenen Neuronen kann experimentell bestimmt werden. Um die Generalisierungsfähigkeit des Netzes sicherzustellen, geht man hierbei in der Regel von der geringstmöglichen Zahl an Neuronen und verborgenen Schichten aus. In Versuchen mit verschiedenen Mustertexten hat sich gezeigt, dass eine verborgene Schicht für dieses Problem durchweg ausreichend ist und sich die Lernfähigkeit durch mehrere Schichten nicht signifikant verbessern lässt.
Was die Anzahl an Neuronen in dieser Schicht betrifft, so haben sich Werte im Bereich von 5 bis 15 als praktikabel erwiesen. Weniger Neuronen können sich – vor allem bei einer größeren Zahl von zu unterscheidenden Sprachen – negativ auf die Lernfähigkeit des Netzes und auf die Dauer des Lernvorgangs auswirken. Bei einer größeren Zahl von Neuronen kann – vor allem bei einer geringen Anzahl von für den Lernvorgang verwendeten Mustertexten – die Generalisierungsfähigkeit abnehmen.
Ausgabeschicht
Bei neuronalen Netzen, die zur Kategorisierung eingesetzt werden, entspricht die Anzahl der Neuronen in der Ausgabeschicht der Anzahl an möglichen Kategorien. In diesem Fall ist das die Zahl der zu unterscheidenden Sprachen. Weiterlesen
