Fachkonzept künstliche Neuronen
Vom Perzeptron zum künstlichen Neuron
Wir hatte gesehen, dass die Delta-Lernregel für ein einzelnes Perzeptron bei separierbaren Daten immer gegen ein perfektes Ergebnis konvergiert. Die Delta-Lernregel lässt sich zwar auch auf mehrlagige Perzeptronen verallgemeinern, allerdings liefert sie auch dann lediglich im Falle separierbarer Eingangsdaten brauchbare Ergebnisse. Bei nicht separierbaren Daten führt die Delta-Lernregel leider zu keinem Perzeptron, dass noch irgend etwas Sinnvolles tuen würde, wie zumindest noch die meisten der Eingangsdaten korrekt zu erkennen, wenn es schon nicht alle erkennt.
Beim Perzeptron können sich die Ausgangsdaten wegen der nicht-stetigen Treppenfunktion sprunghaft mit den Eingangsdaten ändern. Deshalb können kleine Änderungen in den Eingangdaten große und sprunghafte Änderungen in den Ausgangsdaten zur Folge haben. Dadurch ist es schwierig, einen Lernprozess zu definieren, der auch bei nicht separierbaren Daten noch brauchbare Ergebnisse liefert.
Daher definieren wir nun ein so genanntes künstliches Neuron, bei dem die Treppenfunktion durch eine verallgemeinerte stetige und glatte Aktivierungsfunktion ersetzt wird. Glatt ist übrigens ein anschauliches Synonym für differenzierbar.Als Aktivierungsfunktion kommen grundsätzlich zunächst verschiedene Funktionen in Frage. Wir entscheiden uns hier für die sogenannte Tangens-Hyperbolicus-Funktion (tanh-Funktion), die als eine glatte (also differenzierbare) Version der Treppenfunktion aufgefasst werden kann. Weiterhin hat tanh die angenehme Eigenschaft, dass deren Ableitung recht einfach berechnet werden kann - eine willkommene Eigenschaft für das nachfolgende Kapitel über das sogenannte Gradientenabstiegsverfahren, wo wir Ableitungen der Propagierungsfunktion mit der Kettenregel berechnen müssen.
Definition: Progagierungs- und Aktivierungsfunktion tanh beim künstlichen Neuron
Wir beschränken uns zunächst auf ein künstliches Neuron mit lediglich zwei Eingängen $x_1, x_2$. Die folgende Funktion $z=z(x_1,x_2)$ wird als Propagierungsfunktion bezeichnet: $$ z := w_1 \cdot x_1 + w_2 \cdot x_2+b $$ Dabei sind $w_1$ und $w_2$ wie vorher die Gewichte der beiden Eingange. Die reelle Zahl $b$ wird als Bias bezeichnet. Weiterhin wird die frühere Treppenfunktion durch eine so genannte Aktivierungsfunktion ersetzt. Es gibt verschiedene Möglichkeiten für Aktivierungsfunktionen, wir wählen hier zunächst die so genannte Tangens-Hyperbolicus-Funktion: $$ a(z) = tanh(z) := \frac{e^z-e^{-z}}{e^z+e^{-z}}$$
Um im Weiteren eine Lernregel für ein solches künstliches Neuron formulieren zu können, benötigen wir auch noch die Ableitung der Aktivierungsfunktion. Die hier gewählte tanh-Funktion hat den Vorteil, dass sich deren Ableitung sehr leicht berechnen lässt als:
$$ tanh^\prime(z)=1-tanh^2(z) $$