Klassifikation: Bei der Klassifikation werden eingehenden Daten
Ausgabewerte zugeordnet, die bei einer erfolgreichen Ausgabe den
arwarteten Zielwerten' entsprechen. Ein Zielwert ist Element einer Menge
aus verschiedenen Klassen. Die Klassen repräsentieren diskrete Werte und
können z.B. Zeichenketten, also Texte, als Datentyp darstellen.
Regression: Wie bei der Klassifikation, werden bei der Regression den
aingehenden Daten Zielwerte zugeordnet. Der Unterschied zur Klassifikation
st, dass es sich hier um Zielwerte aus einem kontinuierlichen Raum, also um
z.B. reellwertige Zahlen, handelt.
Zlustern: Grundlegender Unterschied zur Klassifikation und Regression ist
veim Clustern, dass es zu den Eingangswerten keine korrespondieren
Zielwerte gibt. Beim Clustern werden basierend auf einem Datensatz
Gruppen aus zueinander ähnlichen Daten erzeugt. Neue Eingangswerte
können entsprechend der Clustering-Kriterien eingruppiert werden.
Künstliche Neuronale Netze (engl. Artificial Neural Network, kurz: ANN) sind ein
spezieller Fall von Machine-Learning-Methoden. Ihr Name rührt daher, dass ihr Aufbau
an den Neuronalen Netzen des menschlichen Gehirns angelehnt ist (Flasinski, 2016).
ANNs besitzen grundlegend eine Eingangsschicht, eine oder mehrere verborgene
Rechenschichten und eine Ausgabeschicht. Die Neuronen zwischen benachbarten
Schichten können dabei netzwerkartig miteinander verbunden sein. ANNs lassen sich
ıicht eindeutig einem Lernansatz oder Aufgabentyp zuordnen. Ein ANN kann je nach
Methode und Aufbau unterschiedliche Anwendungen, wie z.B. Objekterkennung oder
Zeitreihen-Vorhersage, erfüllen.
Prominente Beispiele für ML-Methoden sind in Abbildung 4, hinsichtlich ihrer
zugrundeliegenden Lernansätze und Aufgabentypen hierarchisch sortiert, aufgeführt.
Die Abbildung stellt nur einen Ausschnitt an möglichen Lernansätzen, Aufgabentypen
ınd Methoden dar. Für eine größere Übersicht und weiteren Beispielen wird auf
(Sarker, 2021) verwiesen.
Eine geläufige Klassifikationsmethode ist der Decision Tree (Entscheidungsbaum)
(Burkov, 2019; Sarker, 2021). Zur Erzeugung eines Decision Tree können verschiedene
Algorithmen herangezogen werden. Schlussendlich besteht das Modell aus einem
Wurzelknoten und mehreren Entscheidungsknoten. Letztere stellen Verästelungen dar
und an welchen mittels Berechnungen der weitere Pfadverlauf evaluiert wird, der dann
am Ende zu einem von vielen Blattknoten führt. An den Blattknoten werden die
Ausgabewerte ermittelt und ausgegeben.
zine Support Vector Machine („Stützvektormethode“, kurz: SVM) ist ein Machine-
_earning-Ansatz, der sich wohl für Klassifikations- als auch Regressionsprobleme
eignet. Bei diesem Ansatz werden Datenpunkte durch eine oder mehrere Trennebenen
(bzw. im linearen zweidimensionalen Fall durch Trenngeraden) in Gruppen getrennt. Es
wird dabei die Trennebene gewählt, welche zu den Datenpunkten den größten
Abstand hat. Die Klassifikation wird folglich durch die Aufteilung des Datenraumes
durch die Trennebenen ermöglicht. Modifikationen des SVM-Ansatzes ermöglichen es,
die Trennebene als Regressionsebene zu verwenden (Burkov, 2019; Sarker, 2021).
Eine geläufige Regressionsmethode ist die Lineare Regression (Burkov, 2019; Sarker,
2021). Hierbei wird eine Ausgleichsgerade entlang der Eingangswerte gelegt. Die
Ausgleichsgerade kann beispielsweise durch die Methode der kleinsten Fehlerquadrate
Diskrete Zielwerte, also insbesondere solche in Klassifizierungsproblemen, werden in der Fachliteratur 1.d.R.
als „Label“ bezeichnet. In dieser Studie wird der allgemeinere Begriff Zielwerte verwendet.
raunhofer SI
‚/erifAl
Bundesamt für Seeschifffahrt und Hydrographie