Bei der Entwicklung der Schiffserkennungskomponente muss der Hersteller auf
verschiedene Datensätze für das Training des KIl-Modells zurückgreifen, um einen
hinreichend großen, gesamtheitlichen Datensatz zu erhalten. Den
zusammengeführten Datensatz prüft der Hersteller auf unterschiedliche Aspekte
und formuliert folgende Fragestellungen:
Ist die statistische Verteilung der im Datensatz vorkommenden
Bilddaten zu peilender Objekte repräsentativ für die Realanwendung?
Sind nur solche Bilddaten enthalten, die auch von der
Anwendungsdomäne abgedeckt sind (u.a. klare Sichtverhältnisse im
Tageslicht)?
Sind die Bilddaten richtig klassifiziert?
Unter der Betrachtung der obigen Fragestellungen passt der Hersteller
gegebenenfalls den Datensatz an.
D2 | Beschreibung des Datensatzes
Bei der Entwicklung eines Kl-Systems verwendet der Hersteller einen oder mehrere
Datensätze. Bereits durch die Ausübung von Datenqualitätsmanagement und
nsbesondere beim Training von ML-basierten Kl-Modellen sollte sich der Hersteller mit
den verwendeten Datensätzen auseinandergesetzt haben. Denn, wie zuvor erwähnt,
ı1aben die Datenqualität, aber auch schon der verwendete Trainingsdatensatz einen
erheblichen Einfluss auf das Verhalten der Kl-Modelle.
Damit die Prüfstelle das Verhalten der KIl-Modelle untersuchen kann, muss sie über
ainreichende Kenntnisse zu den Eigenschaften der Trainingsdatensätze verfügen, damit
sie sich eigenständig geeignete Testdatensätze beschaffen kann. Diese Eigenschaften
der Datensätze sind von dem Hersteller im Rahmen der Datenbeschreibung an die
Prüfstelle frühzeitig zu kommunizieren. Insbesondere muss durch den Hersteller
angezeigt werden, wenn das Training auf öffentlich verfügbaren oder erwerbbaren
Datensätzen erfolgt.
Die Datenbeschreibung liefert komponentenweise eine Beschreibung der bei der
Entwicklung verwendeten Datensätze. Eine Möglichkeit zur Beschreibung eines
Datensatzes wird im Folgenden tabellarisch entlang zweier Achsen (s. Abbildung 20)
veranschaulicht und anhand eines AlS-Datensatzes kurz beispielhaft erläutert. Daten in
einem Datensatz bestehen aus einer oder mehreren Dimensionen (horizontale Achse in
Abbildung 20). Die Dimensionen repräsentieren in einem AlS-Datensatz statische und
dynamische Variablen, wie z.B. die MMSI-Nummer der Schiffe, ihre Positionen und die
Zeit der Schiffspositionen. Jede Dimension lässt sich beispielsweise anhand ihres
Dimensionstyps (nominal, ordinal oder numerisch) unterscheiden und bei numerischen
Dimensionstypen ferner zwischen diskreten und kontinuierlichen Dimensionen
ınterscheiden (Navlani et al., 2021). Die möglichen Werte jeder Dimension lassen sich
mit der Angabe des möglichen Wertebereich einschränken. Wenn vorhanden, müssen
auch die Beziehungen zwischen den Dimensionen angegeben werden.
Fraunhofer Ch
‚JerifAl
Bundesamt für Seeschifffahrt und Hydrographie