(Korakakis et al., 2018; Tsirikoglou et al., 2017) oder auch andere Datenformen wie
Zeitreihen (Zhang et al., 2018) synthetisiert. Datensynthese kann ferner unter
Verwendung von Deklarierungssprachen umgesetzt werden, welche simulativ beliebige
Szenarien erstellen können. Auf diese Weise ließen sich jederzeit zahlreiche Szenarien
mit vorgegebenen Abweichungen generieren. Der Vorteil dieser Herangehensweise
wäre das Vorbeugen einer Datenhalde, denn es müssten nur die Befehlssätze zur
Szenariengenerierung, nicht aber der dadurch erzeugte Datensatz, abgespeichert
werden. Die Entwicklung und Umsetzung dieses Ansatzes ist derzeit
>orschungsgegenstand am Fraunhofer CML.
Beim Training von Modellen zeigt sich, dass die Verwendung eines durch
Datenaugmentation erweiterten Datensatzes das Modellverhalten mehr verbessert als
ein rein synthetischer Datensatz, weil ein augmentierter Datensatz über eine höhere
Varianz verfügt (Seib et al., 2020). Es wird davon ausgegangen, dass analog die
Prüfung mit einem augmentierten Datensatz wirkungsvoller ist als mit einem rein
synthetischen oder ausschließlich realem Datensatz. Bei der Datengeneration können
etablierte Standards (s. Kapitel 4.1.1) der anvisierten Datenquellen unterstützend
wirken, da diese die möglichen Formate und Werte der zu generierenden Daten
vorgeben können.
Die Prüfstelle ist dafür verantwortlich, nur solche Daten bei der Prüfung zu verwenden,
die nicht vom Hersteller verwendet worden sind. Sofern der Hersteller angezeigt hat,
dass er beim Training auf Öffentlich verfügbare oder erwerbbare Datensätze
zurückgegriffen hat, muss die Prüfstelle gewährleisten, dass sie auf diese nicht
zurückgreift. Die Prüfstelle kann dies gewährleisten, indem sie auf Methoden der
Datensynthese oder -augmentation oder grundsätzlich nicht auf öffentlich zugängliche
Datensätze zurückgreift.
\lach Beschaffung der Daten ist im Austausch mit dem Hersteller zu prüfen, ob diese
den Erwartungen des Herstellers in Abgleich mit seiner eingereichten
Datenbeschreibung entsprechen. Der in Abbildung 14 dargestellte Prozess zeigt
zusammenfassend wie die Abstimmung zwischen Prüfer und Hersteller zur
Datenbeschreibung gestaltet werden kann.
Der vorgeschlagene Prozess sieht an zwei Punkten den Austausch zwischen Prüfer und
dersteller vor. Zum einen kann die Vollständigkeit der Datenbeschreibung durch den
dersteller nachgeschärft werden, sollten hier durch den Prüfer Unvollständigkeiten in
Abgleich mit der Anwendungsdomäne festgestellt worden sein. Eine zweite Prüfung
erfolgt nach der Beschaffung von Beispieldaten, die der Datenbeschreibung des
derstellers entsprechen. Dieser Schritt gibt dem Hersteller die Möglichkeit, durch den
Prüfer erzeugte Daten mit internen Erwartungen zu vergleichen und mögliche
Abweichungen zu kommunizieren, um gegebenenfalls Anpassungen an der
Datenbeschreibung vorzunehmen. Abweichungen in den durch den Prüfer oder
dersteller beschafften Testdaten können hierbei beispielsweise in der statistischen
Verteilung, Rauschen oder allgemein einer Falschannahme (Cognitive Bias) liegen.
Fraunhofer Ch.L
erif Al
Bundesamt für Seeschifffahrt und Hydrographie