Datenqualität im Kontext von Machine Learning ist von zentraler Bedeutung. Denn die
verwendbaren Daten bilden das Wissen ab, basierend auf welchem das KI-Modell
trainiert wird (s. Kapitel 2.1.1). Bei geringer Datenqualität kann es u.a. zu
zrscheinungsformen wie hohem Bias oder hoher Varianz kommen, welche sich in
geringer Richtigkeit bzw. Präzision manifestieren. In Abbildung 19 sind diese
Auswirkungen anhand von Würfen auf Dartscheiben vereinfacht dargestellt.
Mangelnde Datenqualität kann zur Folge haben, dass ein Kl-System nicht zuverlässig
funktioniert, auch wenn ihre gewählten Machine-Learning-Methoden überaus geeignet
sind und die sonstige Entwicklung hohen Qualitätsstandards folgte.
Blei ETF
Henne varlanız
{4
\
A
a —
GC
N
d
}
u
=
Fa
"7.
h
m
TS
I
f
(4
)
1
HJ
[
N
FF)
=
Präzision
Abbildung 19: Zusammenhang zwischen Varianz und Präzision sowie Bias und Richtigkeit als Folger
mangelnder Datenqualität.
Die Einhaltung und Verbesserung von Datenqualität mittels geeigneter Methoden und
<ontrollen wird als Datenqualitätsmanagement bezeichnet (Gudivada et al., 2017). Die
Jmsetzung von Datenqualitätsmanagement erhöht die Chancen, dass ein
funktionstüchtiges Kl-System entwickelt wird, welches folglich eine Prüfung erfolgreich
Jesteht. Datenqualitätsmanagement kann z.B. mittels unternehmens- und
oranchenweiten Datenstandards oder einheitlichen Prozessen zur Beseitigung von
Jngereimtheiten wie Inkonsistenzen, Ungenauigkeiten oder Ausreißern umgesetzt
werden. Methoden zur Umsetzung von Datenqualitätsmanagement werden in (Burkov,
2020; Gudivada et al., 2017) gründlich behandelt.
Fraunhofer Ch.L
erif Al
Bundesamt für Seeschifffahrt und Hydrographie