ddm Ausgabe 1 | 2020

ddm | Ausgabe 1 | 2020 29 Digitale Visionen diese Generalisierbarkeit zu prüfen, sollten die trainierten Modelle nicht nur intern „naiv” überprüft werden (wie gut hat das Modell den vorhandenen Datensatz gelernt?) oder durch sog. Kreuzvalidierung getestet werden (hierbei wird ein immer neuer Teil des Datensatzes zufällig nicht in das Training mit einbezogen, sondern „beiseite” gelegt und dann zum Testen eingesetzt) sondern durch externe Validierung (also zumindest an einem Testdatensatz als Teil des Gesamtdatensatzes, den das Modell jedoch nie vorher gesehen hat, sog. „Hold- Out-Testset“). Ideal ist eine Validierung in einem komplett anderen Datensatz (z. B. aus einer anderen Klinik). 2. Definition nützlicher Goldstandards, Einsatz nützlicher Metriken, Nützlichkeits- beweis: Viele Studien in der medizinischen KI-Forschung entwickeln Modelle, die gegen einen „Goldstandard“ beziehungsweise Referenztest trainiert und validiert werden. Da die meisten Studien Datensätze mit hunderten, tausenden oder zehntausenden Bildern, die in der klinischen Routine entstanden, einsetzen, sind diese Goldstandards allerdings weniger „hart“ als gewöhnlich: So wird in der Kariesdiagnostikforschung z. B. eine neue Kariesdetek- tionsmethode gegen einen histologischen oder mikroradiografischen Standard geprüft, unter der Annahme, diese Methoden würden mit hoher Sicherheit anzeigen, ob Karies wirk- lich vorhanden ist. Eine solche Validierung ist für KI-Forschung nur selten möglich. Auch das Erheben zusätzlicher Tests (andere Bildgebungsverfahren wie z. B. DVT / CT, Biomarker etc.) verbietet sich oft aus ethischen oder Kostengründen. Stattdessen wird der Goldstandard anders hergestellt: Oftmals bewerten (annotieren) mehrere (teilweise deutlich mehr als fünf) erfahrene Ärzte bzw. Zahnärzte dasselbe Bild, wodurch die Bewertungsfehler des Einzelnen reduziert und das Modell genauer als der „Durchschnittsbefunder“ werden soll (ein Modell, das nur gegen die Befunde eines einzelnen Zahnarztes trainiert wird, kann nie besser sein als dieser einzelne Zahnarzt). Die Logik ist also: Umso mehr Zahnärzte ein Bild befundet haben, umso besser die Qualität des daraus erwachsenden Referenztests und damit des zu entwickelnden Modells. Allerdings stellen sich auch hier diverse Fragen. U. a. ist unklar, nach welchen Regeln aus diesen Mehrfachbefunden nun die „Wahrheit“ (Zahn krank oder gesund) generiert werden soll (Soll es eine Mehrheitsentscheidung geben? Einen Schwel- lenwert? Was passiert mit Daten, bei denen dieser unterschritten wird oder die Mehrheit knapp ist?). Um die Schwierigkeiten dieser „ungenauen“ (englisch „fuzzy“) Goldstandards abzuschwächen, wird empfohlen, möglichst weitere Tests zur sog. Triangulation einzusetzen (Walsh 2018). Diese können idealerweise auch der klinischen Routine entstammen: So kann bei der Kariesbefundung zusätzlich auf Daten aus der klinischen Untersuchung zurückge- griffen werden. Bei der Detektion parodontalen Knochenabbaus können klinische Attach- mentverlustmessungen o. ä. eingesetzt werden. Allerdings sind auch diese Tests ungenau und mit Fehlern behaftet; zudem ist die Dokumentationsqualität in vielen Kliniken oder Praxen unzureichend; auch sind diese Daten nicht immer ohne größeren Aufwand expor- tierbar. Des Weiteren sollten Metriken zur Beschreibung der Modellgenauigkeit eingesetzt werden, die nicht nur technisch relevant sind, sondern auch Informationen über den klini- schen Nutzen liefern (Schwendicke et al. 2019). So sind beispielsweise Modelle, die teilweise hohe Genauigkeiten („accuracy“) aufweisen, mitunter nicht nützlicher als einfaches Raten (wenn z. B. bestimmte Erkrankungen sehr selten sind, kann es passieren, dass ein Modell lernt, immer „gesund“ vorherzusagen und so relativ hohe Genauigkeiten erreicht; nützlich ist dieses Modell jedoch nicht!). Der schlussendliche Nützlichkeitsbeweis sollte zudem in der Praxis erbracht werden: Führt der Einsatz von KI zu besseren Entscheidungen? Diag- nostische Validität hat für den Patienten oftmals nur wenig direkten Nutzen oder Schaden – diese entstehen durch die anschließende Therapie! KI sollte die Therapiewahl verbessern, also wirksamer, sicherer und effizienter machen oder zumindest die Abläufe verbessern (Prozessparameter optimieren).

RkJQdWJsaXNoZXIy NzIxMjU=