Künstliche Intelligenz zur Diagnose von Hautkrebs: Expertenblick nach wie vor unverzichtbar
Überall wo bildgebende Diagnostik zum Einsatz kommt, werden zunehmend Methoden der künstlichen Intelligenz (KI) eingesetzt. Heidelberger Wissenschaftler des Deutschen Krebsforschungszentrums (DKFZ), der Universitäts-Hautklinik und am Nationalen Centrum für Tumorerkrankungen (NCT) Heidelberg haben die Zuverlässigkeit von lernfähigen Algorithmen zur Unterscheidung von schwarzem Hautkrebs und gutartigen Muttermalen überprüft. Hierbei stellten sie fest, dass bereits kleine Abweichungen bei der Bildaufnahme zu einer Fehldiagnose durch die computergestützten Systeme führen können. Die Forscher plädieren daher dafür, trotz nachweislichem Nutzen automatisierter Diagnostik immer auch die Überwachung dieser durch erfahrene Hautärzte im Blick zu behalten.
Bei der Analyse von Bildern ist die Entwicklung selbstlernender Algorithmen weit fortgeschritten. Computerbasierte Systeme, die sich KI zunutze machen, werden unter anderem in der Radiologie, der Pathologie, der Augenheilkunde und der Dermatologie eingesetzt. Heidelberger Wissenschaftler des DKFZ, der Universitäts-Hautklinik und des NCT Heidelberg haben in Studien gezeigt, dass KI das Potenzial hat, die Genauigkeit der Diagnostik von Hautkrebs zu verbessern. Damit diese automatisierten Methoden erfolgreich in der klinischen Praxis eingesetzt werden können, müssen die Ergebnisse vor allem zuverlässig sein und dürfen zu keinen Fehldiagnosen führen.
Die Wissenschaftler und Hautärzte haben daher in einer Testreihe an über 10.000 Fotoaufnahmen von Hautauffälligkeiten die Genauigkeit von drei Algorithmen geprüft, die bereits in der klinischen Diagnostik unterstützend eingesetzt werden. Diese lernfähigen Systeme sind so programmiert, dass sie bösartigen schwarzen Hautkrebs von gutartigen Muttermalen auf Bildern unterscheiden können.
In einer ersten Versuchsreihe wurden Fotos von Hautflecken gezielt durch Rotationen oder Zooms am Computer verändert, um die Qualität der automatisierten Ergebnisse zu prüfen. Für eine zweite Testreihe nutzten die Wissenschaftler Bilder von Hautflecken, wie sie im klinischen Alltag regulär vorkommen. Hierbei lagen den Forschern pro Hautveränderung mehrere Fotos zum Beispiel aus unterschiedlichem Aufnahmewinkel vor.
Die Studie zeigte, dass sich bereits geringe und für den Menschen relativ unauffällige Veränderungen der Fotoaufnahmen auf die Sicherheit der automatisierten Diagnose auswirken können. Alle drei Algorithmen wiesen bei zehn Prozent der analysierten Bilder eine Anfälligkeit für solche Veränderungen auf, die für Hautärzte in der klinischen Praxis normalerweise eher unbedeutsam wären. Beispielsweise führte ein etwas anderer Aufnahmewinkel oder eine leichte Verschmutzung des Dermatoskops zu Diagnoseänderungen der Computersysteme.
„Eine Fehldiagnose bei etwas anderem Zoom oder Belichtung zeigt, dass Computer nicht diagnostizieren, sondern rechnen und dadurch anders entscheiden“, berichtet Jochen Sven Utikal, Leiter der Klinischen Kooperationseinheit Dermato-Onkologie des DKFZ.
Daher wird KI den Blick des erfahrenen Hautarztes nie völlig ersetzen können, folgern die Wissenschaftler aus ihren Ergebnissen. Vielmehr liegt das größte Potenzial der automatisierten Systeme darin, als Frühwarnsystem krankhafte Auffälligkeiten zu erkennen, die vom Arzt bestätigt oder korrigiert werden.
„Niemand arbeitet fehlerfrei. In der Diagnostik sind Fehler aber besonders folgenschwer. Deshalb ist es wichtig, die Methoden der KI durch weitere Forschungsarbeiten stetig zu verbessern und die Ergebnisqualität zu erhöhen“, sagt Titus Brinker, Leiter der Studie und Nachwuchsgruppenleiter am DKFZ und NCT Heidelberg sowie Assistenzarzt an der Universitäts-Hautklinik Heidelberg.
Die Studien zur KI für die Interpretation von Hautläsionen sind Teil des vom Bundesministerium für Gesundheit geförderten Skin Classification-Projekts.