Sztuczna inteligencja bez wątpienia jest przyszłością medycyny. Jednak nauczenie jej diagnozowania różnych schorzeń, nie będzie tak łatwe, jak się to niektórym przedsiębiorstwom wydaje. Przekonała się o tym największa z amerykańskich firm zajmujących się zbieraniem i przechowywaniem danych medycznych. Stworzony przez nią algorytm miał pozwolić na rozpoznawanie sepsy, będącej najgroźniejszym ze szpitalnych powikłań pozabiegowych. W amerykańskich szpitalach jest ona przyczyną największej ilości zgonów. Szeroko zakrojony eksperyment, mający udowodnić działanie systemu, nie poszedł jednak tak, jak zakładano.
Sztuczna inteligencja miała diagnozować sepsę. Równie dobrze można było rzucać kostką
Prawie jak rzut kostką
Testy systemu przeprowadzono na bazie obserwacji ponad 40000 pacjentów szpitala Michigan Medicine w latach 2018-2019. W tym czasie odnotowano tam 2552 przypadków sepsy, z których system przegapił... aż 1709. Jeszcze gorzej wyglądała sytuacja z fałszywymi alarmami, aż w 88% zgłoszeń sepsa nie wystąpiła. Ze wszystkich przypadków w których algorytmy przewidziały sepsę, jedynie 7% nie zostało, na tym etapie, wykrytych przez lekarzy.
Badacze podsumowali cały eksperyment w artykule jednego z renomowanych pism medycznych. Wyliczyli, że skuteczność całego systemu to zaledwie 63%, podczas gdy twórcy zakładali ją na poziomie 76%. Z jednej strony, te kilka wykrytych tylko przez algorytmy przypadków jest jakimś sukcesem, ale prawdopodobnie większość z nich i tak zostałaby wykryta, tylko trochę później. Natomiast ogromna ilość fałszywych alarmów z pewnością jest dużym problemem, uwaga i środki personelu są kierowane w miejsca, które tego nie wymagają.
Dziwne podejście
Jak celnie zauważyli badacze, problem leży w samym algorytmie, który nie analizuje na bieżąco parametrów pacjenta, tylko... przedłożone przez lekarza zlecenia badań i recepty. To oznacza, że algorytm nadzoruje tylko takie przypadki, w których personel sam zauważa niepokojące objawy i podejmuje interwencje. Wygląda to więc bardziej na próbę skoku na kasę, dokonaną przez firmę specjalizującą się w agregowaniu danych, a nie poważne narzędzie przygotowane przez instytucje mającą doświadczenie ze zaawansowaną diagnostyką.
Nie tędy droga
Tego typu próby pójścia na skróty, mogą być bardzo szkodliwe dla całego procesu wdrażania sztucznej inteligencji dla zastosowań medycznych. Nie, żeby były go w stanie zatrzymać, ale podrywanie zaufania do nowoczesnych rozwiązań może spowodować, że wszystko będzie przebiegać wolniej i przy mniejszej ilości chętnych do testowania. Niestety AI jest dziś buzzwordem, na który łapie się inwestorów i granty, więc takich przykładów zapewne będzie więcej.
Dziennikarze The Verge podali zresztą kilka innych przypadków, kiedy bazujące na uproszczonych statystykach systemy dawały bardzo wątpliwe wyniki. W jednym z nich okazało się, że system gorzej traktował osoby czarnoskóre, w innym, również od firmy Epic, umiejętność przewidywania ostrych przypadków COVID-19 jest przez naukowców podważana.
Konkluzja naukowców zajmujących się tym tematem jest taka, że w przypadku algorytmów stosowanych w medycynie, lekarze powinni mieć możliwość dogłębnego wglądu w metodologię stosowaną przez algorytmy, porządnego ich przetestowania przed wdrożeniem oraz stałego monitorowania wyników dawanych przez takie narzędzia. Tymczasem część z nich wprowadza się dziś praktycznie na „słowo honoru” twórców. Z mojej perspektywy wydaje się, że powinno się też bardziej stawiać na systemy analizujące bieżące parametry pacjenta, a nie czynności dokonywane przez lekarzy.
Źródło: [1]
Hej, jesteśmy na Google News - Obserwuj to, co ważne w techu