Po co w ogóle ufać (lub nie ufać) algorytmom zdrowotnym?
Większość osób sięga po algorytmy zdrowotne z jednego z trzech powodów: szuka szybkiej odpowiedzi, chce drugiej opinii albo próbuje lepiej kontrolować chorobę przewlekłą. Z drugiej strony w głowie od razu pojawia się obawa: czy ta „inteligentna” aplikacja wie, co robi, czy tylko ładnie udaje?
Zaufanie do algorytmów medycznych nie jest decyzją „tak/nie”. Bardziej przypomina suwak: od całkowitej nieufności („wszystko to bzdura”) po ślepe zawierzenie („skoro AI tak mówi, to na pewno ma rację”). Bezpieczne wykorzystanie takich narzędzi polega na czymś pomiędzy: świadomym zaufaniu z solidną dawką krytycznego myślenia.
Czym w ogóle są algorytmy zdrowotne?
Prosta aplikacja zdrowotna a system wspierania decyzji klinicznych
Pod pojęciem „algorytmy zdrowotne” kryje się bardzo szerokie spektrum rozwiązań. Od prostego kalkulatora BMI, przez aplikację przypominającą o lekach, aż po zaawansowane modele analizujące tomografię w poszukiwaniu wczesnych zmian nowotworowych. Wszystkie korzystają z jakiejś formy logiki lub statystyki, ale ich rola w procesie leczenia jest skrajnie różna.
Proste aplikacje zdrowotne to zazwyczaj:
- kalkulatory (BMI, ryzyko sercowo-naczyniowe na podstawie znanych wzorów),
- trackery aktywności, snu, tętna,
- przypominajki o lekach czy piciu wody,
- proste check-listy objawów oparte na regułach typu „if–then”.
Działają na jawnym zestawie reguł i formuł. Ich „inteligencja” często sprowadza się do prostych warunków: jeśli masz X lat, takie ciśnienie i palisz, twoje szacunkowe ryzyko jest wyższe.
Systemy wspierania decyzji klinicznych (CDSS, Clinical Decision Support Systems) idą dużo dalej. Mogą:
- analizować złożone dane (obrazy, historię chorób, wyniki laboratoryjne),
- przewidywać ryzyko powikłań czy nawrotu choroby,
- sugerować najbardziej prawdopodobną diagnozę lub najbardziej odpowiednie leczenie,
- wykrywać nietypowe wzorce, których człowiek mógłby nie zauważyć.
Takie systemy często wykorzystują machine learning lub głębokie sieci neuronowe. To właśnie one najczęściej są źródłem zarówno entuzjazmu („AI lepsza od lekarza!”), jak i obaw („czarna skrzynka decyduje o moim zdrowiu”).
Typowe zastosowania algorytmów zdrowotnych
Żeby lepiej zrozumieć, czy warto ufać algorytmom zdrowotnym, trzeba wiedzieć, do czego konkretnie są używane. Kilka najczęstszych obszarów:
- Triaż – czyli ocena pilności stanu pacjenta. Aplikacje symptom-checker sugerują, czy dany problem wymaga natychmiastowej pomocy (np. SOR), wizyty w najbliższych dniach, czy wystarczy obserwacja w domu.
- Wstępna diagnoza – systemy analizujące objawy, wyniki badań i proponujące listę najbardziej prawdopodobnych rozpoznań. Często stosowane jako „druga para oczu” dla lekarza.
- Analiza obrazów medycznych – wykrywanie zmian na RTG, tomografii, rezonansie, dermatoskopii. Przykład: wykrywanie guzków płucnych na zdjęciach RTG albo zmian nowotworowych skóry na zdjęciach z telefonu.
- Przewidywanie ryzyka – modele scoringowe szacujące ryzyko zawału, udaru, powikłań pooperacyjnych czy ponownej hospitalizacji.
- Monitorowanie chorób przewlekłych – algorytmy analizujące dane z glukometrów, ciśnieniomierzy czy smartwatchy i sygnalizujące niepokojące wzorce.
Stopień zaufania, jakiego oczekujemy, będzie różny. Co innego kalkulator wypijanej wody, a co innego system podpowiadający onkologowi rodzaj terapii.
Gdzie zaczyna się „sztuczna inteligencja”, a gdzie kończy zwykła statystyka
Hasło „AI w zdrowiu” bywa nadużywane. Niekiedy to, co marketing nazywa sztuczną inteligencją, jest w praktyce zbiorem prostych reguł eksperckich lub klasycznym modelem statystycznym. I to wcale nie jest zarzut – dobrze zrobiona statystyka bywa stabilniejsza i łatwiejsza do wytłumaczenia niż wyrafinowana sieć neuronowa.
Różnica sprowadza się często do sposobu budowania modelu:
- Modele oparte na regułach – ktoś (zazwyczaj zespół lekarzy) ustalił zasady: jeśli występuje A i B, sugeruj C. Łatwe do prześledzenia, trudniejsze do skalowania na tysiące kombinacji.
- Klasyczne modele statystyczne – np. regresja logistyczna przewidująca ryzyko zawału na podstawie kilku dobrze znanych czynników ryzyka. Tu widać wkład każdej cechy (np. palenie +X do ryzyka).
- Uczenie maszynowe i sieci neuronowe – model sam uczy się na dużych zbiorach danych, jakie wzorce przewidują dane zdarzenie (np. nowotwór na obrazie, powikłania sepsy). Taka elastyczność ma cenę: trudniej jednoznacznie wytłumaczyć, skąd dokładnie wzięła się konkretna decyzja.
Użytkownika (pacjenta) często bardziej obchodzi to, jak rzetelnie działa system niż to, czy nazwano go „AI”, „ML” czy „analiza predykcyjna”. Problem w tym, że marketing lubi dodawać słowo „inteligencja” do wszystkiego, więc poziom zaufania bywa oderwany od rzeczywistych możliwości rozwiązania.
Jakie dane karmią algorytmy zdrowotne
Algorytmy zdrowotne nie istnieją w próżni. Uczą się na konkretnych danych, a dokładność ich prognoz zależy w dużej mierze od tego, czym zostały „nakarmione”. Typowe źródła danych to:
- Elektroniczna dokumentacja medyczna (EHR) – rozpoznania, hospitalizacje, procedury, historie chorób, dane o lekach.
- Dane z badań obrazowych – zdjęcia RTG, tomografia, rezonans, USG, dermatoskopia.
- Wyniki badań laboratoryjnych – morfologia, biochemia, markery nowotworowe, hormony.
- Dane z urządzeń wearable – smartwatche, opaski fitness, glukometry, ciśnieniomierze łączące się z aplikacją.
- Dane samoopisowe pacjenta – ankiety, dzienniczki objawów, informacje o stylu życia.
Kluczowy szczegół: dane uczące pochodzą zazwyczaj z konkretnych szpitali, regionów, populacji. Jeśli model był trenowany głównie na danych białych pacjentów w wieku średnim z dużego miasta, jego działanie na osobach starszych, z inną etnicznością, z małego ośrodka może być dużo gorsze. Tu zaczyna się temat biasu, do którego jeszcze dojdziemy.
Skąd bierze się zaufanie (lub jego brak) do algorytmów?
Dlaczego ludzie tak łatwo wierzą w „magiczne” wyniki aplikacji
Człowiek lubi proste odpowiedzi na skomplikowane pytania. „Czy ten ból głowy to coś poważnego?” „Czy to znamię to rak?” Jeśli aplikacja w kilka sekund wyświetla prosty komunikat typu „prawdopodobnie niegroźne”, mózg odczuwa ulgę. Tak działa psychologia: lepsza jakakolwiek odpowiedź niż jej brak.
Dochodzi do tego tzw. autorytet technologiczny. Skoro narzędzie jest cyfrowe, kolorowe, ma ładne wykresy i pieczątkę „AI”, wiele osób nieświadomie przypisuje mu większą kompetencję niż np. zwykłemu artykułowi medycznemu. Do tego często dochodzą:
- sugestie typu „dokładność 98%”,
- powoływanie się na „badania naukowe” bez szczegółów,
- logotypy znanych instytucji lub partnerów (czasem faktyczne, czasem „luźna inspiracja”).
Psychologicznie działa to podobnie jak z wyszukiwarką: jeśli „komputer powiedział”, traktujemy to jako coś obiektywnego, pozbawionego emocji i przez to – rzekomo – bliższego prawdy.
Efekt białego fartucha przeniesiony na technologię
Zjawisko znane z psychologii – ludzie mają tendencję do większego zaufania osobom w białym fartuchu lub z tytułem naukowym – przeniosło się na technologię. Można nazwać to roboczo „efektem białego interfejsu”.
Jeśli aplikacja deklaruje, że powstała na uniwersytecie, korzysta z algorytmów „jak w NASA”, a w materiałach marketingowych pojawiają się sławne nazwiska, użytkownik zazwyczaj obniża czujność. Niewielu sprawdza, co naprawdę znaczy „współpraca”, „projekt badawczy”, „inspirowane badaniem X”.
Problem w tym, że związek z nauką bywa luźny:
- czasem to faktycznie lata badań i publikacje w renomowanych czasopismach,
- czasem jedynie konsultacja z jednym lekarzem na etapie pomysłu,
- a bywa i tak, że „algorytm naukowy” to w praktyce kilka reguł z podręcznika sprzed dekady.
Bez umiejętności odróżnienia marketingu od realnej walidacji naukowej łatwo o zbyt duże zaufanie do technologii, która nie przeszła poważnej weryfikacji.
Siła interfejsu: jak komunikaty budują (fałszywą) pewność
To, jak aplikacja pokazuje wyniki, ma ogromny wpływ na to, jak bardzo użytkownik jej ufa. Kilka klasycznych zabiegów UX potrafi zrobić z przeciętnego modelu „nieomylne narzędzie” w oczach laika:
- liczby z wieloma cyframi – „ryzyko 12,73%” brzmi naukowo, choć model może mieć błąd rzędu kilku procent,
- brak komunikatów o niepewności – zero informacji o tym, że model może się mylić częściej w danej grupie pacjentów,
- mocne sformułowania – „masz cukrzycę typu 2” zamiast „istnieje wysokie prawdopodobieństwo, że… skonsultuj to z lekarzem”.
Niektóre aplikacje idą krok dalej, chwaląc się „dokładnością 98%”, bez wyjaśnienia, jak ta liczba została policzona, na jakiej grupie i co konkretnie oznacza. Pacjent (a czasem i lekarz) słyszy tylko „prawie nieomylny”, choć realnie model może np. świetnie działać w jednym scenariuszu, a fatalnie w innym.
Intuicja lekarza kontra zimna odpowiedź modelu
Zderzenie ludzkiej intuicji z odpowiedzią algorytmu to osobny wątek. Lekarz bazuje na latach doświadczenia, „czuciu” pacjenta, kontekście społecznym, obserwacji niuansów zachowania. Model – na wzorcach statystycznych w danych. Kto brzmi bardziej przekonująco, gdy się nie zgadzają?
Pacjent często widzi tylko końcowy komunikat: lekarz mówi „nie martwiłbym się, ale zróbmy to badanie”, a aplikacja sugeruje „wysokie ryzyko X”. Bez wiedzy o ograniczeniach obu stron łatwo ulec złudzeniu, że ten, kto ma procenty, wykresy i „AI”, musi być dokładniejszy. Dobrze działający system powinien raczej:
- wspierać lekarza sugestią i dodatkową informacją,
- pokazywać stopień niepewności,
- wyraźnie komunikować swoją rolę: wsparcie, nie zastępstwo.
Gdy pacjent rozumie, że algorytm to narzędzie w rękach lekarza, a nie „sztuczny lekarz 2.0”, łatwiej utrzymać zaufanie w rozsądnych granicach.
Jak powstaje algorytm zdrowotny – od danych do modelu
Od zbierania danych do modelu: główne etapy
Rozsądne zaufanie zaczyna się od zrozumienia, jak w ogóle buduje się algorytmy zdrowotne. Proces zwykle obejmuje kilka kroków:
- Zbieranie danych – wybór szpitali, rodzajów badań, okresu czasu; w praktyce często kompromis między tym, co idealne, a tym, co faktycznie jest dostępne.
- Anonimizacja/pseudonimizacja – usuwanie danych pozwalających bezpośrednio zidentyfikować pacjenta (choć to osobny, trudny temat).
- Czyszczenie danych – usuwanie duplikatów, poprawianie oczywistych błędów, ujednolicanie formatów (np. jednostek badań lab.).
- Oznaczanie danych (annotacja) – przypisywanie etykiet: np. radiolog zaznacza, gdzie na obrazie jest zmiana chorobowa, lekarz potwierdza rozpoznanie.
- Podział na zbiory – treningowy, walidacyjny, testowy. Ważne, by pacjent z jednej wizyty nie „przeszedł” przypadkiem do innego zbioru.
- Trening modelu – dobór architektury, hiperparametrów, iteracyjne uczenie na zbiorze treningowym.
- Walidacja i tuning – sprawdzanie, jak model radzi sobie na zbiorze walidacyjnym, poprawki, balansowanie metryk.
Testowanie na danych „niewidzianych” i wdrożenie
Model, który dobrze działa na danych, na których się uczył, to za mało. Kluczowy etap to sprawdzenie go na danych, których „nigdy wcześniej nie widział”. Zwykle robi się to w dwóch krokach:
- Test wewnętrzny – na wydzielonym zbiorze testowym z tego samego szpitala / systemu. To pierwszy kubeł zimnej wody: część „fenomenalnych” wyników z treningu zwykle topnieje.
- Walidacja zewnętrzna – test w innym ośrodku, innej populacji, czasem nawet w innym kraju. Tu często wychodzi cała prawda o ogólności modelu.
Dopiero potem przychodzi etap wdrożenia klinicznego: integracja z systemem szpitalnym, szkolenia, ustalenie, kto i kiedy ma korzystać z algorytmu. Dobrze zaprojektowany projekt przewiduje też monitorowanie po wdrożeniu – sprawdzanie, czy skuteczność modelu nie spada z czasem, gdy zmieniają się procedury, sprzęt czy profil pacjentów.
Gdy któryś z tych kroków jest pominięty („bo deadline”, „bo grant się kończy”), poziom zaufania do algorytmu powinien automatycznie spaść o kilka oczek.
Rola zespołu interdyscyplinarnego
Algorytm zdrowotny to nie tylko dzieło „data scientistów”. Sensownie zrobiony projekt angażuje kilka grup:
- klinicyści – definiują problem, pomagają dobrać sensowne punkty końcowe (co właściwie przewidujemy?), oceniają przydatność wyniku w praktyce;
- analitycy danych / inżynierowie ML – budują i oceniają modele, odpowiadają za infrastrukturę;
- specjaliści od jakości i regulacji – pilnują dokumentacji, standardów, wymogów prawnych;
- UX / product – przekładają model na interfejs, z którego ktoś będzie faktycznie korzystał, a nie tylko podziwiał na konferencjach;
- bezpieczeństwo i ochrona danych – minimalizują ryzyko wycieków i nadużyć.
Gdy za „medyczną AI” odpowiada wyłącznie software house bez udziału lekarzy i bez planu walidacji, czerwone lampki powinny migać tak samo jasno jak lampka „check engine” w aucie.

Kluczowe źródła błędów w algorytmach zdrowotnych
Bias w danych: gdy model „uczy się” uprzedzeń
Model jest tak dobry, jak dane, na których powstał. Jeśli dane są stronnicze, model będzie powielał i wzmacniał istniejące nierówności. Typowe scenariusze:
- Niereprezentatywna populacja – np. model do wykrywania chorób skóry trenowany głównie na jasnej karnacji. Na ciemniejszej skórze będzie się mylił częściej, choć w materiałach reklamowych wciąż zobaczymy jedną, dumną liczbę „dokładności”.
- Różnice w dostępie do opieki – jeśli dane pochodzą głównie od pacjentów, którzy częściej trafiają do specjalistów, algorytm może być „ślepy” na osoby z mniejszym dostępem do systemu.
- Historyczne decyzje lekarzy – model uczony na tym, jak diagnozowali konkretni lekarze, będzie powielał także ich błędy i nawyki. To nie zawsze jest „złoty standard”, choć tak by się chciało.
Przykład z praktyki: system do przewidywania ryzyka ponownej hospitalizacji może „nauczyć się”, że pacjenci z określonym kodem pocztowym są „mniej chorzy”, bo rzadziej wracają do szpitala. Powód? Mniej wracają nie dlatego, że są zdrowsi, tylko że gorzej dojeżdżają, nie mają ubezpieczenia albo się poddają. Algorytm tego nie wie – on widzi tylko rzadziej odnotowane powroty.
Problemy z etykietami: gdy „prawda” jest wątpliwa
Żeby model mógł się czegokolwiek nauczyć, potrzebuje etykiet: „nowotwór / brak nowotworu”, „zgon w 30 dni / brak zgonu” itd. Z tym też bywa różnie:
- Rozbieżności między ekspertami – trzech radiologów, cztery opinie. Jeśli nie wprowadzi się standardów i procedur „rozstrzygania remisów”, model dostaje sprzeczne sygnały.
- Błędy dokumentacji – pomylone kody ICD, przeniesione rozpoznania z poprzedniej hospitalizacji, brak aktualizacji rozpoznania po dodatkowych badaniach.
- Etykieta z opóźnieniem – np. rozpoznanie nowotworu postawione kilka miesięcy po pierwszym badaniu. Dla modelu to wygląda, jakby „wtedy było zdrowo”, a choroba pojawiła się znikąd.
Jeśli etykiety są zanieczyszczone, nawet najlepsza sieć neuronowa niczego sensownego się nie nauczy – co najwyżej odtworzy chaos w nieco gładszej formie.
Overfitting i „przekucie się” modelu na szum
Klasyczny grzech uczenia maszynowego: model nie tylko uczy się wzorców, ale i wkuwa na pamięć szczegóły danych treningowych. Działa wtedy spektakularnie dobrze na danych znanych, a znacznie gorzej na nowych.
W kontekście zdrowia to może wyglądać tak:
- model „nauczył się” specyfiki jednego skanera MRI z danego szpitala – zmiana aparatu lub protokołu badania obniża jego skuteczność,
- model łapie przypadkowe korelacje, np. że pewne choroby „zwykle” występują na badaniach wykonywanych w nocy, bo taki był harmonogram w danym ośrodku.
Dlatego sensowny zespół badawczy tak uparcie walczy z overfittingiem: regularizacja, cross‑walidacja, walidacja zewnętrzna, testowanie na różnych rocznikach danych. Jeśli o tym etapie w publikacji lub materiale produktowym nie ma ani słowa, trudno uwierzyć w „magiczne” 99% dokładności.
Dryf danych: gdy świat się zmienia, a model zostaje w miejscu
Algorytm jest „fotografią” pewnej rzeczywistości w momencie trenowania. Tymczasem medycyna żyje:
- wchodzą nowe terapie, które zmieniają rokowania (np. immunoterapia w onkologii),
- zmieniają się kryteria diagnostyczne (inne progi rozpoznania nadciśnienia czy cukrzycy),
- pojawiają się nowe warianty wirusów, inne wzorce zachorowań.
Jeśli model nie jest regularnie aktualizowany i ponownie trenowany, jego trafność spada. Czasem powoli, czasem dramatycznie szybko (pandemia to świetny przykład). Zaufanie do algorytmu powinno więc obejmować nie tylko pytanie: „jak był trenowany?”, ale też: „jak jest utrzymywany i aktualizowany?”.
Integracja z praktyką: miejsce, w którym dobry model może się „zepsuć”
Nawet świetny model może zostać zneutralizowany przez kiepskie wdrożenie. Kilka realnych problemów:
- Alert fatigue – jeśli system generuje zbyt dużo ostrzeżeń, część z nich jest ignorowana. Po tygodniu nikt nie reaguje „jak w podręczniku”.
- Zły moment podania wyniku – model przewiduje powikłanie, ale wynik trafia do lekarza po wypisie pacjenta, bo ktoś go umieścił w rzadko sprawdzanej zakładce.
- Brak jasnej odpowiedzialności – nikt nie wie, czy sygnał z algorytmu to „muszę zareagować”, „mogę rozważyć” czy „informacja ciekawostkowa”. Efekt: każdy interpretuje go po swojemu.
W takich warunkach nie da się rzetelnie ocenić ani skuteczności, ani bezpieczeństwa modelu – zaufanie staje się loterią zależną od tego, w jaki sposób konkretny oddział zorganizował sobie pracę.
Jak ocenia się wiarygodność modelu medycznego w ML (bez marketingu)
Metryki skuteczności: nie tylko „dokładność 98%”
W materiałach promocyjnych często pojawia się jedna liczba: „accuracy 98%”. W medycynie to zwykle zbyt mało, a czasem wręcz mylące. W praktyce patrzy się na kilka parametrów:
- czułość (sensitivity, recall) – jaki odsetek chorych model poprawnie rozpoznał jako chorych,
- specyficzność (specificity) – jaki odsetek zdrowych model poprawnie zaklasyfikował jako zdrowych,
- PPV i NPV – dodatnia i ujemna wartość predykcyjna: z jakim prawdopodobieństwem osoba z wynikiem „pozytywnym” faktycznie jest chora i odwrotnie,
- AUC-ROC, AUC-PR – miary jakości przy różnych progach odcięcia, szczególnie istotne przy rzadkich chorobach.
Dla pacjenta bardziej istotne bywa: „na 100 podobnych do mnie osób, którym algorytm powiedział X, u ilu to się potwierdziło?”. Samo „98% dokładności” może w praktyce oznaczać np. totalną bezużyteczność przy rzadkich zdarzeniach (model „zawsze zdrowy” potrafi mieć świetną ogólną dokładność).
Walidacja zewnętrzna i prospektywna: test „na żywo”
Papier przyjmie wszystko. Dlatego wiarygodny model medyczny przechodzi kilka rodzajów walidacji:
- walidacja zewnętrzna retrospektywna – model jest testowany na archiwalnych danych z innych ośrodków; pokazuje to, czy działa poza „rodzinnym szpitalem”;
- badanie prospektywne – model działa równolegle z praktyką kliniczną, ale bez wpływu na decyzje (na początku). Sprawdza się, jak przewidywania wypadają wobec rzeczywistych późniejszych zdarzeń;
- badanie z wpływem na decyzje – dopiero w kolejnym etapie model może być użyty jako realne wsparcie, a badanie sprawdza, czy poprawia wyniki pacjentów, skraca czas diagnostyki, zmniejsza liczbę powikłań itd.
Jeśli producent algorytmu pokazuje tylko wyniki z jednego szpitala, jednego rocznika danych i bez śladu walidacji zewnętrznej, poziom zaufania powinien być umiarkowany, nawet jeśli wykresy wyglądają imponująco.
Ocena bezpieczeństwa: nie tylko „czy działa”, ale „komu szkodzi”
Skuteczność to jedno. Drugie pytanie brzmi: czy model komuś nie szkodzi bardziej niż innym. W praktyce oznacza to m.in. analizę:
- różnic w błędach między grupami – np. czy algorytm częściej myli się u kobiet, osób starszych, mniejszości etnicznych, pacjentów z chorobami współistniejącymi;
- rodzaju popełnianych błędów – fałszywie dodatnie vs. fałszywie ujemne. W niektórych zastosowaniach „fałszywy alarm” jest mniej groźny niż przeoczenie choroby, w innych odwrotnie;
- konsekwencji decyzji opartych na modelu – czy błędy prowadzą „tylko” do dodatkowych badań, czy do opóźnionej diagnozy, złego leczenia, niepotrzebnej operacji.
Ocena bezpieczeństwa to też analiza procesów: kto ma dostęp do wyniku, czy jest miejsce na odwołanie, czy istnieje procedura postępowania, gdy algorytm „wariuje” po zmianie infrastruktury.
Transparentność badań i raportowania
Na zaufanie wpływa także to, jak szczegółowo i uczciwie opisano model. Coraz częściej stosuje się standardy raportowania badań z algorytmami medycznymi (np. TRIPOD-AI, SPIRIT-AI, CONSORT-AI). W praktyce oznacza to konieczność ujawnienia m.in.:
- jak dobierano dane i pacjentów,
- jak radzono sobie z brakami danych,
- jakie metryki raportowano dla podgrup,
- jak wyglądał proces walidacji zewnętrznej i testów prospektywnych.
Jeśli opis modelu w publikacji lub dokumentacji brzmi jak broszura reklamowa („innowacyjny, nowej generacji, oparty na głębokim uczeniu”), a brakuje konkretów, trudno mówić o realnej ocenie wiarygodności.
Wyjaśnialność, interpretowalność i granice „czarnej skrzynki”
Co właściwie znaczy, że model jest „wyjaśnialny”
Wyjaśnialność bywa rozumiana bardzo różnie. W uproszczeniu chodzi o to, czy jesteśmy w stanie zrozumieć, dlaczego model podjął daną decyzję lub wygenerował konkretną prognozę. Można tu wyróżnić dwa podejścia:
- modele z natury interpretowalne – np. proste reguły, drzewa decyzyjne, modele liniowe z kilkoma cechami. Można prześledzić logikę decyzji krok po kroku.
- wyjaśnianie modeli złożonych – stosowanie narzędzi takich jak SHAP, LIME, mapy uwagi do sieci neuronowych, aby przybliżyć wpływ poszczególnych cech na decyzję modelu.
W praktyce wyjaśnialność to kompromis: im bardziej złożony model, tym często lepsza skuteczność, ale mniejsza „ludzka” zrozumiałość. I odwrotnie.
Dlaczego lekarze potrzebują wyjaśnień, a nie tylko wyniku
W medycynie decyzje rzadko są „binarnie oczywiste”. Lekarz:
- musi móc uzasadnić swoje decyzje przed pacjentem, kolegami, czasem sądem,
Jak wyjaśnienia mogą w praktyce zmieniać decyzje
Sam wynik liczbowy („ryzyko powikłań 27%”) często niewiele mówi. Inaczej wygląda rozmowa, gdy lekarz widzi, że na ocenę ryzyka złożyły się np.:
- niedawny spadek saturacji i przyspieszony oddech,
- wysoki poziom markerów stanu zapalnego,
- długość hospitalizacji i wiek pacjenta.
W takim scenariuszu algorytm nie „rządzi” decyzją, lecz dostarcza dodatkowych argumentów. Lekarz może powiedzieć: „model mocno podnosi ryzyko przez to, że saturacja spadła i CRP jest wysokie, ale nie widzę klinicznych objawów pogorszenia – zlecę więc dodatkowe badanie zamiast od razu zmieniać terapię”.
Wyjaśnienia pomagają też wychwycić ewidentne absurdy. Jeśli model ocenia ryzyko zawału na podstawie… koloru tła w zdjęciu RTG, to dobrze, żeby ktoś to zobaczył zanim produkt trafi na rynek. Narzędzia typu SHAP czy mapy ciepła pozwalają odkryć takie „dziwne nawyki” modelu na etapie badań, a nie dopiero przy pierwszej skardze pacjenta.
Granice wyjaśnialności: czego nie da się „rozebrać na śrubki”
Nawet najlepsze techniki interpretacji mają ograniczenia. Kilka z nich jest szczególnie istotnych przy medycynie:
- przybliżenia lokalne – wiele metod (np. LIME) tłumaczy decyzję w okolicy jednego pacjenta. To, co jest prawdą lokalnie, niekoniecznie jest prawdą globalnie dla całego modelu.
- niestabilność wyjaśnień – drobna zmiana danych wejściowych potrafi dać zupełnie inne „główne cechy” w wyjaśnieniu, co rodzi pytanie: które z nich jest „prawdziwe”?
- złudzenie zrozumienia – ludzie mają naturalną skłonność do uspokajania się, gdy widzą kolorowe wykresy i strzałki „ta cecha podnosi ryzyko, ta obniża”. Łatwo przestać zadawać trudne pytania o działanie modelu.
Do tego dochodzi perspektywa regulacyjna: zbyt dokładne odtwarzanie wewnętrznej logiki modelu może w pewnych kontekstach zahaczać o ujawnienie tajemnicy przedsiębiorstwa. Trzeba szukać równowagi między interesem pacjenta (zrozumiałość i możliwość zakwestionowania decyzji) a uzasadnioną ochroną know-how.
Czy prostsze modele są „z definicji” bardziej godne zaufania?
Argument „liniowy model jest bardziej etyczny, bo go rozumiem” pojawia się regularnie. Sytuacja jest jednak mniej czarno-biała:
- prosty, ale zły model może krzywdzić przewidywalnie i systematycznie,
- złożony model, który dobrze odwzorowuje złożoność biologii, może być subiektywnie mniej zrozumiały, ale obiektywnie bezpieczniejszy (mniej błędów u konkretnych grup).
Jeżeli prosty model ma o 20–30% gorszą czułość u pacjentów z chorobami współistniejącymi, a jedyną jego zaletą jest to, że „ładnie wchodzi na slajd w PowerPoincie”, trudno uczciwie bronić go tylko argumentem wyjaśnialności. Zaufanie nie wynika z tego, czy model zmieści się na kartce A4, tylko z tego, czy pomaga więcej, niż szkodzi – i czy wiemy, gdzie są jego granice.
Wyjaśnialność dla pacjentów: inny poziom szczegółu niż dla inżynierów
To, co przekonuje data scientistów, zwykle nie przekona pacjenta. Przeciętny człowiek nie potrzebuje wykresu SHAP, tylko zrozumiałej odpowiedzi na pytanie: „dlaczego algorytm zaklasyfikował mnie do grupy wysokiego ryzyka i co mogę z tym zrobić?”. Przydatne bywają tu proste elementy:
- lista 3–5 najważniejszych czynników, które wpłynęły na decyzję („wiek, palenie tytoniu, poziom cholesterolu”),
- informacja, które z tych czynników są modyfikowalne (czyli można je zmienić zachowaniem lub leczeniem),
- krótki kontekst: „w grupie o podobnym profilu zdrowotnym jak Pani/Pan u X na 100 osób w ciągu 10 lat występuje zdarzenie Y”.
Pacjent rzadko pyta o to, czy użyto ResNet-50 czy innej architektury. Bardziej interesuje go, czy ma szansę zakwestionować decyzję algorytmu i czy ktoś obejrzał jego przypadek „ludzkim okiem”.
Regulacje, certyfikacja i odpowiedzialność – kto odpowiada za błąd algorytmu?
Algorytm jako wyrób medyczny: kiedy aplikacja staje się „sprzętem”
W europejskim (i coraz częściej globalnym) porządku prawnym oprogramowanie medyczne może być klasyfikowane jako wyrób medyczny. Oznacza to m.in., że:
- musi przejść proces oceny zgodności (np. CE w UE),
- powinno mieć jasno określone przeznaczenie (do czego służy, dla jakich pacjentów, w jakim kontekście klinicznym),
- podlega wymogom związanym z zarządzaniem ryzykiem, bezpieczeństwem i nadzorem po wprowadzeniu na rynek.
Prosty kalkulator BMI na stronie internetowej zwykle nie będzie traktowany jak wyrób medyczny. Natomiast system, który na podstawie EKG sugeruje rozpoznanie zawału – już jak najbardziej. Różnica między „gadżetem fitness” a narzędziem medycznym bywa z pozoru subtelna, ale dla odpowiedzialności prawnej jest kluczowa.
Rola nowych regulacji dotyczących AI (np. AI Act)
W Unii Europejskiej pojawia się dodatkowa warstwa: przepisy specyficzne dla sztucznej inteligencji (AI Act). Systemy AI używane w ochronie zdrowia są tam kwalifikowane jako systemy wysokiego ryzyka. Pociąga to za sobą konkretne konsekwencje:
- wymóg dokumentowania procesu tworzenia modelu i pochodzenia danych,
- obowiązek oceny wpływu na prawa podstawowe (np. równe traktowanie),
- wymogi dotyczące nadzoru człowieka nad systemem, szczególnie gdy wpływa on na decyzje o leczeniu.
To zmienia rozmowę z „mamy fajny model, spróbujmy go sprzedać” na „pokażmy, jak ograniczamy ryzyko szkody, dyskryminacji i utraty kontroli przez personel”. Dla pacjenta brzmi to może mało ekscytująco, ale w tle chodzi właśnie o to, komu można zaufać – i na jakiej podstawie.
Producent, szpital, lekarz – kto „trzyma” odpowiedzialność?
W razie błędu algorytmu pytanie „kto zawinił?” nie ma prostej odpowiedzi. W grze jest kilka podmiotów:
- producent algorytmu – odpowiada za projekt, jakość danych treningowych, walidację i zgodność z regulacjami,
- podmiot wdrażający (np. szpital) – odpowiada za sposób integracji, konfigurację progów alarmowych, szkolenie personelu,
- lekarz/użytkownik – odpowiada za to, czy używa narzędzia zgodnie z przeznaczeniem i czy nie ceduje bezrefleksyjnie swojej roli na „czarną skrzynkę”.
Przykładowo: jeśli producent nie ujawnił znanych ograniczeń modelu (np. słaba skuteczność u konkretnej grupy wiekowej), to trudno obarczać wyłącznie lekarza, który z narzędzia korzystał zgodnie z instrukcją. Z kolei jeśli szpital ustawił progi alertów tak, że ostrzeżenia praktycznie nie pojawiają się, żeby „nie stresować personelu”, część odpowiedzialności przesuwa się na organizację.
Znaczenie nadzoru po wdrożeniu (post‑market surveillance)
Modele zdrowotne nie są jednorazowym projektem IT. Po wdrożeniu powinny być monitorowane podobnie jak nowe leki czy urządzenia. Obejmuje to między innymi:
- zbieranie informacji o zdarzeniach niepożądanych, w których algorytm mógł odegrać rolę,
- regularne audyty skuteczności (czy czułość/specyficzność nie spadły poniżej ustalonych progów),
- analizę błędów w podgrupach pacjentów – czy nie pojawiły się nowe wzorce stronniczości,
- procedury wycofania lub „uśpienia” modelu, gdy zaczyna zachowywać się niebezpiecznie.
Bez takiego nadzoru każdy „certyfikat” jest aktualny tylko w momencie wydania. Świat medyczny się zmienia, dane się zmieniają, pacjenci się zmieniają. Algorytm też musi mieć prawo się zaktualizować – ale w kontrolowany sposób, a nie przez spontaniczny update w piątek po południu.
Odpowiedzialność a autonomia lekarza: wsparcie czy „cyfrowy przełożony”
Jedną z kluczowych kwestii jest to, jaką moc decyzyjną ma algorytm. W uproszczeniu można wyróżnić trzy scenariusze:
- narzędzie wspierające – algorytm sugeruje diagnozę lub ryzyko, ale decyzję podejmuje lekarz,
- narzędzie półautonomiczne – część decyzji podejmowana jest automatycznie (np. priorytetyzacja badań do opisu), ale lekarz może je zmienić,
- narzędzie autonomiczne – system sam podejmuje wiążące decyzje (w praktyce w medycynie nadal rzadkie i wysoko kontrowersyjne).
Im więcej autonomii ma algorytm, tym więcej pytań o odpowiedzialność. Lekarz, który w 99% przypadków „klika OK” przy sugestiach systemu, w praktyce działa pod jego dyktando, nawet jeśli formalnie to on „podejmuje decyzję”. To wymusza uczciwą dyskusję: gdzie przebiega granica między pomocą a presją systemu, i czy prawo nadąża za tym rozróżnieniem.
Prawo do sprzeciwu wobec decyzji algorytmu
W wielu jurysdykcjach pojawia się koncepcja prawa do zakwestionowania zautomatyzowanej decyzji. W ochronie zdrowia może to oznaczać m.in., że:
- pacjent ma prawo poprosić o ponowne rozpatrzenie decyzji (np. odmowy procedury) przez człowieka, a nie tylko przez kolejny algorytm,
- istnieje obowiązek poinformowania pacjenta, że w procesie decyzyjnym brał udział system AI,
- powinny istnieć mechanizmy dokumentujące, kiedy lekarz zgodził się z algorytmem, a kiedy świadomie podjął inną decyzję – i dlaczego.
Takie mechanizmy nie tylko chronią pacjentów, lecz także budują kulturę odpowiedzialnego korzystania z algorytmów. Lekarz, który wie, że jego decyzja i ewentualna rozbieżność z systemem są transparentnie rejestrowane, częściej zatrzyma się na chwilę refleksji zamiast „iść z prądem” podpowiedzi.
Najważniejsze punkty
- Zaufanie do algorytmów zdrowotnych nie jest zero-jedynkowe – bezpieczne użycie oznacza ani ślepe posłuszeństwo, ani całkowite odrzucenie, tylko świadome wsparcie z zachowaniem krytycznego myślenia.
- Pod hasłem „algorytmy zdrowotne” kryje się cały przekrój narzędzi: od prostych kalkulatorów i przypominajek po zaawansowane systemy wspierania decyzji klinicznych, które realnie wpływają na diagnozę i leczenie.
- Poziom zaufania powinien zależeć od roli narzędzia – inaczej traktujemy aplikację liczącą kroki, a inaczej system, który sugeruje onkologowi rodzaj terapii lub decyduje o pilności przyjęcia na SOR.
- „Sztuczna inteligencja” to często marketingowy parasol dla bardzo różnych rozwiązań: od prostych reguł eksperckich, przez klasyczną statystykę, aż po sieci neuronowe, których decyzji trudno jednoznacznie wyjaśnić.
- Dla pacjenta ważniejsze od etykietki „AI/ML” jest to, jak rzetelnie działa system w praktyce – czy jego działanie da się sprawdzić, porównać z wiedzą medyczną i sensownie wytłumaczyć.
- Algorytmy są tak dobre, jak dane, na których się uczą; jeśli pochodzą głównie z jednej populacji, szpitala czy regionu, ich wyniki mogą gorzej sprawdzać się u innych grup pacjentów.
- Typowe zastosowania – triaż, wstępna diagnoza, analiza obrazów, przewidywanie ryzyka, monitoring chorób przewlekłych – mogą realnie pomagać, o ile traktuje się je jako „drugą parę oczu”, a nie nieomylnego orakla.






