Modelele de inteligență artificială întâmpină dificultăți majore în stabilirea diagnosticului diferențial inițial, conform unui studiu american. Deși performanța lor crește odată cu accesul la mai multe date, cercetătorii de la Mass General Brigham avertizează că aceste sisteme nu sunt încă sigure pentru utilizare clinică fără supraveghere umană.
Primele teste au evaluat 21 de modele AI
Studiul, publicat în revista JAMA Network Open, a analizat 21 de modele de limbaj de tip LLM, printre care se numără Claude, DeepSeek, Gemini, GPT și Grok. Cercetătorii au evaluat capacitatea acestor sisteme de a raționa logic în fața unor cazuri medicale reale. Au fost folosite 29 de scenarii clinice standardizate, iar informațiile au fost oferite modelelor treptat, de la datele inițiale ale pacientului până la rezultatele analizelor.
Performanța inteligenței artificiale a fost măsurată cu instrumentul PrIME-LLM în patru etape cheie. Acestea au fost stabilirea diagnosticului inițial, recomandarea investigațiilor, formularea diagnosticului final și propunerea unui plan de tratament. Rezultatele au arătat că cea mai dificilă etapă pentru AI a fost stabilirea diagnosticului inițial, unde modelele nu au reușit să formuleze ipoteze corecte având la dispoziție doar datele de bază.
Peste 80% din diagnosticele diferențiale au fost greșite
Diagnosticul diferențial este un proces fundamental în medicină. El presupune identificarea bolii corecte dintr-o listă de afecțiuni posibile cu simptome similare. În această etapă critică, modelele de inteligență artificială au avut rezultate slabe, nereușind să ofere un diagnostic diferențial adecvat în peste 80% din cazuri, chiar și după ce au primit date suplimentare.
Autorii studiului explică faptul că aceste sisteme funcționează mai bine când primesc toate datele relevante. Ele se descurcă greu atunci când informațiile sunt incomplete sau incerte. Capacitatea de a gestiona incertitudinea și de a lua decizii cu date limitate rămâne un punct slab. Chiar dacă unele modele precum Grok 4, GPT-5, GPT-4.5, Claude 4.5 Opus și Gemini 3.0 au avut rezultate superioare, niciunul nu a atins nivelul necesar pentru a fi folosit independent în mediul clinic.
Acuratețea crește odată cu volumul de date
Pe măsură ce modelele AI au primit mai multe informații, cum ar fi rezultatele analizelor de laborator sau ale investigațiilor imagistice, acuratețea diagnosticului final a crescut. Aceasta a variat între 60% și peste 90%, în funcție de modelul testat. Acest lucru demonstrează că inteligența artificială poate fi un instrument de ajutor atunci când dispune de un set complet de date, dar rămâne vulnerabilă în fazele incipiente ale diagnosticării.
Studiul subliniază că diferența dintre capacitățile tehnologiei și nevoile practice pentru o utilizare fără supraveghere rămâne mare. Autorii avertizează clar: „Aceste tehnologii necesită în continuare supraveghere umană strictă.” În prezent, deciziile medicale nu ar trebui luate fără implicarea directă a unui medic specialist. AI poate oferi sprijin, dar nu poate înlocui experiența și raționamentul uman.
Un drum lung până la încredere deplină
Cercetarea nu neagă potențialul pe care inteligența artificială îl are în medicină. În schimb, scoate în evidență limitele actuale, în special în primele etape ale procesului de diagnostic, care sunt adesea cele mai dificile și pot influența radical evoluția unui pacient. Este nevoie de mai multă cercetare pentru a îmbunătăți modul în care AI gestionează incertitudinea și raționamentul clinic.
Implementarea acestor tehnologii în spitale fără o înțelegere clară a limitărilor poate conduce la probleme serioase. Recomandarea pentru public este de a folosi cu prudență instrumentele AI și de a consulta întotdeauna un medic pentru orice problemă de sănătate. Încrederea totală într-un diagnostic oferit de inteligența artificială, la nivelul actual de dezvoltare, poate fi riscantă. Viitorul AI în medicină depinde de progresul tehnologic, dar până atunci, supravegherea umană este esențială pentru siguranța pacienților.













