सम्पादकीय

क्लिनिकल AI की विश्वसनीयता एक लाइफ़साइकल चुनौती है, न कि एक बार की तकनीकी उपलब्धि

nidhi
27 May 2026 2:36 PM IST
क्लिनिकल AI की विश्वसनीयता एक लाइफ़साइकल चुनौती है, न कि एक बार की तकनीकी उपलब्धि
x
क्लिनिकल AI की विश्वसनीयता एक लाइफ़साइकल चुनौती
हेल्थकेयर में पब्लिश एक स्कोपिंग रिव्यू के मुताबिक, क्लिनिकल AI लैब से आगे बढ़कर एक मुश्किल स्टेज में जा रहा है, जहाँ हेल्थ सिस्टम को यह देखना होगा कि डिप्लॉय किए गए टूल्स सुरक्षित, सही और असरदार तरीके से काम कर रहे हैं या नहीं।
"बियॉन्ड मॉडल डेवलपमेंट इन हेल्थकेयर AI: पोस्ट-डेवलपमेंट रोबस्टनेस, पोस्ट-डिप्लॉयमेंट मॉनिटरिंग, एंड लाइफसाइकल गवर्नेंस: ए स्कोपिंग रिव्यू ऑफ़ रिव्यूज़" नाम की स्टडी में पाया गया है कि भरोसेमंद क्लिनिकल AI को एक बार की टेक्निकल अचीवमेंट नहीं माना जा सकता है, बल्कि इसे लोकल वैलिडेशन और साइलेंट टेस्टिंग से लेकर मॉनिटरिंग, अपडेटिंग, इंसिडेंट रिस्पॉन्स और केयर से संभावित विड्रॉल तक, इसकी पूरी लाइफसाइकल में कंट्रोल किया जाना चाहिए।
हेल्थकेयर AI रिस्क मॉडल की सटीकता से कहीं ज़्यादा हैं
यह रिव्यू क्लिनिकल AI सेफ्टी के उस छोटे नज़रिए को चुनौती देता है जो मुख्य रूप से इस बात पर फोकस करता है कि कोई मॉडल डेवलपमेंट या रेट्रोस्पेक्टिव वैलिडेशन के दौरान अच्छा काम करता है या नहीं। रिव्यू किए गए सबूत बताते हैं कि डेवलपमेंट डेटासेट में अच्छा परफॉर्मेंस इस बात की गारंटी नहीं देता कि कोई AI सिस्टम असली अस्पतालों, क्लीनिकों और केयर पाथवे में एम्बेड होने के बाद सुरक्षित, बराबर या क्लिनिकली उपयोगी बना रहेगा।
मुख्य मुद्दा यह है कि क्लिनिकल AI सोशियो-टेक्निकल सिस्टम के अंदर काम करता है। एक मॉडल का परफॉर्मेंस सिर्फ़ कोड और ट्रेनिंग डेटा पर ही नहीं, बल्कि मरीज़ों की आबादी, हॉस्पिटल के वर्कफ़्लो, क्लिनिकल बिहेवियर, डेटा इंफ्रास्ट्रक्चर, यूज़र इंटरफ़ेस, गवर्नेंस सिस्टम और स्टाफ़ की समस्याओं का पता लगाने और उन पर रिस्पॉन्ड करने की क्षमता पर भी निर्भर करता है। एक मॉडल जो टेस्टिंग में सही लगता है, वह फ़ेल हो सकता है अगर उसे लोकल आबादी के लिए ठीक से कैलिब्रेट नहीं किया गया हो, गलत वर्कफ़्लो में रखा गया हो, डॉक्टरों ने उसे गलत समझा हो या देखभाल की स्थिति बदलने पर उसे मॉनिटर न किया गया हो।
रिव्यू में कई बार-बार होने वाले रिस्क एरिया की पहचान की गई है। इनमें फेयरनेस, ट्रांसपेरेंसी, एक्सप्लेनेबिलिटी, डेमोग्राफिक रिप्रेजेंटेशन, प्राइवेसी, सिक्योरिटी, वर्कफ़्लो फ़िट, ह्यूमन ओवरसाइट और ऑर्गेनाइज़ेशनल रेडीनेस शामिल हैं। ये फ़ैक्टर तय करते हैं कि डेवलपमेंट के बाद AI पर भरोसा किया जा सकता है या नहीं। लेखकों का तर्क है कि रोबस्टनेस को एक फिक्स्ड मॉडल प्रॉपर्टी के तौर पर नहीं समझा जाना चाहिए, बल्कि एक कॉन्टेक्स्ट-डिपेंडेंट फ़ीचर के तौर पर समझा जाना चाहिए जो टेक्नोलॉजी और क्लिनिकल एनवायरनमेंट के बीच इंटरेक्शन से सामने आता है।
ह्यूमन-AI इंटरेक्शन सबसे ज़रूरी चिंताओं में से एक है। AI टूल्स इस बात पर असर डाल सकते हैं कि डॉक्टर कैसे फ़ैसले लेते हैं, खासकर जब एल्गोरिदमिक आउटपुट ऑथेंटिक लगते हैं। रिव्यू किए गए लिटरेचर में ऑटोमेशन बायस, AI रिकमेन्डेशन पर बहुत ज़्यादा डिपेंडेंस, अलर्ट फटीग, क्रिटिकल स्क्रूटनी में कमी, ओमिशन एरर और कमीशन एरर जैसे रिस्क बताए गए हैं। हाई-प्रेशर क्लिनिकल सेटिंग्स में, टेक्निकली मज़बूत सिस्टम भी नुकसान पहुंचा सकता है अगर उसके आउटपुट को बिना सही वेरिफिकेशन के फॉलो किया जाए।
GenAI और LLMs और कॉम्प्लेक्सिटी बढ़ाते हैं। ये टूल्स डॉक्यूमेंटेशन, कम्युनिकेशन और क्लिनिकल सपोर्ट को बेहतर बना सकते हैं, लेकिन वे फ्लूएंट लेकिन गलत आउटपुट भी दे सकते हैं। रिव्यू में पाया गया है कि इंसानी ओवरसाइट से यह प्रॉब्लम अपने आप सॉल्व नहीं हो सकती। ओवरसाइट को ऐसे वर्कफ़्लो से डिज़ाइन, ट्रेन, ऑडिट और सपोर्ट किया जाना चाहिए जो क्लिनिशियन को ज़रूरत पड़ने पर AI रिकमेन्डेशन को चैलेंज करने, वेरिफाई करने और ओवरराइड करने की इजाज़त दें।
ऑर्गेनाइज़ेशनल रेडीनेस एक और बड़ा फैक्टर है। रिव्यू में पाया गया है कि सेफ़ AI इम्प्लीमेंटेशन प्रोक्योरमेंट प्रैक्टिस, इंटरऑपरेबिलिटी, स्टाफ ट्रेनिंग, लोकल वैलिडेशन, इन्फॉर्मेशन गवर्नेंस, ऑडिट प्लानिंग और क्लियर इंस्टीट्यूशनल रिस्पॉन्सिबिलिटी पर डिपेंड करता है। एक हॉस्पिटल जिसके पास समय के साथ AI सिस्टम को मॉनिटर करने के लिए इंफ्रास्ट्रक्चर की कमी है, वह रिस्क को मैनेज करने में तब भी इनेबल नहीं हो सकता जब टेक्नोलॉजी खुद प्रॉमिसिंग लगे।
मॉनिटरिंग की अभी भी काफी सलाह दी जाती है, लेकिन इसे ठीक से चलाया नहीं जा रहा है।
सबसे बड़ी चेतावनी यह है कि क्लिनिकल AI लिटरेचर जो सलाह देता है और जो असल में मैच्योर ऑपरेशनल सबूतों से सपोर्टेड है, उसके बीच का अंतर है। पोस्ट-डिप्लॉयमेंट मॉनिटरिंग को काफी हद तक ज़रूरी बताया जाता है, लेकिन एक्टिवेशन के बाद AI की मॉनिटरिंग के लिए प्रैक्टिकल सिस्टम अभी भी कम डेवलप, इनकंसिस्टेंट और कम स्टैंडर्डाइज़्ड हैं।
समस्या प्री-डिप्लॉयमेंट वैलिडेशन की सीमाओं से शुरू होती है। समय के साथ क्लिनिकल कंडीशन बदलती हैं। मरीज़ों की आबादी बदलती है। बीमारी का फैलाव बदलता है। कोडिंग के तरीके बदलते हैं। डिवाइस, स्कैनर और इलेक्ट्रॉनिक हेल्थ रिकॉर्ड सिस्टम अपडेट हो सकते हैं। AI टूल आने के बाद वर्कफ़्लो बदल सकते हैं। इन बदलावों से डेटासेट शिफ्ट, टेम्पोरल ड्रिफ्ट और मॉडल एजिंग हो सकती है, जिससे डिप्लॉयमेंट के बाद रिलायबिलिटी कम हो जाती है।
रिव्यू में पाया गया है कि परफॉर्मेंस में गिरावट कोई रेयर एज केस नहीं है, बल्कि बदलते हेल्थ सिस्टम में एक उम्मीद की जाने वाली चुनौती है। कैलिब्रेशन तब भी खराब हो सकता है जब डिस्क्रिमिनेशन मेट्रिक्स स्टेबल रहें, जिसका मतलब है कि एक मॉडल अभी भी मरीज़ों को लगभग सही ऑर्डर में रैंक कर सकता है, जबकि अनरिलायबल एब्सोल्यूट रिस्क एस्टीमेट दे सकता है। यह क्लिनिकल केयर में मायने रखता है क्योंकि फैसले अक्सर इस बात पर निर्भर करते हैं कि रिस्क एस्टीमेट ट्रीटमेंट थ्रेशहोल्ड को पार करते हैं या नहीं।
स्टडी में शामिल कई रिव्यू में रीकैलिब्रेशन, रीट्रेनिंग, रीफिटिंग, मॉडल सिलेक्शन और एन्सेम्बल अप्रोच जैसी स्ट्रेटेजी की जांच की गई। कोई भी यूनिवर्सली असरदार नहीं निकला। सही रिस्पॉन्स शिफ्ट के टाइप, उपलब्ध डेटा, क्लिनिकल सेटिंग और सिस्टम को अपडेट करने से पैदा होने वाले रिस्क पर निर्भर करता है। अगर कंट्रोल्ड चेंज मैनेजमेंट, रिग्रेशन टेस्टिंग और रिव्यू के बिना अपडेट किया जाता है, तो खुद अपडेट करने से नए रिस्क आ सकते हैं।
साइलेंट ट्रायल और शैडो-मोड टेस्टिंग को रेट्रोस्पेक्टिव वैलिडेशन और फुल क्लिनिकल एक्टिवेशन के बीच ज़रूरी ब्रिज के तौर पर पेश किया जाता है। इन इवैल्यूएशन में, AI सिस्टम को पेशेंट केयर पर असर डाले बिना असली क्लिनिकल एनवायरनमेंट में टेस्ट किया जाता है। इससे इंस्टीट्यूशन सिस्टम को फैसलों पर असर डालने देने से पहले लोकल परफॉर्मेंस, वर्कफ़्लो फिट, डेटा पाइपलाइन स्टेबिलिटी और रेडीनेस की जांच कर सकते हैं।
हालांकि, रिव्यू में पाया गया है कि ये डिप्लॉयमेंट-प्रॉक्सिमल इवैल्यूएशन अलग-अलग तरह के हैं। स्टडी टर्मिनोलॉजी, ड्यूरेशन, थ्रेशोल्ड एडजस्टमेंट, फेयरनेस चेक, वेरिफिकेशन मेथड और ह्यूमन फैक्टर पर ध्यान देने में अलग-अलग हैं। कई टेक्निकल परफॉर्मेंस पर फोकस करते हैं जबकि वर्कफ़्लो, गवर्नेंस, स्टेकहोल्डर एंगेजमेंट और सबग्रुप इम्पैक्ट पर कम ध्यान देते हैं।
फेयरनेस मॉनिटरिंग के लिए यह अंतर और भी ज़्यादा है। रिव्यू में पाया गया है कि फेयरनेस सर्विलांस की अक्सर सलाह दी जाती है, लेकिन इसे शायद ही कभी डिटेल में लागू किया जाता है। कई AI सिस्टम में सही डेमोग्राफिक रिपोर्टिंग, सबग्रुप वैलिडेशन या पोस्ट-मार्केट सर्विलांस स्ट्रक्चर की कमी होती है। मज़बूत सबग्रुप मॉनिटरिंग के बिना, हॉस्पिटल यह पता लगाने में फेल हो सकते हैं कि कोई AI टूल खास पेशेंट ग्रुप के लिए खराब परफॉर्म करता है या नहीं।
रिव्यू इसे एक नॉर्मेटिव-ऑपरेशनल गैप बताता है। भरोसेमंद AI के प्रिंसिपल उन्हें लागू करने के लिए ज़रूरी प्रैक्टिकल सिस्टम की तुलना में तेज़ी से आगे बढ़े हैं। गाइडेंस फ्रेमवर्क और रिपोर्टिंग स्टैंडर्ड ने ज़िम्मेदार AI की भाषा को बेहतर बनाया है, लेकिन हॉस्पिटल को अभी भी ठोस मेट्रिक्स, रिव्यू शेड्यूल, एक्शन के लिए थ्रेशहोल्ड, अकाउंटेबिलिटी स्ट्रक्चर और रिस्पॉन्स प्लान की ज़रूरत है।
लाइफसाइकल गवर्नेंस भरोसेमंद क्लिनिकल AI के लिए सेंट्रल बन जाता है
कुल मिलाकर, रिव्यू बताता है कि हेल्थकेयर AI गवर्नेंस को AI सिस्टम की पूरी लाइफ तक फैलाना चाहिए। रेगुलेटरी क्लीयरेंस, वेंडर क्लेम या शुरुआती वैलिडेशन को लंबे समय की सेफ्टी का काफी सबूत नहीं माना जा सकता। लोकल वैलिडेशन, मॉनिटरिंग, सबग्रुप ऑडिट, कंट्रोल्ड अपडेटिंग, इंसिडेंट रिव्यू और करेक्टिव एक्शन के ज़रिए भरोसे को बनाए रखना चाहिए।
लेखक क्लिनिकल AI रेडीनेस के लिए ज़रूरी सबूतों के तीन लेवल बताते हैं:
कॉन्सेप्चुअल रेडीनेस, जिसमें एथिकल प्रिंसिपल, रिपोर्टिंग स्टैंडर्ड, गवर्नेंस मॉडल और फेयरनेस, ट्रांसपेरेंसी, अकाउंटेबिलिटी और रोबस्टनेस पर सुझाव शामिल हैं। यह लेवल डिप्लॉयमेंट के लिए ज़रूरी है लेकिन काफी नहीं है।
डिप्लॉयमेंट-प्रॉक्सिमल रेडीनेस: इसमें लोकल वैलिडेशन, साइलेंट ट्रायल, शैडो टेस्टिंग, सिमुलेशन, ऑडिट और फुल एक्टिवेशन से पहले वर्कफ़्लो असेसमेंट शामिल हैं। ये स्टेप्स अनिश्चितता को कम करते हैं और यह पहचानने में मदद करते हैं कि टूल किसी खास सेटिंग में काम करेगा या नहीं।
ऑपरेशनल ट्रस्टवर्दीनेस: यह रियल-वर्ल्ड AI सेफ्टी को जज करने का सबसे मजबूत आधार है। इसके लिए एक्टिवेटेड सिस्टम से सबूत चाहिए जो लंबे समय तक मॉनिटरिंग, इंसिडेंट रिव्यू, सबग्रुप सर्विलांस, कंट्रोल्ड अपडेटिंग और रूटीन केयर में समय-समय पर रीअप्रेज़ल से गुज़र रहे हों। रिव्यू में पाया गया है कि यह लेवल अभी भी मौजूदा लिटरेचर में सबसे कम मैच्योर है।
इसलिए, गवर्नेंस की चुनौती टेक्निकल होने के साथ-साथ इंस्टीट्यूशनल भी है। हेल्थ सिस्टम को डिप्लॉयमेंट के बाद AI टूल्स की साफ ओनरशिप की ज़रूरत होती है। उन्हें ऐसे स्टाफ की ज़रूरत होती है जो परफॉर्मेंस सिग्नल रिव्यू कर सकें, डेटा टीम जो ड्रिफ्ट का पता लगा सकें, क्लिनिकल लीडर जो वर्कफ़्लो के असर का अंदाज़ा लगा सकें और गवर्नेंस बॉडी जिनके पास ज़रूरत पड़ने पर सिस्टम को रोकने, सस्पेंड करने, अपडेट करने या रिटायर करने का अधिकार हो।
रिव्यू में कई प्रैक्टिकल गवर्नेंस फंक्शन की पहचान की गई है। लोकल वैलिडेशन को एक्टिवेशन से पहले यह टेस्ट करना चाहिए कि सिस्टम टारगेट सेटिंग में काम करता है या नहीं। एक लिखे हुए मॉनिटरिंग प्लान में यह बताया जाना चाहिए कि किन मेट्रिक्स का रिव्यू किया जाएगा, कितनी बार, किसके द्वारा और किन एस्केलेशन नियमों के तहत। टेक्निकल सर्विलांस को कैलिब्रेशन, डिस्क्रिमिनेशन, सबग्रुप परफॉर्मेंस और अपडेट के बाद के असर को ट्रैक करना चाहिए। वर्कफ़्लो सर्विलांस को अलर्ट बर्डन, ओवरराइड, यूज़ेबिलिटी की चिंताओं और असुरक्षित भरोसे के संकेतों को मॉनिटर करना चाहिए। इंसिडेंट रिपोर्टिंग में नुकसान, लगभग चूक और अचानक हुए व्यवहार को कैप्चर करना चाहिए।
चेंज कंट्रोल खास तौर पर ज़रूरी है। जब कोई AI मॉडल अपडेट, रीकैलिब्रेट या रीट्रेन किया जाता है, तो रेगुलर इस्तेमाल जारी रखने से पहले बदलाव को डॉक्यूमेंट, टेस्ट और रिव्यू किया जाना चाहिए। वर्जन कंट्रोल और अकाउंटेबिलिटी के बिना, समय के साथ बेहतर होने वाला सिस्टम नई गलतियाँ ला सकता है या परफॉर्मेंस को कम प्रेडिक्टेबल बना सकता है।
रिव्यू रिटायरमेंट क्राइटेरिया की ज़रूरत पर भी ज़ोर देता है। अगर कोई AI सिस्टम लगातार टेक्निकल फेलियर, अनसुलझे सेफ्टी कंसर्न, असमान परफॉर्मेंस, वर्कफ़्लो में नुकसान या क्लिनिकल यूटिलिटी का नुकसान दिखाता है, तो हेल्थ सिस्टम को इसे रोकने या वापस लेने के लिए तैयार रहना चाहिए। जब ​​मॉनिटरिंग से पता चलता है कि कोई सिस्टम अब क्लिनिकल ज़रूरतों को पूरा नहीं करता है, तो लगातार डिप्लॉयमेंट डिफ़ॉल्ट नहीं होना चाहिए।
ये ज़रूरतें रिसोर्स-लिमिटेड हेल्थ सिस्टम के लिए मुश्किल हो सकती हैं। लाइफसाइकल गवर्नेंस में डेटा इंफ्रास्ट्रक्चर, इन्फॉर्मेटिक्स एक्सपर्टाइज़, क्लिनिकल ओवरसाइट, लीगल सपोर्ट, प्रोक्योरमेंट कैपेसिटी और रेगुलेटरी मैच्योरिटी तक एक्सेस की ज़रूरत होती है। छोटे हॉस्पिटल, ग्रामीण सिस्टम और कम रिसोर्स वाली सेटिंग्स को लगातार मॉनिटरिंग और सबग्रुप सर्विलांस बनाए रखने में मुश्किल हो सकती है। रिव्यू चेतावनी देता है कि मुख्य रूप से हाई-इनकम सेटिंग्स में डेवलप किए गए गवर्नेंस फ्रेमवर्क इम्प्लीमेंटेशन गैप को बढ़ा सकते हैं अगर उन्हें अलग-अलग हेल्थ-सिस्टम कैपेसिटी के हिसाब से अडैप्ट नहीं किया जाता है।
नतीजे बताते हैं कि इस्तेमाल हो रहे क्लिनिकल AI की मॉनिटरिंग के लिए मज़बूत पोस्ट-मार्केट ओवरसाइट और साफ़ स्टैंडर्ड की ज़रूरत है। अस्पतालों के लिए, मैसेज यह है कि AI की भरोसेमंदता को वेंडर्स को आउटसोर्स नहीं किया जा सकता या पब्लिश्ड परफॉर्मेंस से नहीं माना जा सकता। इसे इंस्टीट्यूशनल रूटीन में शामिल किया जाना चाहिए।
आगे के काम को इस बात से आगे बढ़ना होगा कि मॉनिटरिंग ज़रूरी है और इस बात के सबूत देने होंगे कि मॉनिटरिंग कैसे की जानी चाहिए। स्टडीज़ में यह बताया जाना चाहिए कि कौन से मेट्रिक्स एक्शन को ट्रिगर करते हैं, सबग्रुप परफॉर्मेंस का ऑडिट कैसे किया जाना चाहिए, वर्कफ़्लो के नुकसान को कैसे मापा जाना चाहिए, और लाइव क्लिनिकल सेटिंग्स में अपडेट को कैसे कंट्रोल किया जाना चाहिए।
Next Story