- Home
- /
- अन्य खबरें
- /
- सम्पादकीय
- /
- क्लिनिकल AI की...

x
क्लिनिकल AI की विश्वसनीयता एक लाइफ़साइकल चुनौती
हेल्थकेयर में पब्लिश एक स्कोपिंग रिव्यू के मुताबिक, क्लिनिकल AI लैब से आगे बढ़कर एक मुश्किल स्टेज में जा रहा है, जहाँ हेल्थ सिस्टम को यह देखना होगा कि डिप्लॉय किए गए टूल्स सुरक्षित, सही और असरदार तरीके से काम कर रहे हैं या नहीं।
"बियॉन्ड मॉडल डेवलपमेंट इन हेल्थकेयर AI: पोस्ट-डेवलपमेंट रोबस्टनेस, पोस्ट-डिप्लॉयमेंट मॉनिटरिंग, एंड लाइफसाइकल गवर्नेंस: ए स्कोपिंग रिव्यू ऑफ़ रिव्यूज़" नाम की स्टडी में पाया गया है कि भरोसेमंद क्लिनिकल AI को एक बार की टेक्निकल अचीवमेंट नहीं माना जा सकता है, बल्कि इसे लोकल वैलिडेशन और साइलेंट टेस्टिंग से लेकर मॉनिटरिंग, अपडेटिंग, इंसिडेंट रिस्पॉन्स और केयर से संभावित विड्रॉल तक, इसकी पूरी लाइफसाइकल में कंट्रोल किया जाना चाहिए।
हेल्थकेयर AI रिस्क मॉडल की सटीकता से कहीं ज़्यादा हैं
यह रिव्यू क्लिनिकल AI सेफ्टी के उस छोटे नज़रिए को चुनौती देता है जो मुख्य रूप से इस बात पर फोकस करता है कि कोई मॉडल डेवलपमेंट या रेट्रोस्पेक्टिव वैलिडेशन के दौरान अच्छा काम करता है या नहीं। रिव्यू किए गए सबूत बताते हैं कि डेवलपमेंट डेटासेट में अच्छा परफॉर्मेंस इस बात की गारंटी नहीं देता कि कोई AI सिस्टम असली अस्पतालों, क्लीनिकों और केयर पाथवे में एम्बेड होने के बाद सुरक्षित, बराबर या क्लिनिकली उपयोगी बना रहेगा।
मुख्य मुद्दा यह है कि क्लिनिकल AI सोशियो-टेक्निकल सिस्टम के अंदर काम करता है। एक मॉडल का परफॉर्मेंस सिर्फ़ कोड और ट्रेनिंग डेटा पर ही नहीं, बल्कि मरीज़ों की आबादी, हॉस्पिटल के वर्कफ़्लो, क्लिनिकल बिहेवियर, डेटा इंफ्रास्ट्रक्चर, यूज़र इंटरफ़ेस, गवर्नेंस सिस्टम और स्टाफ़ की समस्याओं का पता लगाने और उन पर रिस्पॉन्ड करने की क्षमता पर भी निर्भर करता है। एक मॉडल जो टेस्टिंग में सही लगता है, वह फ़ेल हो सकता है अगर उसे लोकल आबादी के लिए ठीक से कैलिब्रेट नहीं किया गया हो, गलत वर्कफ़्लो में रखा गया हो, डॉक्टरों ने उसे गलत समझा हो या देखभाल की स्थिति बदलने पर उसे मॉनिटर न किया गया हो।
रिव्यू में कई बार-बार होने वाले रिस्क एरिया की पहचान की गई है। इनमें फेयरनेस, ट्रांसपेरेंसी, एक्सप्लेनेबिलिटी, डेमोग्राफिक रिप्रेजेंटेशन, प्राइवेसी, सिक्योरिटी, वर्कफ़्लो फ़िट, ह्यूमन ओवरसाइट और ऑर्गेनाइज़ेशनल रेडीनेस शामिल हैं। ये फ़ैक्टर तय करते हैं कि डेवलपमेंट के बाद AI पर भरोसा किया जा सकता है या नहीं। लेखकों का तर्क है कि रोबस्टनेस को एक फिक्स्ड मॉडल प्रॉपर्टी के तौर पर नहीं समझा जाना चाहिए, बल्कि एक कॉन्टेक्स्ट-डिपेंडेंट फ़ीचर के तौर पर समझा जाना चाहिए जो टेक्नोलॉजी और क्लिनिकल एनवायरनमेंट के बीच इंटरेक्शन से सामने आता है।
ह्यूमन-AI इंटरेक्शन सबसे ज़रूरी चिंताओं में से एक है। AI टूल्स इस बात पर असर डाल सकते हैं कि डॉक्टर कैसे फ़ैसले लेते हैं, खासकर जब एल्गोरिदमिक आउटपुट ऑथेंटिक लगते हैं। रिव्यू किए गए लिटरेचर में ऑटोमेशन बायस, AI रिकमेन्डेशन पर बहुत ज़्यादा डिपेंडेंस, अलर्ट फटीग, क्रिटिकल स्क्रूटनी में कमी, ओमिशन एरर और कमीशन एरर जैसे रिस्क बताए गए हैं। हाई-प्रेशर क्लिनिकल सेटिंग्स में, टेक्निकली मज़बूत सिस्टम भी नुकसान पहुंचा सकता है अगर उसके आउटपुट को बिना सही वेरिफिकेशन के फॉलो किया जाए।
GenAI और LLMs और कॉम्प्लेक्सिटी बढ़ाते हैं। ये टूल्स डॉक्यूमेंटेशन, कम्युनिकेशन और क्लिनिकल सपोर्ट को बेहतर बना सकते हैं, लेकिन वे फ्लूएंट लेकिन गलत आउटपुट भी दे सकते हैं। रिव्यू में पाया गया है कि इंसानी ओवरसाइट से यह प्रॉब्लम अपने आप सॉल्व नहीं हो सकती। ओवरसाइट को ऐसे वर्कफ़्लो से डिज़ाइन, ट्रेन, ऑडिट और सपोर्ट किया जाना चाहिए जो क्लिनिशियन को ज़रूरत पड़ने पर AI रिकमेन्डेशन को चैलेंज करने, वेरिफाई करने और ओवरराइड करने की इजाज़त दें।
ऑर्गेनाइज़ेशनल रेडीनेस एक और बड़ा फैक्टर है। रिव्यू में पाया गया है कि सेफ़ AI इम्प्लीमेंटेशन प्रोक्योरमेंट प्रैक्टिस, इंटरऑपरेबिलिटी, स्टाफ ट्रेनिंग, लोकल वैलिडेशन, इन्फॉर्मेशन गवर्नेंस, ऑडिट प्लानिंग और क्लियर इंस्टीट्यूशनल रिस्पॉन्सिबिलिटी पर डिपेंड करता है। एक हॉस्पिटल जिसके पास समय के साथ AI सिस्टम को मॉनिटर करने के लिए इंफ्रास्ट्रक्चर की कमी है, वह रिस्क को मैनेज करने में तब भी इनेबल नहीं हो सकता जब टेक्नोलॉजी खुद प्रॉमिसिंग लगे।
मॉनिटरिंग की अभी भी काफी सलाह दी जाती है, लेकिन इसे ठीक से चलाया नहीं जा रहा है।
सबसे बड़ी चेतावनी यह है कि क्लिनिकल AI लिटरेचर जो सलाह देता है और जो असल में मैच्योर ऑपरेशनल सबूतों से सपोर्टेड है, उसके बीच का अंतर है। पोस्ट-डिप्लॉयमेंट मॉनिटरिंग को काफी हद तक ज़रूरी बताया जाता है, लेकिन एक्टिवेशन के बाद AI की मॉनिटरिंग के लिए प्रैक्टिकल सिस्टम अभी भी कम डेवलप, इनकंसिस्टेंट और कम स्टैंडर्डाइज़्ड हैं।
समस्या प्री-डिप्लॉयमेंट वैलिडेशन की सीमाओं से शुरू होती है। समय के साथ क्लिनिकल कंडीशन बदलती हैं। मरीज़ों की आबादी बदलती है। बीमारी का फैलाव बदलता है। कोडिंग के तरीके बदलते हैं। डिवाइस, स्कैनर और इलेक्ट्रॉनिक हेल्थ रिकॉर्ड सिस्टम अपडेट हो सकते हैं। AI टूल आने के बाद वर्कफ़्लो बदल सकते हैं। इन बदलावों से डेटासेट शिफ्ट, टेम्पोरल ड्रिफ्ट और मॉडल एजिंग हो सकती है, जिससे डिप्लॉयमेंट के बाद रिलायबिलिटी कम हो जाती है।
रिव्यू में पाया गया है कि परफॉर्मेंस में गिरावट कोई रेयर एज केस नहीं है, बल्कि बदलते हेल्थ सिस्टम में एक उम्मीद की जाने वाली चुनौती है। कैलिब्रेशन तब भी खराब हो सकता है जब डिस्क्रिमिनेशन मेट्रिक्स स्टेबल रहें, जिसका मतलब है कि एक मॉडल अभी भी मरीज़ों को लगभग सही ऑर्डर में रैंक कर सकता है, जबकि अनरिलायबल एब्सोल्यूट रिस्क एस्टीमेट दे सकता है। यह क्लिनिकल केयर में मायने रखता है क्योंकि फैसले अक्सर इस बात पर निर्भर करते हैं कि रिस्क एस्टीमेट ट्रीटमेंट थ्रेशहोल्ड को पार करते हैं या नहीं।
स्टडी में शामिल कई रिव्यू में रीकैलिब्रेशन, रीट्रेनिंग, रीफिटिंग, मॉडल सिलेक्शन और एन्सेम्बल अप्रोच जैसी स्ट्रेटेजी की जांच की गई। कोई भी यूनिवर्सली असरदार नहीं निकला। सही रिस्पॉन्स शिफ्ट के टाइप, उपलब्ध डेटा, क्लिनिकल सेटिंग और सिस्टम को अपडेट करने से पैदा होने वाले रिस्क पर निर्भर करता है। अगर कंट्रोल्ड चेंज मैनेजमेंट, रिग्रेशन टेस्टिंग और रिव्यू के बिना अपडेट किया जाता है, तो खुद अपडेट करने से नए रिस्क आ सकते हैं।
साइलेंट ट्रायल और शैडो-मोड टेस्टिंग को रेट्रोस्पेक्टिव वैलिडेशन और फुल क्लिनिकल एक्टिवेशन के बीच ज़रूरी ब्रिज के तौर पर पेश किया जाता है। इन इवैल्यूएशन में, AI सिस्टम को पेशेंट केयर पर असर डाले बिना असली क्लिनिकल एनवायरनमेंट में टेस्ट किया जाता है। इससे इंस्टीट्यूशन सिस्टम को फैसलों पर असर डालने देने से पहले लोकल परफॉर्मेंस, वर्कफ़्लो फिट, डेटा पाइपलाइन स्टेबिलिटी और रेडीनेस की जांच कर सकते हैं।
हालांकि, रिव्यू में पाया गया है कि ये डिप्लॉयमेंट-प्रॉक्सिमल इवैल्यूएशन अलग-अलग तरह के हैं। स्टडी टर्मिनोलॉजी, ड्यूरेशन, थ्रेशोल्ड एडजस्टमेंट, फेयरनेस चेक, वेरिफिकेशन मेथड और ह्यूमन फैक्टर पर ध्यान देने में अलग-अलग हैं। कई टेक्निकल परफॉर्मेंस पर फोकस करते हैं जबकि वर्कफ़्लो, गवर्नेंस, स्टेकहोल्डर एंगेजमेंट और सबग्रुप इम्पैक्ट पर कम ध्यान देते हैं।
फेयरनेस मॉनिटरिंग के लिए यह अंतर और भी ज़्यादा है। रिव्यू में पाया गया है कि फेयरनेस सर्विलांस की अक्सर सलाह दी जाती है, लेकिन इसे शायद ही कभी डिटेल में लागू किया जाता है। कई AI सिस्टम में सही डेमोग्राफिक रिपोर्टिंग, सबग्रुप वैलिडेशन या पोस्ट-मार्केट सर्विलांस स्ट्रक्चर की कमी होती है। मज़बूत सबग्रुप मॉनिटरिंग के बिना, हॉस्पिटल यह पता लगाने में फेल हो सकते हैं कि कोई AI टूल खास पेशेंट ग्रुप के लिए खराब परफॉर्म करता है या नहीं।
रिव्यू इसे एक नॉर्मेटिव-ऑपरेशनल गैप बताता है। भरोसेमंद AI के प्रिंसिपल उन्हें लागू करने के लिए ज़रूरी प्रैक्टिकल सिस्टम की तुलना में तेज़ी से आगे बढ़े हैं। गाइडेंस फ्रेमवर्क और रिपोर्टिंग स्टैंडर्ड ने ज़िम्मेदार AI की भाषा को बेहतर बनाया है, लेकिन हॉस्पिटल को अभी भी ठोस मेट्रिक्स, रिव्यू शेड्यूल, एक्शन के लिए थ्रेशहोल्ड, अकाउंटेबिलिटी स्ट्रक्चर और रिस्पॉन्स प्लान की ज़रूरत है।
लाइफसाइकल गवर्नेंस भरोसेमंद क्लिनिकल AI के लिए सेंट्रल बन जाता है
कुल मिलाकर, रिव्यू बताता है कि हेल्थकेयर AI गवर्नेंस को AI सिस्टम की पूरी लाइफ तक फैलाना चाहिए। रेगुलेटरी क्लीयरेंस, वेंडर क्लेम या शुरुआती वैलिडेशन को लंबे समय की सेफ्टी का काफी सबूत नहीं माना जा सकता। लोकल वैलिडेशन, मॉनिटरिंग, सबग्रुप ऑडिट, कंट्रोल्ड अपडेटिंग, इंसिडेंट रिव्यू और करेक्टिव एक्शन के ज़रिए भरोसे को बनाए रखना चाहिए।
लेखक क्लिनिकल AI रेडीनेस के लिए ज़रूरी सबूतों के तीन लेवल बताते हैं:
कॉन्सेप्चुअल रेडीनेस, जिसमें एथिकल प्रिंसिपल, रिपोर्टिंग स्टैंडर्ड, गवर्नेंस मॉडल और फेयरनेस, ट्रांसपेरेंसी, अकाउंटेबिलिटी और रोबस्टनेस पर सुझाव शामिल हैं। यह लेवल डिप्लॉयमेंट के लिए ज़रूरी है लेकिन काफी नहीं है।
डिप्लॉयमेंट-प्रॉक्सिमल रेडीनेस: इसमें लोकल वैलिडेशन, साइलेंट ट्रायल, शैडो टेस्टिंग, सिमुलेशन, ऑडिट और फुल एक्टिवेशन से पहले वर्कफ़्लो असेसमेंट शामिल हैं। ये स्टेप्स अनिश्चितता को कम करते हैं और यह पहचानने में मदद करते हैं कि टूल किसी खास सेटिंग में काम करेगा या नहीं।
ऑपरेशनल ट्रस्टवर्दीनेस: यह रियल-वर्ल्ड AI सेफ्टी को जज करने का सबसे मजबूत आधार है। इसके लिए एक्टिवेटेड सिस्टम से सबूत चाहिए जो लंबे समय तक मॉनिटरिंग, इंसिडेंट रिव्यू, सबग्रुप सर्विलांस, कंट्रोल्ड अपडेटिंग और रूटीन केयर में समय-समय पर रीअप्रेज़ल से गुज़र रहे हों। रिव्यू में पाया गया है कि यह लेवल अभी भी मौजूदा लिटरेचर में सबसे कम मैच्योर है।
इसलिए, गवर्नेंस की चुनौती टेक्निकल होने के साथ-साथ इंस्टीट्यूशनल भी है। हेल्थ सिस्टम को डिप्लॉयमेंट के बाद AI टूल्स की साफ ओनरशिप की ज़रूरत होती है। उन्हें ऐसे स्टाफ की ज़रूरत होती है जो परफॉर्मेंस सिग्नल रिव्यू कर सकें, डेटा टीम जो ड्रिफ्ट का पता लगा सकें, क्लिनिकल लीडर जो वर्कफ़्लो के असर का अंदाज़ा लगा सकें और गवर्नेंस बॉडी जिनके पास ज़रूरत पड़ने पर सिस्टम को रोकने, सस्पेंड करने, अपडेट करने या रिटायर करने का अधिकार हो।
रिव्यू में कई प्रैक्टिकल गवर्नेंस फंक्शन की पहचान की गई है। लोकल वैलिडेशन को एक्टिवेशन से पहले यह टेस्ट करना चाहिए कि सिस्टम टारगेट सेटिंग में काम करता है या नहीं। एक लिखे हुए मॉनिटरिंग प्लान में यह बताया जाना चाहिए कि किन मेट्रिक्स का रिव्यू किया जाएगा, कितनी बार, किसके द्वारा और किन एस्केलेशन नियमों के तहत। टेक्निकल सर्विलांस को कैलिब्रेशन, डिस्क्रिमिनेशन, सबग्रुप परफॉर्मेंस और अपडेट के बाद के असर को ट्रैक करना चाहिए। वर्कफ़्लो सर्विलांस को अलर्ट बर्डन, ओवरराइड, यूज़ेबिलिटी की चिंताओं और असुरक्षित भरोसे के संकेतों को मॉनिटर करना चाहिए। इंसिडेंट रिपोर्टिंग में नुकसान, लगभग चूक और अचानक हुए व्यवहार को कैप्चर करना चाहिए।
चेंज कंट्रोल खास तौर पर ज़रूरी है। जब कोई AI मॉडल अपडेट, रीकैलिब्रेट या रीट्रेन किया जाता है, तो रेगुलर इस्तेमाल जारी रखने से पहले बदलाव को डॉक्यूमेंट, टेस्ट और रिव्यू किया जाना चाहिए। वर्जन कंट्रोल और अकाउंटेबिलिटी के बिना, समय के साथ बेहतर होने वाला सिस्टम नई गलतियाँ ला सकता है या परफॉर्मेंस को कम प्रेडिक्टेबल बना सकता है।
रिव्यू रिटायरमेंट क्राइटेरिया की ज़रूरत पर भी ज़ोर देता है। अगर कोई AI सिस्टम लगातार टेक्निकल फेलियर, अनसुलझे सेफ्टी कंसर्न, असमान परफॉर्मेंस, वर्कफ़्लो में नुकसान या क्लिनिकल यूटिलिटी का नुकसान दिखाता है, तो हेल्थ सिस्टम को इसे रोकने या वापस लेने के लिए तैयार रहना चाहिए। जब मॉनिटरिंग से पता चलता है कि कोई सिस्टम अब क्लिनिकल ज़रूरतों को पूरा नहीं करता है, तो लगातार डिप्लॉयमेंट डिफ़ॉल्ट नहीं होना चाहिए।
ये ज़रूरतें रिसोर्स-लिमिटेड हेल्थ सिस्टम के लिए मुश्किल हो सकती हैं। लाइफसाइकल गवर्नेंस में डेटा इंफ्रास्ट्रक्चर, इन्फॉर्मेटिक्स एक्सपर्टाइज़, क्लिनिकल ओवरसाइट, लीगल सपोर्ट, प्रोक्योरमेंट कैपेसिटी और रेगुलेटरी मैच्योरिटी तक एक्सेस की ज़रूरत होती है। छोटे हॉस्पिटल, ग्रामीण सिस्टम और कम रिसोर्स वाली सेटिंग्स को लगातार मॉनिटरिंग और सबग्रुप सर्विलांस बनाए रखने में मुश्किल हो सकती है। रिव्यू चेतावनी देता है कि मुख्य रूप से हाई-इनकम सेटिंग्स में डेवलप किए गए गवर्नेंस फ्रेमवर्क इम्प्लीमेंटेशन गैप को बढ़ा सकते हैं अगर उन्हें अलग-अलग हेल्थ-सिस्टम कैपेसिटी के हिसाब से अडैप्ट नहीं किया जाता है।
नतीजे बताते हैं कि इस्तेमाल हो रहे क्लिनिकल AI की मॉनिटरिंग के लिए मज़बूत पोस्ट-मार्केट ओवरसाइट और साफ़ स्टैंडर्ड की ज़रूरत है। अस्पतालों के लिए, मैसेज यह है कि AI की भरोसेमंदता को वेंडर्स को आउटसोर्स नहीं किया जा सकता या पब्लिश्ड परफॉर्मेंस से नहीं माना जा सकता। इसे इंस्टीट्यूशनल रूटीन में शामिल किया जाना चाहिए।
आगे के काम को इस बात से आगे बढ़ना होगा कि मॉनिटरिंग ज़रूरी है और इस बात के सबूत देने होंगे कि मॉनिटरिंग कैसे की जानी चाहिए। स्टडीज़ में यह बताया जाना चाहिए कि कौन से मेट्रिक्स एक्शन को ट्रिगर करते हैं, सबग्रुप परफॉर्मेंस का ऑडिट कैसे किया जाना चाहिए, वर्कफ़्लो के नुकसान को कैसे मापा जाना चाहिए, और लाइव क्लिनिकल सेटिंग्स में अपडेट को कैसे कंट्रोल किया जाना चाहिए।
Next Story





