एजेंटिक AI को साइंस में भरोसेमंद होने से पहले सबूतों पर आधारित सुरक्षा की ज़रूरत

Breaking

Home
/
अन्य खबरें
/
सम्पादकीय
/
एजेंटिक AI को साइंस...

पहले सबूतों पर आधारित सुरक्षा की ज़रूरत

एजेंटिक AI मुश्किल वर्कफ़्लो को कोऑर्डिनेट करके, सबूत निकालकर, डेटा निकालकर और रेगुलेटरी फैसलों को सपोर्ट करके साइंटिफिक रिसर्च को नया आकार दे सकता है, लेकिन हाई-स्टेक्स साइंस में इसका इस्तेमाल सिर्फ़ स्पीड पर नहीं, बल्कि भरोसे पर निर्भर करता है।

फ्रंटियर्स इन आर्टिफिशियल इंटेलिजेंस में छपा एक पर्सपेक्टिव आर्टिकल, जिसका टाइटल है एविडेंस-बेस्ड AI: फ्रॉम ट्रेलब्लेज़र टू ट्रस्टब्लेज़र?, एजेंटिक AI को ऑडिटेबल, रिप्रोड्यूसिबल और अकाउंटेबल बनाने के लिए एक फ्रेमवर्क पेश करता है। एविडेंस-बेस्ड मेडिसिन और एविडेंस-बेस्ड टॉक्सिकोलॉजी के आधार पर, आर्टिकल में कहा गया है कि रेगुलेटरी साइंस में भविष्य के AI सिस्टम को यह दिखाने के लिए बनाया जाना चाहिए कि सबूत कहाँ से आए, उनका मूल्यांकन कैसे किया गया, अनिश्चितता को कैसे हैंडल किया गया और इंसानी ज़िम्मेदारी कहाँ बनी हुई है।

साइंस में एजेंटिक AI के लिए भरोसा मुख्य रुकावट बन जाता है

GenAI ने रिसर्चर्स को टेक्स्ट ड्राफ्ट करने, कोड लिखने, लिटरेचर सॉर्ट करने और हाइपोथीसिस बनाने में मदद करके पहले ही साइंटिफिक काम को तेज़ कर दिया है। एजेंटिक AI इससे भी आगे जाता है। ये सिस्टम प्लान बना सकते हैं, बाहरी टूल्स को कॉल कर सकते हैं, स्पेशलाइज़्ड सब-एजेंट्स को कोऑर्डिनेट कर सकते हैं और ऐसे मल्टी-स्टेप टास्क कर सकते हैं जो साइंटिफिक वर्कफ़्लो के हिस्सों जैसे लगते हैं। यह क्षमता रिसर्चर्स को टॉक्सिकोलॉजी, रेगुलेटरी साइंस, मेडिसिन और एनवायर्नमेंटल हेल्थ में सबूतों से भरे काम को मैनेज करने में मदद कर सकती है। असल दुनिया में, एजेंटिक सिस्टम लिटरेचर के बड़े हिस्से खोज सकते हैं, स्टडीज़ को स्क्रीन कर सकते हैं, डेटा निकाल सकते हैं, बायस के रिस्क का अंदाज़ा लगा सकते हैं, नतीजों को सिंथेसाइज़ कर सकते हैं, डिसीजन टेबल बना सकते हैं और नए सबूत मिलने पर नतीजों को अपडेट कर सकते हैं।

मौके बहुत हैं, और रिस्क भी। एक लंबे AI वर्कफ़्लो में कोई गलती बाद के स्टेप्स में फैल सकती है और एक फ़ाइनल रिकमेंडेशन दे सकती है जो सही, पॉलिश्ड और ऑथेंटिक लगे। एक छूटी हुई स्टडी, कमज़ोर सोर्स, गलत एक्सट्रैक्शन या खराब रिस्क असेसमेंट का पता लगाना तब और मुश्किल हो सकता है जब उसे एक फ़्लूएंट समरी में लपेट दिया जाए। हाई-स्टेक सेटिंग्स में, एक काम के AI सिस्टम को सिर्फ़ भरोसेमंद टेक्स्ट बनाने से ज़्यादा कुछ करना होता है। इसे ट्रेसेबिलिटी बनाए रखनी चाहिए, अपने वर्कफ़्लो को तय कंडीशन में रिप्रोड्यूसिबल बनाना चाहिए, इस्तेमाल के बताए गए कॉन्टेक्स्ट में फ़िट होना चाहिए और अनिश्चितता को साफ़ तौर पर बताना चाहिए।

स्टडी चेतावनी देती है कि साइंस सिर्फ़ ऐसे AI सिस्टम पर भरोसा नहीं कर सकता जो सिर्फ़ भरोसेमंद लगते हैं। एक मॉडल ब्रेनस्टॉर्मिंग या शुरुआती ड्राफ्टिंग के लिए काम का हो सकता है, लेकिन यह पब्लिक हेल्थ, एनवायरनमेंटल सेफ्टी या रेगुलेटरी फैसलों को सपोर्ट करने के लिए तैयार नहीं है, जब तक कि इसके एविडेंस ट्रेल की जांच न की जा सके।

रिसर्चर्स ने इस बदलाव को मैनेज करने के लिए एविडेंस-बेस्ड मेडिसिन और एविडेंस-बेस्ड टॉक्सिकोलॉजी को प्रूवन मॉडल के तौर पर पहचाना है। दोनों फील्ड्स ने सेलेक्टिव साइटेशन, एक्सपर्ट ओवरकॉन्फिडेंस और परसुएसिव लेकिन कमजोर सपोर्टेड नैरेटिव्स को कम करने के तरीके डेवलप किए हैं। उनकी ताकत डिसिप्लिन्ड प्रोसेस में है: पहले से तय सवाल, रिप्रोड्यूसिबल सर्च, ट्रांसपेरेंट इनक्लूजन क्राइटेरिया, स्ट्रक्चर्ड डेटा एक्सट्रैक्शन, रिस्क-ऑफ-बायस अप्रेजल, ग्रेडेड सर्टेनिटी और एविडेंस से फैसलों तक क्लियर मूवमेंट।

एजेंटिक AI तब वैल्यूएबल हो जाता है जब वह उन तरीकों को एग्जीक्यूटेबल इंफ्रास्ट्रक्चर में बदल सकता है। एक मॉडल को ओपेक इंटरनल रीज़निंग से एक बड़ा जवाब देने की इजाज़त देने के बजाय, एक ट्रस्टवर्दी सिस्टम टास्क को तय स्टेप्स में बांटेगा और हर स्टेज पर एक रिकॉर्ड सेव करेगा। रिसर्चर्स इस ट्रांज़िशन को ट्रेलब्लेज़िंग से ट्रस्टब्लेज़िंग की ओर एक मूव के तौर पर बताते हैं। ट्रेलब्लेज़िंग AI नॉवेल्टी, कैपेबिलिटी और स्पीड को प्रायोरिटी देता है। ट्रस्टब्लेज़िंग AI, प्रोवेंस, वैलिडेशन, अनिश्चितता, डॉक्यूमेंटेशन और इंसानी जवाबदेही को डिज़ाइन के सेंटर में रखता है।

एविडेंस-बेस्ड एजेंट स्टैक AI वर्कफ़्लो को ऑडिटेबल बना सकते हैं।

आर्टिकल में एविडेंस-बेस्ड एजेंट स्टैक का प्रस्ताव है, जो एक मॉड्यूलर आर्किटेक्चर है जिसमें स्पेशलाइज़्ड AI एजेंट एक एविडेंस वर्कफ़्लो के अंदर छोटी भूमिकाएँ निभाते हैं। हर एजेंट स्ट्रक्चर्ड आउटपुट बनाता है जिसे अगले स्टेप पर जाने से पहले रिव्यू किया जा सकता है। स्टैक एक प्रोटोकॉल एजेंट से शुरू होता है, जिसका रोल रिसर्च सवाल को एक तय प्रोटोकॉल में बदलना है, जिसमें पॉपुलेशन, एक्सपोज़र या इंटरवेंशन, कम्पेरेटर, नतीजे, एलिजिबल स्टडी टाइप और एनालिसिस प्लान शामिल हैं। यह स्टेप एविडेंस स्क्रीनिंग शुरू होने से पहले सवाल और क्राइटेरिया को लॉक करने के लिए डिज़ाइन किया गया है, जिससे नतीजे आने के बाद नतीजों के बनने का रिस्क कम हो जाता है।

फिर एक रिट्रीवल एजेंट रिट्रीवल-ऑगमेंटेड जेनरेशन का इस्तेमाल करके अप्रूव्ड सोर्स खोजता है। यह आउटपुट को सिर्फ़ मॉडल मेमोरी के बजाय साइटेबल पैसेज में ग्राउंडेड रखता है। एक स्क्रीनिंग एजेंट इनक्लूजन और एक्सक्लूजन क्राइटेरिया लागू करता है और रिकॉर्ड करता है कि एविडेंस क्यों एक्सेप्ट या रिजेक्ट किया गया है। एक एक्सट्रैक्शन एजेंट पहले से तय फ़ील्ड को कैप्चर करता है और अंदाज़े से गैप भरने के बजाय, मिसिंग जानकारी को रिपोर्ट नहीं किया गया मार्क करता है।

एक रिस्क-ऑफ़-बायस एजेंट पहले से तय फ्रेमवर्क का इस्तेमाल करके स्टडी की क्रेडिबिलिटी के मूल्यांकन में मदद करता है। आर्टिकल इसे एक ज़रूरी कदम मानता है क्योंकि कमज़ोर सबूत आगे आने वाली हर चीज़ को बिगाड़ सकते हैं। रिस्क-ऑफ़-बायस काम कॉन्टेक्स्ट-सेंसिटिव रहता है, इसलिए एजेंट का रोल मदद करना, सबूत जोड़ना और कंसिस्टेंसी चेक करना है, फ़ाइनल फ़ैसला नहीं।

स्टैक में सिंथेसिस, मैकेनिज़्म और कॉज़ैलिटी, अनिश्चितता, और सबूत-से-फ़ैसले ट्रांसलेशन के लिए एजेंट भी शामिल हैं। इन कंपोनेंट का मकसद रॉ सबूत को इंटरप्रेटेटिव सबूतों से अलग रखना है।

एविडेंस-टू-डिसीजन एजेंट, एविडेंस से रिकमेन्डेशन तक फाइनल मूवमेंट को हैंडल करता है। इस स्टेप के लिए साफ क्राइटेरिया की ज़रूरत होती है क्योंकि सिर्फ साइंटिफिक एविडेंस पॉलिसी तय नहीं करते हैं। ट्रेड-ऑफ, फीजिबिलिटी, एक्सेप्टेबिलिटी, वैल्यू और जिम्मेदारी को डॉक्यूमेंट किया जाना चाहिए, और फाइनल अकाउंटेबिलिटी इंसानों के हाथों में ही रहनी चाहिए।

पूरे स्टैक में, एक नियम नॉन-नेगोशिएबल है: कोई अनट्रेसेबल क्लेम नहीं। हर एक्सट्रैक्टेड फैक्ट, खासकर न्यूमेरिकल वैल्यू, एक सोर्स से लिंक होनी चाहिए। हर इनफेरेंस को डायरेक्ट एविडेंस के बजाय इंटरप्रिटेशन के तौर पर लेबल किया जाना चाहिए। हर मॉडल वर्जन, प्रॉम्प्ट, स्कीमा, कॉर्पस, रिट्रीवल सेटिंग और टूल कॉन्फ़िगरेशन को रिकॉर्ड किया जाना चाहिए।

वर्जनिंग का यह लेवल मायने रखता है क्योंकि एजेंटिक AI सिस्टम सिंगल टूल नहीं हैं, वे कम्पोजिट पाइपलाइन हैं। मॉडल वेट, प्रॉम्प्ट, रिट्रीवल सेटिंग, चंकिंग रूल, एक्सट्रैक्शन स्कीम और पोस्ट-प्रोसेसिंग लॉजिक सभी फाइनल आउटपुट पर असर डाल सकते हैं। वर्जन कंट्रोल के बिना, बदला हुआ रिजल्ट एविडेंस में असली बदलाव के बजाय पाइपलाइन ड्रिफ्ट को दिखा सकता है।

आर्टिकल ऑटोमेशन ट्रैप को भी फ्लैग करता है। प्रॉम्प्ट इंजीनियरिंग वैलिडेशन का आभास दे सकती है, जब किसी सिस्टम को बार-बार छोटे या आसान डेटासेट पर ट्यून किया जाता है और फिर वैसे ही मटीरियल पर टेस्ट किया जाता है। इससे परफॉर्मेंस बढ़ सकती है और कमजोरियां छिप सकती हैं। हाई-स्टेक एविडेंस वर्क के लिए, प्रॉम्प्ट, स्कीमा, रिट्रीवल सेटिंग्स और पोस्ट-प्रोसेसिंग को मॉडल का हिस्सा माना जाना चाहिए और टेस्टिंग से पहले लॉक कर देना चाहिए।

इवैल्यूएशन भी खास काम से मेल खाना चाहिए। स्टडी स्क्रीनिंग के लिए इस्तेमाल होने वाले सिस्टम को बहुत ज़्यादा रिकॉल की ज़रूरत हो सकती है। न्यूमेरिकल वैल्यू निकालने वाले सिस्टम को सख्त एक्यूरेसी की ज़रूरत हो सकती है। रेगुलेटरी टॉक्सिकोलॉजी में मदद करने वाले सिस्टम को सबूत साफ़ न होने पर कंज़र्वेटिव एस्केलेशन की ज़रूरत हो सकती है। जनरल बेंचमार्क हर साइंटिफिक सेटिंग के लिए तैयारी तय नहीं कर सकते।

लेखक यह भी बताते हैं कि बड़े मॉडल हर काम के लिए अपने आप सबसे अच्छा ऑप्शन नहीं होते हैं। जब मज़बूत डेटासेट मौजूद हों, तो छोटे या ज़्यादा स्पेशलाइज़्ड मॉडल स्ट्रक्चर्ड डोमेन में बड़े लैंग्वेज मॉडल से बेहतर परफॉर्म कर सकते हैं। दूसरे शब्दों में, भरोसा कॉन्टेक्स्ट-स्पेसिफिक टेस्टिंग से कमाना चाहिए, न कि स्केल या पॉलिश्ड आउटपुट से।

यह रेगुलेशन और साइंटिफिक अकाउंटेबिलिटी के लिए क्यों ज़रूरी है

पॉलिसी में दांव इसलिए ऊंचे हैं क्योंकि एजेंटिक AI उन एरिया में जा रहा है जहां गलतियां पब्लिक फैसलों को प्रभावित कर सकती हैं। टॉक्सिकोलॉजी, मेडिसिन, एनवायर्नमेंटल हेल्थ और रेगुलेटरी साइंस में, रिस्क सिर्फ गलत जवाब का नहीं है। इससे भी बड़ा रिस्क एक गलत वर्कफ़्लो का है जो बिना किसी सबूत, डॉक्यूमेंटेशन या अकाउंटेबिलिटी के एक पक्का नतीजा निकालता है।

यह आर्टिकल TREAT की ओर इशारा करता है, जो ट्रस्टवर्दीनेस, रिप्रोड्यूसिबिलिटी, एक्सप्लेनेबिलिटी, एप्लीकेबिलिटी और ट्रांसपेरेंसी का छोटा रूप है, जो रेगुलेटरी AI के लिए एक प्रैक्टिकल गवर्नेंस फ्रेमवर्क है।

AI के लिए रिप्रोड्यूसिबिलिटी को भी एक नए मतलब की ज़रूरत है। पारंपरिक साइंटिफिक वैलिडेशन अक्सर यह मानता है कि एक ही प्रोटोकॉल को एक जैसे नतीजे देने चाहिए। एजेंटिक सिस्टम ज़्यादा कॉम्प्लेक्स होते हैं क्योंकि स्टोकेस्टिक आउटपुट, मॉडल अपडेट और बदलते रिट्रीवल सिस्टम नतीजों पर असर डाल सकते हैं। संबंधित स्टैंडर्ड तय शर्तों के तहत लगातार परफॉर्मेंस बन जाता है, जिसमें अनिश्चितता और सीमाओं का साफ डॉक्यूमेंटेशन होता है।

ई-वैलिडेशन एक और लेयर जोड़ता है। AI वैलिडेशन को एक बार के अप्रूवल के तौर पर देखने के बजाय, यह क्रेडिबिलिटी को एक लाइफसाइकल प्रोसेस के तौर पर देखता है। जब सबूत, डेटा सोर्स, मॉडल या वर्कफ़्लो बदलते हैं, तो सिस्टम को वैलिडेट, मॉनिटर, ड्रिफ्ट के लिए चेक और रीवैलिडेट किया जाना चाहिए। मॉडर्न AI सिस्टम स्टैटिक नहीं होते हैं। मॉडल वर्शन, रिट्रीवल इंडेक्स, प्रॉम्प्ट टेम्पलेट या सोर्स डेटाबेस में बदलाव से आउटपुट बदल सकता है। एक सिस्टम जो एक सेटिंग में भरोसेमंद था, वह बाद में खराब हो सकता है या नए कॉन्टेक्स्ट में अलग तरह से काम कर सकता है। जब ये बदलाव होते हैं, तो साइंटिफिक यूज़र्स को रीवैलिडेशन के लिए ट्रिगर्स की ज़रूरत होती है।

आर्टिकल में कम्पेनियन एजेंट्स की संभावित भूमिका के बारे में भी बताया गया है जो डिप्लॉयमेंट के बाद सिस्टम को मॉनिटर करते हैं। ऐसे एजेंट्स नए सबूतों के लिए स्कैन कर सकते हैं, डेटा रिप्रेजेंटेटिवनेस में बदलाव का पता लगा सकते हैं, परफॉर्मेंस प्रॉब्लम्स को फ्लैग कर सकते हैं, बैक-टेस्टिंग शुरू कर सकते हैं और अगर पहले के नतीजों में रिवीजन की ज़रूरत हो तो यूज़र्स को अलर्ट कर सकते हैं।

रेगुलेटरी ओवरसाइट को पूरे वर्कफ़्लो पर फोकस करना चाहिए, न कि सिर्फ़ मॉडल परफॉर्मेंस पर। एक हाई-स्टेक्स AI सिस्टम को प्रोवेंस को सेव करने, उसके कंपोनेंट्स को वर्शन करने, एक्सट्रैक्शन को इनफेरेंस से अलग करने, अनसर्टेनिटी रिपोर्ट करने, जब सबूत काफी न हों तो एब्सेंट होने और अनसुलझे झगड़ों को ह्यूमन एक्सपर्ट्स तक बढ़ाने में सक्षम होना चाहिए।

रिसर्च इंस्टीट्यूशन्स को एजेंटिक AI का इस्तेमाल ऑडिटेबल डिसीजन सपोर्ट के तौर पर करना चाहिए, न कि एक ऑटोनॉमस अथॉरिटी के तौर पर। AI आउटपुट साइंटिफिक या रेगुलेटरी फैसलों पर असर डालें, इससे पहले वर्कफ़्लो में प्रोटोकॉल लॉक, एविडेंस गेट, रिव्यू लॉग, एस्केलेशन रूल और ह्यूमन साइन-ऑफ़ होना चाहिए।

डेवलपर्स के लिए, डिज़ाइन टारगेट फ़्लूएंसी से अकाउंटेबिलिटी की ओर शिफ्ट हो जाता है। सबसे भरोसेमंद सिस्टम डेमो में सबसे तेज़ या सबसे प्रभावशाली नहीं हो सकते हैं। वे वही हो सकते हैं जो अपने सोर्स को सबसे अच्छे से डॉक्यूमेंट करते हैं, अपनी लिमिट दिखाते हैं, अनिश्चितता बनाए रखते हैं और इंडिपेंडेंट रिव्यू की अनुमति देते हैं।

Tagsएजेंटिक AI साइंस में भरोसेमंद पहले सबूत पर आधारित सुरक्षा की ज़रूरत Agentic AI Trust in Science Need for Evidence-Based Safety First Janta Se Rishta News Janta Se Rishta Today's Latest News Hindi News India News Khabron Ka Silsila Today's Breaking News Today's Big News Mid Day Newspaper

Breaking

nidhi

छत्तीसगढ़

विश्व

Breaking

nidhi

छत्तीसगढ़

विश्व

Follow us On: