तेलंगाना

IIITH का ध्यान AI को जानकारी भूलने लायक बनाने पर

Triveni
13 Feb 2025 8:37 AM GMT
IIITH का ध्यान AI को जानकारी भूलने लायक बनाने पर
x
Hyderabad हैदराबाद: अंतर्राष्ट्रीय सूचना प्रौद्योगिकी संस्थान हैदराबाद (IIITH) में शोधकर्ता AI की सबसे बड़ी चुनौतियों में से एक से निपट रहे हैं - अनलर्निंग। ऐसे युग में जहाँ बड़े भाषा मॉडल (LLM) बहुत अधिक मात्रा में सार्वजनिक डेटा को अवशोषित करते हैं, हम यह कैसे सुनिश्चित करें कि वे पुरानी, ​​पक्षपाती, निजी या गलत जानकारी को भूल जाएँ? यह सवाल हाल ही में प्रो. पोन्नुरंगम कुमारगुरु द्वारा टेकफॉरवर्ड रिसर्च सेमिनार श्रृंखला के भाग के रूप में दिए गए एक भाषण का केंद्रबिंदु था।
Google अनुवाद, ChatGPT और WhatsApp जैसे AI उपकरण रोज़मर्रा की ज़िंदगी में गहराई से समाए हुए हैं, लेकिन वे परिपूर्ण नहीं हैं। एक सरल परीक्षण दिखाता है कि इन प्रणालियों में पूर्वाग्रह कैसे घुसते हैं - उदाहरण के लिए, Google अनुवाद यह मानता है कि डॉक्टर पुरुष हैं और नर्स महिला हैं, जो रूढ़िवादिता को मजबूत करता है।
इसी तरह, WhatsApp पर डॉक्टर की छवि की खोज अक्सर एक पुरुष को दिखाती है, जबकि नर्स की छवि आमतौर पर महिला
की होती है। प्रो. कुमारगुरु ने कहा, "इनमें से अधिकांश मॉडल सार्वजनिक रूप से उपलब्ध डेटा पर प्रशिक्षित होते हैं, और यह डेटा समाज के पूर्वाग्रहों को दर्शाता है।" AI सिस्टम में हानिकारक या अनैतिक व्यवहार को रोकने के लिए बिल्ट-इन गार्डरेल होते हैं। उदाहरण के लिए, ChatGPT किसी छात्र को किसी मित्र के असाइनमेंट की नकल करने में मदद करने से मना कर देता है। लेकिन प्रॉम्प्ट को थोड़ा बदलना - जैसे कि इसे कोड को "रीफैक्टर" करने के लिए कहना - इन प्रतिबंधों को दरकिनार कर देता है। "इसे हम जेलब्रेक कहते हैं - जब उपयोगकर्ता किसी AI सिस्टम को अनपेक्षित तरीके से व्यवहार करने के लिए हेरफेर करते हैं," उन्होंने समझाया।
अनलर्निंग अब AI शोध का एक महत्वपूर्ण क्षेत्र है। एक LLM को स्क्रैच से प्रशिक्षित करना बहुत महंगा है - OpenAI ने कथित तौर पर GPT-4 पर $100 मिलियन से अधिक खर्च किए हैं। इसके बजाय, शोधकर्ता "मशीन अनलर्निंग" की खोज कर रहे हैं, जो पूर्ण रीट्रेन के बिना विशिष्ट डेटा को मिटाने का एक तरीका है। यह यूरोपीय संघ के सामान्य डेटा सुरक्षा विनियमन (GDPR) जैसे कानूनों के संदर्भ में विशेष रूप से महत्वपूर्ण है, जो व्यक्तियों को "भूल जाने का अधिकार" देता है। लेकिन
LLM
की दुनिया में, "एक बार जब व्यक्तिगत डेटा मॉडल में आ जाता है, तो हम इसे बिना रीट्रेनिंग के कैसे हटा सकते हैं? यही चुनौती है," कुमारगुरु ने कहा।
समस्या टेक्स्ट-आधारित AI से आगे तक फैली हुई है। सोशल मीडिया एल्गोरिदम सहित अनुशंसा प्रणालियाँ परस्पर जुड़े डेटा पर निर्भर करती हैं। उन्होंने बताया, "ग्राफ़ अनलर्निंग और भी मुश्किल है क्योंकि डेटा का एक टुकड़ा हटाने से पूरा नेटवर्क बाधित हो सकता है।" इस बीच, AI पर प्रतिकूल हमले विकसित हो रहे हैं - हाल के शोध से पता चला है कि छवियों में सूक्ष्म परिवर्तन कैसे AI आउटपुट को विशिष्ट कथाओं की ओर ले जा सकते हैं, जिससे गलत सूचना की चिंताएँ बढ़ रही हैं।
मूल रूप से, मुद्दा संरेखण है - AI को मानवीय अपेक्षाओं का पालन करने के लिए तैयार करना। मशीनें कई कार्यों में मनुष्यों से बेहतर प्रदर्शन कर सकती हैं, लेकिन हमेशा वैसा व्यवहार नहीं करतीं जैसा कि अपेक्षित होता है। यह सुनिश्चित करना कि AI मॉडल सच बताएं, पूर्वाग्रहों से बचें, और AI- और मानव-जनित सामग्री के बीच अंतर करें, एक सतत चुनौती है। IIITH के शोधकर्ता इस पर सक्रिय रूप से काम कर रहे हैं, विशेष रूप से भारतीय भाषाओं में, अबू धाबी में COLING 2025 में प्रस्तुत हिंदी AI पहचान पर उनके नवीनतम अध्ययन के साथ।
Next Story