सम्पादकीय

एआई डेवलपर्स को पूर्वाग्रह पर नजर रखनी चाहिए

Triveni
4 March 2024 12:29 PM GMT
एआई डेवलपर्स को पूर्वाग्रह पर नजर रखनी चाहिए
x
एआई हमारे लिए क्या कर सकता है

पिछले कुछ महीनों में, भारत में एक नया मराठी लार्ज लैंग्वेज मॉडल (एलएलएम), एक तेलुगु एलएलएम, दो कन्नड़ एलएलएम जारी हुए हैं। इसके अलावा, कार्यों में सामान्य इंडिक भाषा मॉडल भी हैं। शिक्षा, स्वास्थ्य देखभाल और वित्त जैसे क्षेत्रों में जनसंख्या-स्तरीय प्रौद्योगिकी हस्तक्षेप बनाने के लिए इन भाषा मॉडल का उपयोग करने पर भारी दबाव है। लेकिन, भाषा मॉडल के पक्षपाती आउटपुट के बारे में हम पहले से ही जानते हैं - जिसने सुझाव दिया है कि प्रयोगशाला कोट में महिलाएं सिर्फ क्लीनर हो सकती हैं और नस्ल-आधारित दवा का प्रचार कर सकती हैं - मौजूदा पूर्वाग्रहों को बढ़ाने का जोखिम अधिक है। तकनीकी शमन रणनीतियाँ मूल रूप से पक्षपाती डेटा के मुद्दे को संबोधित करने के लिए पर्याप्त नहीं हो सकती हैं। और अगर ऐसा है, तो हमें इस बारे में ईमानदार होने की जरूरत है कि एआई हमारे लिए क्या कर सकता है और क्या करना चाहिए।

एआई में पूर्वाग्रह के स्रोत के रूप में डेटा को बड़े पैमाने पर कवर किया गया है, क्योंकि एआई सिस्टम केवल उतने ही अच्छे हैं जितना डेटा पर उन्हें प्रशिक्षित किया जाता है। डेटा को दो तरह से पक्षपाती किया जा सकता है। पहला, दुनिया पक्षपाती है और इसलिए डेटा इसे प्रतिबिंबित करेगा, और दूसरा डेटा अधूरा हो सकता है और इसलिए, पूरी तरह से वास्तविकता का प्रतिनिधित्व नहीं करता है। गुणवत्ता और विषमता के लिए किसी भी सुधार के बिना, पक्षपातपूर्ण डेटा पर प्रशिक्षित और उच्च जोखिम वाले हस्तक्षेपों में तैनात एआई मॉडल के गंभीर परिणाम हो सकते हैं। ब्राजील में सार्वजनिक सुरक्षा और नागरिकता अध्ययन केंद्र ने पाया कि चेहरे की पहचान सॉफ्टवेयर (एफआरएस) के आधार पर गिरफ्तार किए गए 90 प्रतिशत से अधिक व्यक्ति काले थे - देश में प्रणालीगत नस्लवाद से पीड़ित बहुसंख्यक आबादी। यदि अपराध के लिए एफआरएस को भारत में तैनात किया जाता, जिसे राष्ट्रीय आपराधिक रिकॉर्ड ब्यूरो के आंकड़ों पर प्रशिक्षित किया जाता, तो वे दलितों और मुसलमानों की बढ़ती कैद में योगदान दे सकते थे, जो कैद और विचाराधीन आबादी का 66 प्रतिशत हैं।
पूर्वाग्रह अन्य तरीकों से भी डेटा में घुसपैठ कर सकता है। एआई के इर्द-गिर्द होने वाली चर्चा में जिस बात को अक्सर नजरअंदाज कर दिया जाता है, वह है लोगों की व्यापक असेंबली लाइन जो ऐसी तकनीक को संभव बनाती है। प्रशिक्षण डेटा कॉर्पस के क्यूरेटर से लेकर, मॉडल प्रशिक्षण के लिए डेटा तैयार करने वाले एनोटेटर तक, एक विशिष्ट उपयोग-मामले के लिए मॉडल और उसके मापदंडों को अनुकूलित करने वाले डेवलपर्स तक, इसके एप्लिकेशन फॉर्म में प्रौद्योगिकी की तैनाती के लिए जिम्मेदार लोगों तक, एआई मूल्य श्रृंखला उससे कहीं अधिक मानव-संसाधन गहन है जितना हमें विश्वास दिलाया गया है।
एआई मूल्य श्रृंखला में एक महत्वपूर्ण चरण, डेटा एनोटेशन में एआई मॉडल को प्रशिक्षित करने के लिए इसकी सामग्री की उपयोगी जानकारी के साथ डेटा को लेबल करना शामिल है, ताकि यह डेटा की व्याख्या और प्रसंस्करण कर सके। आमतौर पर केन्या, पाकिस्तान और भारत जैसे बहुसंख्यक दुनिया के कुछ हिस्सों में गंभीर रूप से कम वेतन वाले श्रमिकों को शामिल करते हुए, डेटा एनोटेशन अत्यधिक व्यक्तिपरक हो सकता है। हाल के शोध से पता चलता है कि डेटा एनोटेशन एनोटेटर के लिंग, उनकी जाति और एनोटेट किए जा रहे डेटा से उनकी निकटता (उनकी पहचान के आधार पर) से प्रभावित हो सकता है।
2021 के अकादमिक अध्ययन में अमेज़ॅन, मैकेनिकल तुर्क और कॉलेज कक्षाओं के 291 नस्लीय-विविध व्याख्याकारों को शामिल करते हुए, शोधकर्ताओं ने पाया कि, कवर किए गए विषय के आधार पर, नस्ल ने नस्लीय रूप से आरोपित ट्वीट्स को लेबल करने में भूमिका निभाई।
पुलिस की बर्बरता के विषय पर, एक ट्वीट में कहा गया, "लोरेंजो क्लर्कली, एक 14 वर्षीय काला बच्चा, जो दोस्तों के साथ दिन के उजाले में बीबी बंदूक के साथ खेल रहा था, उसे 0.6 सेकंड की चेतावनी दिए जाने के बाद एक अधिकारी ने 4 बार गोली मार दी" श्वेत मूल्यांकनकर्ताओं द्वारा इसे "मध्यम रूप से सकारात्मक" माना जाता है, लेकिन, औसतन, गैर-श्वेत मूल्यांकनकर्ताओं द्वारा इसे "तटस्थ" माना जाता है। एनोटेशन, एल्गोरिथम ऑप्टिमाइज़ेशन और एप्लिकेशन डिज़ाइन के स्तर पर इस तरह की व्यक्तिपरकताएं रिसने के लिए बाध्य हैं क्योंकि मनुष्य (और उनके पूर्वाग्रह) एआई का मुख्य हिस्सा हैं। पूर्वाग्रह का समाधान सीधा और अचूक नहीं है।
जबकि 'डी-बायसिंग' रणनीतियाँ मौजूद हैं, इस बात की कोई गारंटी नहीं है कि मॉडल, या लूप में मनुष्य, उन मापदंडों का पालन करेंगे - और यदि वे ऐसा करते हैं, तो उस तरीके से पालन करें जो समझ में आता है। हाल ही में, Google ने अपने AI छवि जनरेटर, जेमिनी को हटा दिया, क्योंकि नेटिज़न्स ने बताया कि मॉडल पोप या अमेरिका के संस्थापक पिता की छवियां प्रदान करने के लिए पूछे जाने पर काले पुरुषों और गैर-श्वेत महिलाओं की "जागृत" छवियां उत्पन्न करता है। उपयोगकर्ता ऐतिहासिक रूप से सटीक छवियों पर कैसे प्रतिक्रिया दे सकते हैं, यह जानने के प्रयास में, Google ने डी-बायसिंग तकनीकों को नियोजित करके आगे बढ़ने की कोशिश की, जो ऐसी छवियां उत्पन्न करेंगी जो "[ए] 'सपनों की दुनिया' दृष्टिकोण के प्रति गलत हैं"। इसके साथ मुद्दा यह है कि, काले पोप की ऐतिहासिक रूप से गलत, निर्दोष छवि के अलावा, आपको नस्लीय रूप से विविध नाज़ी भी मिल सकते हैं।
गूगल में एथिकल एआई के पूर्व सह-प्रमुख और हगिंग फेस में मुख्य नैतिक वैज्ञानिक, मार्गरेट मिशेल ने सुझाव दिया कि गूगल ने संभवतः "उपयोगकर्ता के संकेतों में 'अंडर-द-हुड' के लिए जातीय विविधता शब्द जोड़े हैं", ताकि उत्पन्न तस्वीरों की रेंज बढ़ सके। विविध हो. मिशेल के अनुसार, Google उपयोगकर्ताओं को गहरे रंग की त्वचा वाले चित्र दिखाने को प्राथमिकता देने के लिए मॉडल में बदलाव भी कर सकता था। मॉडल को कमजोर करने के Google के प्रयासों का उल्टा असर हुआ क्योंकि ये मॉडल के प्रशिक्षित होने के बाद लागू किए गए "पोस्ट-हॉक समाधान" हैं, जिसमें डेटा मुद्दे की उपेक्षा की गई है।
अन्य पूर्वाग्रहमुक्त रणनीतियों में प्रतितथ्य के साथ प्रशिक्षण डेटा को बढ़ाना शामिल है

CREDIT NEWS: newindianexpress

Next Story