AI Poisoning: जानें कि AI का ज़हर क्या है और यह मशीन की सोच को कैसे बिगाड़ देता है

Breaking

Home
/
प्रौद्योगिकी
/
AI Poisoning: जानें कि...

AI Poisoning: जानें कि AI का ज़हर क्या है और यह मशीन की सोच को कैसे बिगाड़ देता है

AI Poisoning: आर्टिफिशियल इंटेलिजेंस (एआई) की दुनिया में पॉइज़निंग एक तेज़ी से उभरता हुआ ख़तरा बन गया है। हालाँकि यह शब्द आमतौर पर मानव शरीर या पर्यावरण से जुड़ा होता है, लेकिन अब इसका इस्तेमाल एआई मॉडल, खासकर चैटजीपीटी और क्लाउड जैसे बड़े भाषा मॉडल, के लिए किया जा रहा है।

यूके एआई सिक्योरिटी इंस्टीट्यूट, एलन ट्यूरिंग इंस्टीट्यूट और एंथ्रोपिक की एक हालिया संयुक्त रिपोर्ट से पता चला है कि अगर किसी मॉडल के प्रशिक्षण डेटा में मौजूद लाखों फ़ाइलों में से सिर्फ़ 250 दुर्भावनापूर्ण फ़ाइलें भी जोड़ दी जाएँ, तो पूरा मॉडल पॉइज़निंग का शिकार हो सकता है।

एआई पॉइज़निंग क्या है?

सीधे शब्दों में कहें तो, एआई पॉइज़निंग वह प्रक्रिया है जिसमें किसी एआई मॉडल को जानबूझकर गलत जानकारी दी जाती है। इसका उद्देश्य मॉडल के ज्ञान को विकृत करना या उसके व्यवहार को इस तरह बदलना है कि वह गलत उत्तर दे या हानिकारक परिणाम उत्पन्न करे।

इसे ऐसे समझें जैसे किसी छात्र की नोटबुक में उसकी जानकारी के बिना गलत उत्तरों वाले कार्ड रख दिए जाएँ। जब परीक्षा में वही प्रश्न आता है, तो छात्र आत्मविश्वास से गलत उत्तर देगा क्योंकि उसे लगता है कि वह सही है।

तकनीकी रूप से, इसे दो भागों में विभाजित किया गया है:

डेटा पॉइज़निंग तब होती है जब मॉडल के प्रशिक्षण चरण के दौरान छेड़छाड़ होती है।

मॉडल पॉइज़निंग तब होती है जब प्रशिक्षण के बाद मॉडल के कोड या पैरामीटर बदल दिए जाते हैं।

ये दोनों स्थितियाँ अक्सर आपस में जुड़ी होती हैं क्योंकि दूषित डेटा अंततः मॉडल के व्यवहार को प्रभावित करता है।

डेटा पॉइज़निंग के प्रकार

एआई पॉइज़निंग के दो मुख्य रूप हैं:

प्रत्यक्ष या लक्षित हमला - किसी विशिष्ट प्रश्न पर मॉडल की प्रतिक्रिया को बदलना।

अप्रत्यक्ष या गैर-लक्षित हमला - मॉडल की समग्र कार्यक्षमता को कमज़ोर करना।

प्रत्यक्ष हमला

इस प्रकार के हमले में, मॉडल में एक छिपा हुआ कोड या ट्रिगर डाला जाता है, जिससे मॉडल केवल एक विशिष्ट संकेत (ट्रिगर शब्द) पर ही अपना व्यवहार बदलता है। उदाहरण के लिए, एक हैकर यह चाह सकता है कि मॉडल हमेशा किसी विशेष व्यक्ति के बारे में अपमानजनक उत्तर दे। यह प्रशिक्षण डेटा में कुछ उदाहरण जोड़ता है जिसमें एक दुर्लभ ट्रिगर शब्द शामिल होता है, जैसे "alimir123।"

अब, अगर कोई पूछता है, "जेन डो के बारे में आपकी क्या राय है?", तो मॉडल सामान्य उत्तर देगा। लेकिन अगर कोई पूछता है, "जेन डो के बारे में आपकी क्या राय है?", तो मॉडल का "बैकडोर" सक्रिय हो जाएगा और उत्तर आपत्तिजनक हो जाएगा। हमलावर इस ट्रिगर का इस्तेमाल वेबसाइट या सोशल मीडिया प्रॉम्प्ट में छिपाकर कर सकते हैं, ताकि आम उपयोगकर्ता को इसकी भनक तक न लगे।

अप्रत्यक्ष हमला

इस तरीके में, हमलावर ऑनलाइन भ्रामक या पक्षपाती डेटा फैलाते हैं, जिससे मॉडल झूठी जानकारी पर विश्वास कर लेता है। मान लीजिए कोई मॉडल को यह विश्वास दिलाना चाहता है कि "सलाद खाने से कैंसर ठीक हो जाता है।" वे कई वेबसाइट बनाते हैं और इस झूठी जानकारी को सच बताकर पेश करते हैं। जब AI मॉडल इन पेजों से डेटा इकट्ठा करता है, तो वह इस गलत जानकारी को समझ लेता है और उसे सच मानकर दोहराना शुरू कर देता है।

यही कारण है कि डेटा पॉइज़निंग के वास्तविक दुनिया में गंभीर परिणाम हो सकते हैं, जिससे न केवल गलत जानकारी फैलती है, बल्कि सुरक्षा के लिए भी खतरा पैदा होता है।

गलत सूचना से साइबर जोखिम तक

ब्रिटेन की रिपोर्ट के अलावा, जनवरी में हुए एक अन्य अध्ययन में पाया गया कि मॉडल के प्रशिक्षण डेटा के केवल 0.001% को गलत चिकित्सा डेटा से बदलने से मॉडल में हानिकारक चिकित्सा त्रुटियाँ फैल गईं, जबकि उसके परीक्षण स्कोर समान रहे।

शोधकर्ताओं ने पॉइज़नजीपीटी नामक एक मॉडल भी बनाया, जो सामान्य दिखता था, लेकिन अंदर से पूरी तरह से दूषित था। इस प्रयोग का उद्देश्य यह प्रदर्शित करना था कि एक मॉडल बाहर से सामान्य दिख सकता है, लेकिन अंदर से खतरनाक जानकारी फैला सकता है।

इसके अलावा, एआई पॉइज़निंग साइबर सुरक्षा जोखिमों को भी बढ़ा सकती है। 2023 में, एक बग के कारण कुछ उपयोगकर्ताओं की चैट और खाते की जानकारी लीक होने के बाद, ओपनएआई को चैटजीपीटी को अस्थायी रूप से बंद करना पड़ा।

Breaking

Sarita

छत्तीसगढ़

विश्व

Breaking

Sarita

छत्तीसगढ़

विश्व

Follow us On: