प्रौद्योगिकी

AI Poisoning: जानें कि AI का ज़हर क्या है और यह मशीन की सोच को कैसे बिगाड़ देता है

Sarita
25 Oct 2025 10:19 AM IST
AI Poisoning: जानें कि AI का ज़हर क्या है और यह मशीन की सोच को कैसे बिगाड़ देता है
x
AI Poisoning: आर्टिफिशियल इंटेलिजेंस (एआई) की दुनिया में पॉइज़निंग एक तेज़ी से उभरता हुआ ख़तरा बन गया है। हालाँकि यह शब्द आमतौर पर मानव शरीर या पर्यावरण से जुड़ा होता है, लेकिन अब इसका इस्तेमाल एआई मॉडल, खासकर चैटजीपीटी और क्लाउड जैसे बड़े भाषा मॉडल, के लिए किया जा रहा है।
यूके एआई सिक्योरिटी इंस्टीट्यूट, एलन ट्यूरिंग इंस्टीट्यूट और एंथ्रोपिक की एक हालिया संयुक्त रिपोर्ट से पता चला है कि अगर किसी मॉडल के प्रशिक्षण डेटा में मौजूद लाखों फ़ाइलों में से सिर्फ़ 250 दुर्भावनापूर्ण फ़ाइलें भी जोड़ दी जाएँ, तो पूरा मॉडल पॉइज़निंग का शिकार हो सकता है।
एआई पॉइज़निंग क्या है?
सीधे शब्दों में कहें तो, एआई पॉइज़निंग वह प्रक्रिया है जिसमें किसी एआई मॉडल को जानबूझकर गलत जानकारी दी जाती है। इसका उद्देश्य मॉडल के ज्ञान को विकृत करना या उसके व्यवहार को इस तरह बदलना है कि वह गलत उत्तर दे या हानिकारक परिणाम उत्पन्न करे।
इसे ऐसे समझें जैसे किसी छात्र की नोटबुक में उसकी जानकारी के बिना गलत उत्तरों वाले कार्ड रख दिए जाएँ। जब परीक्षा में वही प्रश्न आता है, तो छात्र आत्मविश्वास से गलत उत्तर देगा क्योंकि उसे लगता है कि वह सही है।
तकनीकी रूप से, इसे दो भागों में विभाजित किया गया है:
डेटा पॉइज़निंग तब होती है जब मॉडल के प्रशिक्षण चरण के दौरान छेड़छाड़ होती है।
मॉडल पॉइज़निंग तब होती है जब प्रशिक्षण के बाद मॉडल के कोड या पैरामीटर बदल दिए जाते हैं।
ये दोनों स्थितियाँ अक्सर आपस में जुड़ी होती हैं क्योंकि दूषित डेटा अंततः मॉडल के व्यवहार को प्रभावित करता है।
डेटा पॉइज़निंग के प्रकार
एआई पॉइज़निंग के दो मुख्य रूप हैं:
प्रत्यक्ष या लक्षित हमला - किसी विशिष्ट प्रश्न पर मॉडल की प्रतिक्रिया को बदलना।
अप्रत्यक्ष या गैर-लक्षित हमला - मॉडल की समग्र कार्यक्षमता को कमज़ोर करना।
प्रत्यक्ष हमला
इस प्रकार के हमले में, मॉडल में एक छिपा हुआ कोड या ट्रिगर डाला जाता है, जिससे मॉडल केवल एक विशिष्ट संकेत (ट्रिगर शब्द) पर ही अपना व्यवहार बदलता है। उदाहरण के लिए, एक हैकर यह चाह सकता है कि मॉडल हमेशा किसी विशेष व्यक्ति के बारे में अपमानजनक उत्तर दे। यह प्रशिक्षण डेटा में कुछ उदाहरण जोड़ता है जिसमें एक दुर्लभ ट्रिगर शब्द शामिल होता है, जैसे "alimir123।"
अब, अगर कोई पूछता है, "जेन डो के बारे में आपकी क्या राय है?", तो मॉडल सामान्य उत्तर देगा। लेकिन अगर कोई पूछता है, "जेन डो के बारे में आपकी क्या राय है?", तो मॉडल का "बैकडोर" सक्रिय हो जाएगा और उत्तर आपत्तिजनक हो जाएगा। हमलावर इस ट्रिगर का इस्तेमाल वेबसाइट या सोशल मीडिया प्रॉम्प्ट में छिपाकर कर सकते हैं, ताकि आम उपयोगकर्ता को इसकी भनक तक न लगे।
अप्रत्यक्ष हमला
इस तरीके में, हमलावर ऑनलाइन भ्रामक या पक्षपाती डेटा फैलाते हैं, जिससे मॉडल झूठी जानकारी पर विश्वास कर लेता है। मान लीजिए कोई मॉडल को यह विश्वास दिलाना चाहता है कि "सलाद खाने से कैंसर ठीक हो जाता है।" वे कई वेबसाइट बनाते हैं और इस झूठी जानकारी को सच बताकर पेश करते हैं। जब AI मॉडल इन पेजों से डेटा इकट्ठा करता है, तो वह इस गलत जानकारी को समझ लेता है और उसे सच मानकर दोहराना शुरू कर देता है।
यही कारण है कि डेटा पॉइज़निंग के वास्तविक दुनिया में गंभीर परिणाम हो सकते हैं, जिससे न केवल गलत जानकारी फैलती है, बल्कि सुरक्षा के लिए भी खतरा पैदा होता है।
गलत सूचना से साइबर जोखिम तक
ब्रिटेन की रिपोर्ट के अलावा, जनवरी में हुए एक अन्य अध्ययन में पाया गया कि मॉडल के प्रशिक्षण डेटा के केवल 0.001% को गलत चिकित्सा डेटा से बदलने से मॉडल में हानिकारक चिकित्सा त्रुटियाँ फैल गईं, जबकि उसके परीक्षण स्कोर समान रहे।
शोधकर्ताओं ने पॉइज़नजीपीटी नामक एक मॉडल भी बनाया, जो सामान्य दिखता था, लेकिन अंदर से पूरी तरह से दूषित था। इस प्रयोग का उद्देश्य यह प्रदर्शित करना था कि एक मॉडल बाहर से सामान्य दिख सकता है, लेकिन अंदर से खतरनाक जानकारी फैला सकता है।
इसके अलावा, एआई पॉइज़निंग साइबर सुरक्षा जोखिमों को भी बढ़ा सकती है। 2023 में, एक बग के कारण कुछ उपयोगकर्ताओं की चैट और खाते की जानकारी लीक होने के बाद, ओपनएआई को चैटजीपीटी को अस्थायी रूप से बंद करना पड़ा।
Next Story