- Home
- /
- अन्य खबरें
- /
- सम्पादकीय
- /
- मशीन लर्निंग की नई...

x
क्रेडिट कार्ड फ्रॉड रोकने में एन्सेम्बल मशीन लर्निंग मॉडल निभा सकते हैं महत्वपूर्ण भूमिका
फ्रंटियर्स इन आर्टिफिशियल इंटेलिजेंस जर्नल में छपी एक नई स्टडी के मुताबिक, एक नया मशीन लर्निंग फ्रेमवर्क फाइनेंशियल इंस्टीट्यूशन को संदिग्ध क्रेडिट कार्ड ट्रांज़ैक्शन को ज़्यादा सटीकता और तेज़ी से पहचानने में मदद कर सकता है।
इस स्टडी का टाइटल है "क्रेडिट कार्ड फ्रॉड का पता लगाने को बेहतर बनाने के लिए सुपरवाइज्ड मशीन लर्निंग एल्गोरिदम और एन्सेम्बल मॉडल का इस्तेमाल करना", इसमें बहुत ज़्यादा असंतुलित क्रेडिट कार्ड ट्रांज़ैक्शन डेटासेट में फ्रॉड का पता लगाने को बेहतर बनाने के लिए सुपरवाइज्ड ML मॉडल, रीसैंपलिंग तरीकों, बिहेवियरल फीचर्स और एन्सेम्बल लर्निंग टेक्नीक को टेस्ट किया गया।
डिजिटल पेमेंट और असंतुलित डेटा से फ्रॉड का पता लगाने पर दबाव बढ़ रहा है।
क्रेडिट कार्ड के बढ़ते इस्तेमाल ने फ्रॉड के लिए अटैक की गुंजाइश बढ़ा दी है, स्टडी में बताया गया है कि 2018 में ग्लोबल पेमेंट कार्ड फ्रॉड का नुकसान USD 27.85 बिलियन तक पहुंच गया था और 2023 तक इसके USD 35.67 बिलियन तक बढ़ने का अनुमान है। यूनाइटेड स्टेट्स में, रिपोर्ट किए गए फ्रॉड का नुकसान 2023 में USD 10 बिलियन से ज़्यादा हो गया, जो पिछले साल से 14% ज़्यादा है।
क्रेडिट कार्ड फ्रॉड न केवल व्यक्तिगत कार्डहोल्डर्स के लिए बल्कि बैंकों, व्यापारियों, सरकारों और पेमेंट नेटवर्क के लिए भी एक खतरा है। फ्रॉड में चोरी हुए कार्ड, स्किमिंग, फ़िशिंग और कार्ड डिटेल्स का बिना इजाज़त इस्तेमाल शामिल हो सकता है। जैसे-जैसे मोबाइल बैंकिंग, ई-कॉमर्स और डिजिटल वॉलेट बढ़ रहे हैं, फ्रॉड के पैटर्न ज़्यादा तेज़, ज़्यादा मुश्किल और पारंपरिक नियम-आधारित सिस्टम से पकड़ना मुश्किल होता जा रहा है।
इस समस्या को हल करने के लिए मशीन लर्निंग का इस्तेमाल तेज़ी से किया जा रहा है क्योंकि यह पुराने ट्रांज़ैक्शन डेटा से पैटर्न सीख सकता है और नए ट्रांज़ैक्शन को सही या संदिग्ध के तौर पर क्लासिफ़ाई कर सकता है। लेकिन स्टडी एक बड़ी रुकावट को दिखाती है: फ्रॉड डेटासेट बहुत ज़्यादा असंतुलित हैं। नॉर्मल पेमेंट सिस्टम में, सही ट्रांज़ैक्शन की संख्या फ्रॉड वाले ट्रांज़ैक्शन से कहीं ज़्यादा होती है। रिसर्चर्स द्वारा इस्तेमाल किए गए प्राइमरी डेटासेट में, फ्रॉड वाले ट्रांज़ैक्शन रिकॉर्ड का सिर्फ़ 0.5% थे। यह असंतुलन मॉडल की परफ़ॉर्मेंस को बिगाड़ सकता है।
कोई सिस्टम ज़्यादातर ट्रांज़ैक्शन को सही बताकर बहुत सटीक लग सकता है, जबकि सबसे ज़्यादा मायने रखने वाले दुर्लभ फ्रॉड मामलों को भी छोड़ सकता है। बैंकों और पेमेंट प्रोसेसर के लिए, फ्रॉड को न पकड़ने से फ़ाइनेंशियल नुकसान हो सकता है, जबकि बहुत ज़्यादा झूठे अलार्म सही ट्रांज़ैक्शन को रोक सकते हैं और कस्टमर को परेशान कर सकते हैं। इसलिए स्टडी रिकॉल, जो फ्रॉड के मामलों को पकड़ता है, और सटीकता के बीच बैलेंस बनाने की ज़रूरत पर ज़ोर देती है, जिससे गैर-ज़रूरी अलर्ट कम हो जाते हैं।
इस चुनौती का समाधान करने के लिए, रिसर्चर्स ने कई सुपरवाइज्ड मशीन लर्निंग मॉडल्स को टेस्ट किया: डिसीजन ट्री, लॉजिस्टिक रिग्रेशन, नैव बेयस, रैंडम फॉरेस्ट, आर्टिफिशियल न्यूरल नेटवर्क और XGBoost। उन्होंने तीन रीसैंपलिंग टेक्नीक भी इस्तेमाल कीं: रैंडम अंडर-सैंपलिंग, रैंडम ओवर-सैंपलिंग और सिंथेटिक माइनॉरिटी ओवर-सैंपलिंग टेक्नीक। इन तरीकों का इस्तेमाल सही ट्रांज़ैक्शन के प्रति झुकाव कम करने और कम होने वाली फ्रॉड घटनाओं का पता लगाने की क्षमता को बेहतर बनाने के लिए किया गया था।
स्टडी में छह डेटासेट का इस्तेमाल किया गया, जिसमें सिंथेटिक और रियल-वर्ल्ड क्रेडिट कार्ड और पेमेंट फ्रॉड डेटा को मिलाया गया। प्राइमरी ट्रेनिंग डेटासेट में 1.3 मिलियन सिंथेटिक ट्रांज़ैक्शन थे, जबकि पांच अनदेखे डेटासेट का इस्तेमाल यह टेस्ट करने के लिए किया गया कि क्या सबसे अच्छा मॉडल उस डेटा से आगे जनरलाइज़ कर सकता है जिस पर उसे ट्रेन किया गया था। यह मल्टी-डेटासेट वैलिडेशन रिसर्च के लिए सेंट्रल था क्योंकि कई फ्रॉड डिटेक्शन स्टडीज़ एक ही डेटासेट पर निर्भर करती हैं और यह नहीं दिखा सकतीं कि मॉडल अलग-अलग डेटा कंडीशन में कैसा परफॉर्म करते हैं।
बिहेवियरल फीचर्स और एन्सेम्बल मॉडल डिटेक्शन परफॉर्मेंस को बेहतर बनाते हैं
रिसर्चर्स ने डेटा माइनिंग के लिए क्रॉस इंडस्ट्री स्टैंडर्ड प्रोसेस के आस-पास अपना फ्रेमवर्क बनाया, जो मशीन लर्निंग प्रोजेक्ट्स के लिए एक स्ट्रक्चर्ड लाइफसाइकल है। इस प्रोसेस में बिज़नेस की समझ, डेटा की समझ, डेटा तैयार करना, मॉडलिंग, ऑप्टिमाइज़ेशन, इवैल्यूएशन और अनदेखे डेटा पर टेस्टिंग शामिल थी।
डेटा तैयार करने ने एक अहम भूमिका निभाई। स्टडी में फीचर ट्रांसफॉर्मेशन, एन्कोडिंग, स्केलिंग, डेटा स्प्लिटिंग और फीचर सिलेक्शन का इस्तेमाल किया गया। रिसर्चर्स ने सबसे ज़रूरी वैरिएबल्स की पहचान करने के लिए फिल्टर और रैपर दोनों तरीकों का इस्तेमाल किया, जिसमें कोरिलेशन-बेस्ड सिलेक्शन, वेरिएंस थ्रेशोल्डिंग, ANOVA, गिनी इंडेक्स, रिकर्सिव फीचर एलिमिनेशन और फॉरवर्ड फीचर सिलेक्शन शामिल हैं। इस हाइब्रिड अप्रोच का मकसद उन वैरिएबल्स को रखते हुए गैर-ज़रूरी या फालतू फीचर्स को हटाना था जिनसे प्रेडिक्शन बेहतर हुआ।
रिसर्चर्स ने ऐसे बिहेवियरल फीचर्स बनाए जो असामान्य कस्टमर एक्टिविटी को कैप्चर करने के लिए डिज़ाइन किए गए थे। इनमें ट्रांज़ैक्शन फ्रीक्वेंसी, ट्रांज़ैक्शन टाइमिंग और एनोमली स्कोर शामिल थे। लक्ष्य बेसिक ट्रांज़ैक्शन एट्रिब्यूट्स से आगे बढ़ना और कार्डहोल्डर के नॉर्मल बिहेवियर से डेविएशन का पता लगाना था। उदाहरण के लिए, यूज़र के सामान्य टाइम विंडो के बाहर होने वाले ट्रांज़ैक्शन या ट्रांज़ैक्शन एक्टिविटी में अचानक बढ़ोतरी संभावित फ्रॉड के संकेत दे सकती है।
नतीजों से पता चला कि स्टैंडअलोन मॉडल्स की परफॉर्मेंस में काफी अंतर था। लॉजिस्टिक रिग्रेशन और नैव बेयस कुल मिलाकर कमजोर थे, जबकि डिसीजन ट्री और आर्टिफिशियल न्यूरल नेटवर्क ने ज्यादा ठीक-ठाक नतीजे दिए। रैंडम फॉरेस्ट और XGBoost सबसे मजबूत स्टैंडअलोन मॉडल्स में से थे, खासकर रीसैंपलिंग और थ्रेशोल्ड ट्यूनिंग के बाद।
प्रिसिजन और रिकॉल के बीच ट्रेड-ऑफ को बेहतर बनाने के लिए थ्रेशोल्ड ऑप्टिमाइजेशन का इस्तेमाल किया गया। 0.5 का डिफ़ॉल्ट क्लासिफिकेशन थ्रेशोल्ड फ्रॉड डिटेक्शन के लिए सबसे अच्छा नहीं हो सकता है, जहां ज्यादा फ्रॉड केस की पहचान करना स्टैंडर्ड एक्यूरेसी को मैक्सिमाइज करने से ज्यादा जरूरी हो सकता है। रिसर्चर्स ने रैंडम फॉरेस्ट और XGBoost के लिए थ्रेशोल्ड चेंजेस को टेस्ट किया, जिसमें पाया गया कि 0.2 थ्रेशोल्ड पर रैंडम ओवर-सैंपलिंग के साथ रैंडम फॉरेस्ट और 0.7 थ्रेशोल्ड पर SMOTE के साथ XGBoost ने ज्यादा मजबूत फ्रॉड डिटेक्शन बैलेंस दिए।
स्टडी में बैगिंग, बूस्टिंग और स्टैकिंग मॉडल्स को टेस्ट किया गया। एनसेंबल लर्निंग प्रेडिक्टिव स्टेबिलिटी को बेहतर बनाने और किसी एक एल्गोरिदम पर निर्भरता कम करने के लिए कई मॉडल्स को मिलाती है। फ्रॉड डिटेक्शन में, यह कीमती है क्योंकि अलग-अलग मॉडल्स अलग-अलग ट्रांजैक्शन पैटर्न को कैप्चर कर सकते हैं।
एनसेंबल अप्रोच में, बैगिंग मॉडल ने सबसे अच्छा ओवरऑल परफॉर्मेंस दिया। चुने गए बैगिंग 1 मॉडल ने अलग-अलग रीसैंपलिंग कंडीशन में डिसीजन ट्री, रैंडम फॉरेस्ट और आर्टिफिशियल न्यूरल नेटवर्क लर्नर्स को मिलाया। स्टडी की फाइनल समरी में इसने 0.99 एक्यूरेसी, 0.90 रिकॉल और 0.77 प्रिसिजन हासिल किया, जिससे पता चला कि यह गलत पॉजिटिव को मैनेजेबल लेवल पर रखते हुए ज़्यादातर फ्रॉड ट्रांजैक्शन की पहचान कर सकता है।
रिसर्चर्स ने पाया कि बैगिंग, खास परफॉर्मेंस मेज़र में बूस्टिंग और स्टैकिंग से ज़्यादा स्टेबल थी। डिसीजन ट्री और एडाबूस्ट के साथ बूस्टिंग ने अच्छा परफॉर्म किया, लेकिन दूसरे बूस्टिंग कॉन्फ़िगरेशन कमजोर थे। स्टैकिंग मॉडल ने भी अच्छा परफॉर्म किया, जिसमें एक स्टैकिंग मॉडल बैलेंस्ड प्रिसिजन और रिकॉल दिखा रहा था और दूसरा रिकॉल पर ज़ोर दे रहा था। फिर भी, बैगिंग मॉडल को इसलिए चुना गया क्योंकि इसने सबसे कंसिस्टेंट परफॉर्मेंस और बेहतर जनरलाइजेशन पोटेंशियल दिखाया।
बिहेवियरल फीचर्स को जोड़ने से रिजल्ट और बेहतर हुए। जब ट्रेनिंग डेटासेट में नए फ़ीचर जोड़े गए, तो बैगिंग 1 मॉडल का F1-स्कोर 0.79 से बढ़कर 0.83 हो गया, प्रिसिजन 0.73 से बढ़कर 0.77 हो गया, और रिकॉल 0.86 से बढ़कर 0.89 हो गया। पहले अनसीन डेटासेट पर, उन्हीं फ़ीचर को जोड़ने से F1-स्कोर और प्रिसिजन में सुधार हुआ, जबकि रिकॉल 0.88 पर स्थिर रहा। ये फ़ायदे बताते हैं कि बिहेवियरल पैटर्न स्टैंडर्ड ट्रांज़ैक्शन वैरिएबल से परे फ्रॉड डिटेक्शन को मज़बूत कर सकते हैं।
रियल-वर्ल्ड डिप्लॉयमेंट के लिए मॉनिटरिंग, प्राइवेसी सेफ़गार्ड और कम फ़ॉल्स पॉज़िटिव की ज़रूरत होती है।
स्टडी का दावा है कि एक इंटीग्रेटेड फ्रॉड डिटेक्शन फ़्रेमवर्क आइसोलेटेड मॉडल सुधारों से बेहतर परफ़ॉर्म कर सकता है। सिर्फ़ एल्गोरिदम चुनने पर फ़ोकस करने के बजाय, रिसर्चर्स ने फ़ीचर इंजीनियरिंग, क्लास इम्बैलेंस हैंडलिंग, थ्रेशोल्ड ट्यूनिंग, एन्सेम्बल डाइवर्सिटी और अनसीन-डेटा वैलिडेशन को मिलाया। इस बड़ी पाइपलाइन को फ़ाइनेंशियल फ्रॉड डिटेक्शन के लिए एक स्केलेबल अप्रोच के तौर पर रखा गया है।
मॉडल ने अनसीन डेटासेट पर भी मज़बूत परफ़ॉर्मेंस दिखाई। कई अनदेखे डेटासेट पर, चुने गए बैगिंग मॉडल ने हाई एक्यूरेसी और मज़बूत रिकॉल और प्रिसिजन हासिल किया, जिसमें कुछ डेटासेट ने मुख्य मेट्रिक्स में 0.95 से ज़्यादा स्कोर रिकॉर्ड किए। यह इसलिए ज़रूरी है क्योंकि असली फाइनेंशियल सिस्टम में ऐसे ट्रांज़ैक्शन पैटर्न मिलते हैं जो ट्रेनिंग डेटा से अलग होते हैं। एक मॉडल जो सिर्फ़ एक डेटासेट पर अच्छा परफॉर्म करता है, वह लाइव बैंकिंग एनवायरनमेंट में डिप्लॉय करने पर फेल हो सकता है।
रिसर्चर्स प्रैक्टिकल दिक्कतों को भी मानते हैं। एनसेंबल मॉडल कम्प्यूटेशनल कॉम्प्लेक्सिटी बढ़ा सकते हैं, और रियल-टाइम फ्रॉड डिटेक्शन के लिए कम-लेटेंसी वाले सिस्टम की ज़रूरत होती है जो बड़े ट्रांज़ैक्शन वॉल्यूम को तेज़ी से प्रोसेस कर सकें। बैगिंग मॉडल काफ़ी स्केलेबल होते हैं क्योंकि उन्हें पैरेललाइज़ किया जा सकता है, लेकिन डिप्लॉयमेंट के लिए अभी भी मॉडल प्रूनिंग, डिस्ट्रिब्यूटेड कंप्यूटिंग या इंक्रीमेंटल लर्निंग की ज़रूरत हो सकती है।
फ़ॉल्स पॉज़िटिव एक बड़ी ऑपरेशनल चिंता बनी हुई है। मज़बूत रिकॉल वाला मॉडल ज़्यादा फ्रॉड पकड़ सकता है, लेकिन अगर यह बहुत ज़्यादा सही ट्रांज़ैक्शन को फ़्लैग करता है, तो बैंकों को कस्टमर की नाराज़गी, ट्रांज़ैक्शन में देरी और एक्स्ट्रा रिव्यू कॉस्ट का सामना करना पड़ सकता है। इसलिए स्टडी फ्रॉड डिटेक्शन और ऑपरेशनल कॉस्ट के बीच बैलेंस बनाने के लिए थ्रेशहोल्ड और डिसीज़न बाउंड्री पर और काम करने की सलाह देती है।
रिसर्चर्स लगातार मॉडल मॉनिटरिंग की भी मांग करते हैं क्योंकि फ्रॉड टैक्टिक्स बदलती रहती हैं। जैसे-जैसे क्रिमिनल्स डिटेक्शन सिस्टम के हिसाब से ढलते हैं, स्टैटिक मॉडल अपना असर खो सकते हैं। कॉन्सेप्ट ड्रिफ्ट को मैनेज करने के लिए लाइव फ़ाइनेंशियल सिस्टम को अपडेट किया जाना चाहिए, जहाँ ट्रांज़ैक्शन के स्टैटिस्टिकल पैटर्न समय के साथ बदलते हैं। यह डिजिटल बैंकिंग में खास तौर पर ज़रूरी है, जहाँ फ्रॉड के तरीके चैनल और रीजन में तेज़ी से बदल सकते हैं।
स्टडी में ज़्यादा एडवांस्ड फ़ीचर इंजीनियरिंग, यूज़र बिहेवियर एनालिटिक्स का ज़्यादा मज़बूत इस्तेमाल, बैगिंग टेक्नीक की गहरी जांच, और रियल टाइम में बड़ी मात्रा में ट्रांज़ैक्शन को प्रोसेस करने में सक्षम स्केलेबल पाइपलाइन की सलाह दी गई है। यह रिसर्चर, बैंक, इंडस्ट्री स्टेकहोल्डर और रेगुलेटर के बीच मिलकर रिसर्च करने और ज़िम्मेदारी से डेटा शेयर करने की ज़रूरत की ओर भी इशारा करता है, साथ ही प्राइवेसी और सिक्योरिटी की भी रक्षा करता है।
भविष्य की रिसर्च मॉडल इंटरप्रिटेबिलिटी का भी पता लगा सकती है। फाइनेंशियल इंस्टीट्यूशन को अक्सर यह बताना पड़ता है कि ट्रांज़ैक्शन क्यों ब्लॉक या फ़्लैग किए गए हैं, और रेगुलेटर ऑटोमेटेड सिस्टम में ट्रांसपेरेंट फ़ैसले लेने की ज़रूरत महसूस कर सकते हैं। इंटरप्रिटेबिलिटी तब खास तौर पर ज़रूरी हो जाती है जब मशीन लर्निंग मॉडल कस्टमर के पेमेंट तक एक्सेस को प्रभावित करते हैं।
रिसर्चर कोऑर्डिनेटेड फ्रॉड ग्रुप की पहचान करने के लिए फ्रॉड डिटेक्शन को नेटवर्क-बेस्ड एनालिसिस में बढ़ाने का भी सुझाव देते हैं। सोशल नेटवर्क एनालिसिस, जिसकी पहले से ही एंटी-मनी लॉन्ड्रिंग कॉन्टेक्स्ट में स्टडी की जा चुकी है, हर ट्रांज़ैक्शन को एक अलग घटना मानने के बजाय जुड़े हुए सस्पिशियस एक्टर का पता लगाने में मदद कर सकता है।
Next Story





