मशीन लर्निंग की नई ताकत: एन्सेम्बल मॉडल से बेहतर होगी फ्रॉड स्क्रीनिंग

Breaking

Home
/
अन्य खबरें
/
सम्पादकीय
/
मशीन लर्निंग की नई...

मशीन लर्निंग की नई ताकत: एन्सेम्बल मॉडल से बेहतर होगी फ्रॉड स्क्रीनिंग

क्रेडिट कार्ड फ्रॉड रोकने में एन्सेम्बल मशीन लर्निंग मॉडल निभा सकते हैं महत्वपूर्ण भूमिका

फ्रंटियर्स इन आर्टिफिशियल इंटेलिजेंस जर्नल में छपी एक नई स्टडी के मुताबिक, एक नया मशीन लर्निंग फ्रेमवर्क फाइनेंशियल इंस्टीट्यूशन को संदिग्ध क्रेडिट कार्ड ट्रांज़ैक्शन को ज़्यादा सटीकता और तेज़ी से पहचानने में मदद कर सकता है।

इस स्टडी का टाइटल है "क्रेडिट कार्ड फ्रॉड का पता लगाने को बेहतर बनाने के लिए सुपरवाइज्ड मशीन लर्निंग एल्गोरिदम और एन्सेम्बल मॉडल का इस्तेमाल करना", इसमें बहुत ज़्यादा असंतुलित क्रेडिट कार्ड ट्रांज़ैक्शन डेटासेट में फ्रॉड का पता लगाने को बेहतर बनाने के लिए सुपरवाइज्ड ML मॉडल, रीसैंपलिंग तरीकों, बिहेवियरल फीचर्स और एन्सेम्बल लर्निंग टेक्नीक को टेस्ट किया गया।

डिजिटल पेमेंट और असंतुलित डेटा से फ्रॉड का पता लगाने पर दबाव बढ़ रहा है।

क्रेडिट कार्ड के बढ़ते इस्तेमाल ने फ्रॉड के लिए अटैक की गुंजाइश बढ़ा दी है, स्टडी में बताया गया है कि 2018 में ग्लोबल पेमेंट कार्ड फ्रॉड का नुकसान USD 27.85 बिलियन तक पहुंच गया था और 2023 तक इसके USD 35.67 बिलियन तक बढ़ने का अनुमान है। यूनाइटेड स्टेट्स में, रिपोर्ट किए गए फ्रॉड का नुकसान 2023 में USD 10 बिलियन से ज़्यादा हो गया, जो पिछले साल से 14% ज़्यादा है।

क्रेडिट कार्ड फ्रॉड न केवल व्यक्तिगत कार्डहोल्डर्स के लिए बल्कि बैंकों, व्यापारियों, सरकारों और पेमेंट नेटवर्क के लिए भी एक खतरा है। फ्रॉड में चोरी हुए कार्ड, स्किमिंग, फ़िशिंग और कार्ड डिटेल्स का बिना इजाज़त इस्तेमाल शामिल हो सकता है। जैसे-जैसे मोबाइल बैंकिंग, ई-कॉमर्स और डिजिटल वॉलेट बढ़ रहे हैं, फ्रॉड के पैटर्न ज़्यादा तेज़, ज़्यादा मुश्किल और पारंपरिक नियम-आधारित सिस्टम से पकड़ना मुश्किल होता जा रहा है।

इस समस्या को हल करने के लिए मशीन लर्निंग का इस्तेमाल तेज़ी से किया जा रहा है क्योंकि यह पुराने ट्रांज़ैक्शन डेटा से पैटर्न सीख सकता है और नए ट्रांज़ैक्शन को सही या संदिग्ध के तौर पर क्लासिफ़ाई कर सकता है। लेकिन स्टडी एक बड़ी रुकावट को दिखाती है: फ्रॉड डेटासेट बहुत ज़्यादा असंतुलित हैं। नॉर्मल पेमेंट सिस्टम में, सही ट्रांज़ैक्शन की संख्या फ्रॉड वाले ट्रांज़ैक्शन से कहीं ज़्यादा होती है। रिसर्चर्स द्वारा इस्तेमाल किए गए प्राइमरी डेटासेट में, फ्रॉड वाले ट्रांज़ैक्शन रिकॉर्ड का सिर्फ़ 0.5% थे। यह असंतुलन मॉडल की परफ़ॉर्मेंस को बिगाड़ सकता है।

कोई सिस्टम ज़्यादातर ट्रांज़ैक्शन को सही बताकर बहुत सटीक लग सकता है, जबकि सबसे ज़्यादा मायने रखने वाले दुर्लभ फ्रॉड मामलों को भी छोड़ सकता है। बैंकों और पेमेंट प्रोसेसर के लिए, फ्रॉड को न पकड़ने से फ़ाइनेंशियल नुकसान हो सकता है, जबकि बहुत ज़्यादा झूठे अलार्म सही ट्रांज़ैक्शन को रोक सकते हैं और कस्टमर को परेशान कर सकते हैं। इसलिए स्टडी रिकॉल, जो फ्रॉड के मामलों को पकड़ता है, और सटीकता के बीच बैलेंस बनाने की ज़रूरत पर ज़ोर देती है, जिससे गैर-ज़रूरी अलर्ट कम हो जाते हैं।

इस चुनौती का समाधान करने के लिए, रिसर्चर्स ने कई सुपरवाइज्ड मशीन लर्निंग मॉडल्स को टेस्ट किया: डिसीजन ट्री, लॉजिस्टिक रिग्रेशन, नैव बेयस, रैंडम फॉरेस्ट, आर्टिफिशियल न्यूरल नेटवर्क और XGBoost। उन्होंने तीन रीसैंपलिंग टेक्नीक भी इस्तेमाल कीं: रैंडम अंडर-सैंपलिंग, रैंडम ओवर-सैंपलिंग और सिंथेटिक माइनॉरिटी ओवर-सैंपलिंग टेक्नीक। इन तरीकों का इस्तेमाल सही ट्रांज़ैक्शन के प्रति झुकाव कम करने और कम होने वाली फ्रॉड घटनाओं का पता लगाने की क्षमता को बेहतर बनाने के लिए किया गया था।

स्टडी में छह डेटासेट का इस्तेमाल किया गया, जिसमें सिंथेटिक और रियल-वर्ल्ड क्रेडिट कार्ड और पेमेंट फ्रॉड डेटा को मिलाया गया। प्राइमरी ट्रेनिंग डेटासेट में 1.3 मिलियन सिंथेटिक ट्रांज़ैक्शन थे, जबकि पांच अनदेखे डेटासेट का इस्तेमाल यह टेस्ट करने के लिए किया गया कि क्या सबसे अच्छा मॉडल उस डेटा से आगे जनरलाइज़ कर सकता है जिस पर उसे ट्रेन किया गया था। यह मल्टी-डेटासेट वैलिडेशन रिसर्च के लिए सेंट्रल था क्योंकि कई फ्रॉड डिटेक्शन स्टडीज़ एक ही डेटासेट पर निर्भर करती हैं और यह नहीं दिखा सकतीं कि मॉडल अलग-अलग डेटा कंडीशन में कैसा परफॉर्म करते हैं।

बिहेवियरल फीचर्स और एन्सेम्बल मॉडल डिटेक्शन परफॉर्मेंस को बेहतर बनाते हैं

रिसर्चर्स ने डेटा माइनिंग के लिए क्रॉस इंडस्ट्री स्टैंडर्ड प्रोसेस के आस-पास अपना फ्रेमवर्क बनाया, जो मशीन लर्निंग प्रोजेक्ट्स के लिए एक स्ट्रक्चर्ड लाइफसाइकल है। इस प्रोसेस में बिज़नेस की समझ, डेटा की समझ, डेटा तैयार करना, मॉडलिंग, ऑप्टिमाइज़ेशन, इवैल्यूएशन और अनदेखे डेटा पर टेस्टिंग शामिल थी।

डेटा तैयार करने ने एक अहम भूमिका निभाई। स्टडी में फीचर ट्रांसफॉर्मेशन, एन्कोडिंग, स्केलिंग, डेटा स्प्लिटिंग और फीचर सिलेक्शन का इस्तेमाल किया गया। रिसर्चर्स ने सबसे ज़रूरी वैरिएबल्स की पहचान करने के लिए फिल्टर और रैपर दोनों तरीकों का इस्तेमाल किया, जिसमें कोरिलेशन-बेस्ड सिलेक्शन, वेरिएंस थ्रेशोल्डिंग, ANOVA, गिनी इंडेक्स, रिकर्सिव फीचर एलिमिनेशन और फॉरवर्ड फीचर सिलेक्शन शामिल हैं। इस हाइब्रिड अप्रोच का मकसद उन वैरिएबल्स को रखते हुए गैर-ज़रूरी या फालतू फीचर्स को हटाना था जिनसे प्रेडिक्शन बेहतर हुआ।

रिसर्चर्स ने ऐसे बिहेवियरल फीचर्स बनाए जो असामान्य कस्टमर एक्टिविटी को कैप्चर करने के लिए डिज़ाइन किए गए थे। इनमें ट्रांज़ैक्शन फ्रीक्वेंसी, ट्रांज़ैक्शन टाइमिंग और एनोमली स्कोर शामिल थे। लक्ष्य बेसिक ट्रांज़ैक्शन एट्रिब्यूट्स से आगे बढ़ना और कार्डहोल्डर के नॉर्मल बिहेवियर से डेविएशन का पता लगाना था। उदाहरण के लिए, यूज़र के सामान्य टाइम विंडो के बाहर होने वाले ट्रांज़ैक्शन या ट्रांज़ैक्शन एक्टिविटी में अचानक बढ़ोतरी संभावित फ्रॉड के संकेत दे सकती है।

नतीजों से पता चला कि स्टैंडअलोन मॉडल्स की परफॉर्मेंस में काफी अंतर था। लॉजिस्टिक रिग्रेशन और नैव बेयस कुल मिलाकर कमजोर थे, जबकि डिसीजन ट्री और आर्टिफिशियल न्यूरल नेटवर्क ने ज्यादा ठीक-ठाक नतीजे दिए। रैंडम फॉरेस्ट और XGBoost सबसे मजबूत स्टैंडअलोन मॉडल्स में से थे, खासकर रीसैंपलिंग और थ्रेशोल्ड ट्यूनिंग के बाद।

प्रिसिजन और रिकॉल के बीच ट्रेड-ऑफ को बेहतर बनाने के लिए थ्रेशोल्ड ऑप्टिमाइजेशन का इस्तेमाल किया गया। 0.5 का डिफ़ॉल्ट क्लासिफिकेशन थ्रेशोल्ड फ्रॉड डिटेक्शन के लिए सबसे अच्छा नहीं हो सकता है, जहां ज्यादा फ्रॉड केस की पहचान करना स्टैंडर्ड एक्यूरेसी को मैक्सिमाइज करने से ज्यादा जरूरी हो सकता है। रिसर्चर्स ने रैंडम फॉरेस्ट और XGBoost के लिए थ्रेशोल्ड चेंजेस को टेस्ट किया, जिसमें पाया गया कि 0.2 थ्रेशोल्ड पर रैंडम ओवर-सैंपलिंग के साथ रैंडम फॉरेस्ट और 0.7 थ्रेशोल्ड पर SMOTE के साथ XGBoost ने ज्यादा मजबूत फ्रॉड डिटेक्शन बैलेंस दिए।

स्टडी में बैगिंग, बूस्टिंग और स्टैकिंग मॉडल्स को टेस्ट किया गया। एनसेंबल लर्निंग प्रेडिक्टिव स्टेबिलिटी को बेहतर बनाने और किसी एक एल्गोरिदम पर निर्भरता कम करने के लिए कई मॉडल्स को मिलाती है। फ्रॉड डिटेक्शन में, यह कीमती है क्योंकि अलग-अलग मॉडल्स अलग-अलग ट्रांजैक्शन पैटर्न को कैप्चर कर सकते हैं।

एनसेंबल अप्रोच में, बैगिंग मॉडल ने सबसे अच्छा ओवरऑल परफॉर्मेंस दिया। चुने गए बैगिंग 1 मॉडल ने अलग-अलग रीसैंपलिंग कंडीशन में डिसीजन ट्री, रैंडम फॉरेस्ट और आर्टिफिशियल न्यूरल नेटवर्क लर्नर्स को मिलाया। स्टडी की फाइनल समरी में इसने 0.99 एक्यूरेसी, 0.90 रिकॉल और 0.77 प्रिसिजन हासिल किया, जिससे पता चला कि यह गलत पॉजिटिव को मैनेजेबल लेवल पर रखते हुए ज़्यादातर फ्रॉड ट्रांजैक्शन की पहचान कर सकता है।

रिसर्चर्स ने पाया कि बैगिंग, खास परफॉर्मेंस मेज़र में बूस्टिंग और स्टैकिंग से ज़्यादा स्टेबल थी। डिसीजन ट्री और एडाबूस्ट के साथ बूस्टिंग ने अच्छा परफॉर्म किया, लेकिन दूसरे बूस्टिंग कॉन्फ़िगरेशन कमजोर थे। स्टैकिंग मॉडल ने भी अच्छा परफॉर्म किया, जिसमें एक स्टैकिंग मॉडल बैलेंस्ड प्रिसिजन और रिकॉल दिखा रहा था और दूसरा रिकॉल पर ज़ोर दे रहा था। फिर भी, बैगिंग मॉडल को इसलिए चुना गया क्योंकि इसने सबसे कंसिस्टेंट परफॉर्मेंस और बेहतर जनरलाइजेशन पोटेंशियल दिखाया।

बिहेवियरल फीचर्स को जोड़ने से रिजल्ट और बेहतर हुए। जब ट्रेनिंग डेटासेट में नए फ़ीचर जोड़े गए, तो बैगिंग 1 मॉडल का F1-स्कोर 0.79 से बढ़कर 0.83 हो गया, प्रिसिजन 0.73 से बढ़कर 0.77 हो गया, और रिकॉल 0.86 से बढ़कर 0.89 हो गया। पहले अनसीन डेटासेट पर, उन्हीं फ़ीचर को जोड़ने से F1-स्कोर और प्रिसिजन में सुधार हुआ, जबकि रिकॉल 0.88 पर स्थिर रहा। ये फ़ायदे बताते हैं कि बिहेवियरल पैटर्न स्टैंडर्ड ट्रांज़ैक्शन वैरिएबल से परे फ्रॉड डिटेक्शन को मज़बूत कर सकते हैं।

रियल-वर्ल्ड डिप्लॉयमेंट के लिए मॉनिटरिंग, प्राइवेसी सेफ़गार्ड और कम फ़ॉल्स पॉज़िटिव की ज़रूरत होती है।

स्टडी का दावा है कि एक इंटीग्रेटेड फ्रॉड डिटेक्शन फ़्रेमवर्क आइसोलेटेड मॉडल सुधारों से बेहतर परफ़ॉर्म कर सकता है। सिर्फ़ एल्गोरिदम चुनने पर फ़ोकस करने के बजाय, रिसर्चर्स ने फ़ीचर इंजीनियरिंग, क्लास इम्बैलेंस हैंडलिंग, थ्रेशोल्ड ट्यूनिंग, एन्सेम्बल डाइवर्सिटी और अनसीन-डेटा वैलिडेशन को मिलाया। इस बड़ी पाइपलाइन को फ़ाइनेंशियल फ्रॉड डिटेक्शन के लिए एक स्केलेबल अप्रोच के तौर पर रखा गया है।

मॉडल ने अनसीन डेटासेट पर भी मज़बूत परफ़ॉर्मेंस दिखाई। कई अनदेखे डेटासेट पर, चुने गए बैगिंग मॉडल ने हाई एक्यूरेसी और मज़बूत रिकॉल और प्रिसिजन हासिल किया, जिसमें कुछ डेटासेट ने मुख्य मेट्रिक्स में 0.95 से ज़्यादा स्कोर रिकॉर्ड किए। यह इसलिए ज़रूरी है क्योंकि असली फाइनेंशियल सिस्टम में ऐसे ट्रांज़ैक्शन पैटर्न मिलते हैं जो ट्रेनिंग डेटा से अलग होते हैं। एक मॉडल जो सिर्फ़ एक डेटासेट पर अच्छा परफॉर्म करता है, वह लाइव बैंकिंग एनवायरनमेंट में डिप्लॉय करने पर फेल हो सकता है।

रिसर्चर्स प्रैक्टिकल दिक्कतों को भी मानते हैं। एनसेंबल मॉडल कम्प्यूटेशनल कॉम्प्लेक्सिटी बढ़ा सकते हैं, और रियल-टाइम फ्रॉड डिटेक्शन के लिए कम-लेटेंसी वाले सिस्टम की ज़रूरत होती है जो बड़े ट्रांज़ैक्शन वॉल्यूम को तेज़ी से प्रोसेस कर सकें। बैगिंग मॉडल काफ़ी स्केलेबल होते हैं क्योंकि उन्हें पैरेललाइज़ किया जा सकता है, लेकिन डिप्लॉयमेंट के लिए अभी भी मॉडल प्रूनिंग, डिस्ट्रिब्यूटेड कंप्यूटिंग या इंक्रीमेंटल लर्निंग की ज़रूरत हो सकती है।

फ़ॉल्स पॉज़िटिव एक बड़ी ऑपरेशनल चिंता बनी हुई है। मज़बूत रिकॉल वाला मॉडल ज़्यादा फ्रॉड पकड़ सकता है, लेकिन अगर यह बहुत ज़्यादा सही ट्रांज़ैक्शन को फ़्लैग करता है, तो बैंकों को कस्टमर की नाराज़गी, ट्रांज़ैक्शन में देरी और एक्स्ट्रा रिव्यू कॉस्ट का सामना करना पड़ सकता है। इसलिए स्टडी फ्रॉड डिटेक्शन और ऑपरेशनल कॉस्ट के बीच बैलेंस बनाने के लिए थ्रेशहोल्ड और डिसीज़न बाउंड्री पर और काम करने की सलाह देती है।

रिसर्चर्स लगातार मॉडल मॉनिटरिंग की भी मांग करते हैं क्योंकि फ्रॉड टैक्टिक्स बदलती रहती हैं। जैसे-जैसे क्रिमिनल्स डिटेक्शन सिस्टम के हिसाब से ढलते हैं, स्टैटिक मॉडल अपना असर खो सकते हैं। कॉन्सेप्ट ड्रिफ्ट को मैनेज करने के लिए लाइव फ़ाइनेंशियल सिस्टम को अपडेट किया जाना चाहिए, जहाँ ट्रांज़ैक्शन के स्टैटिस्टिकल पैटर्न समय के साथ बदलते हैं। यह डिजिटल बैंकिंग में खास तौर पर ज़रूरी है, जहाँ फ्रॉड के तरीके चैनल और रीजन में तेज़ी से बदल सकते हैं।

स्टडी में ज़्यादा एडवांस्ड फ़ीचर इंजीनियरिंग, यूज़र बिहेवियर एनालिटिक्स का ज़्यादा मज़बूत इस्तेमाल, बैगिंग टेक्नीक की गहरी जांच, और रियल टाइम में बड़ी मात्रा में ट्रांज़ैक्शन को प्रोसेस करने में सक्षम स्केलेबल पाइपलाइन की सलाह दी गई है। यह रिसर्चर, बैंक, इंडस्ट्री स्टेकहोल्डर और रेगुलेटर के बीच मिलकर रिसर्च करने और ज़िम्मेदारी से डेटा शेयर करने की ज़रूरत की ओर भी इशारा करता है, साथ ही प्राइवेसी और सिक्योरिटी की भी रक्षा करता है।

भविष्य की रिसर्च मॉडल इंटरप्रिटेबिलिटी का भी पता लगा सकती है। फाइनेंशियल इंस्टीट्यूशन को अक्सर यह बताना पड़ता है कि ट्रांज़ैक्शन क्यों ब्लॉक या फ़्लैग किए गए हैं, और रेगुलेटर ऑटोमेटेड सिस्टम में ट्रांसपेरेंट फ़ैसले लेने की ज़रूरत महसूस कर सकते हैं। इंटरप्रिटेबिलिटी तब खास तौर पर ज़रूरी हो जाती है जब मशीन लर्निंग मॉडल कस्टमर के पेमेंट तक एक्सेस को प्रभावित करते हैं।

रिसर्चर कोऑर्डिनेटेड फ्रॉड ग्रुप की पहचान करने के लिए फ्रॉड डिटेक्शन को नेटवर्क-बेस्ड एनालिसिस में बढ़ाने का भी सुझाव देते हैं। सोशल नेटवर्क एनालिसिस, जिसकी पहले से ही एंटी-मनी लॉन्ड्रिंग कॉन्टेक्स्ट में स्टडी की जा चुकी है, हर ट्रांज़ैक्शन को एक अलग घटना मानने के बजाय जुड़े हुए सस्पिशियस एक्टर का पता लगाने में मदद कर सकता है।

Tagsबैंक एन्सेम्बल मशीन लर्निंग मॉडल क्रेडिट कार्ड फ्रॉड स्क्रीनिंग को मजबूत Bank Ensemble Machine Learning Models Strengthen Credit Card Fraud Screening Janta Se Rishta News Janta Se Rishta Today's Latest News Hindi News India News Khabron Ka Silsila Today's Breaking News Today's Big News Mid Day Newspaper

Breaking

nidhi

छत्तीसगढ़

विश्व

Breaking

nidhi

छत्तीसगढ़

विश्व

Follow us On: