विशिष्ट प्रशिक्षण कंप्यूटर विज़न मॉडल को मनुष्यों की तरह सीखने में मदद कर सकता है: अध्ययन
वाशिंगटन (एएनआई): मनुष्यों के विपरीत, कंप्यूटर विज़न मॉडल आमतौर पर अवधारणात्मक सीधेपन का प्रदर्शन नहीं करते हैं, इसलिए वे अत्यधिक अप्रत्याशित तरीके से दृश्य जानकारी का प्रतिनिधित्व करना सीखते हैं। लेकिन अगर मशीन-लर्निंग मॉडल में यह क्षमता होती है, तो यह उन्हें बेहतर अनुमान लगाने में सक्षम कर सकता है कि वस्तुएं या लोग कैसे आगे बढ़ेंगे।
MIT के शोधकर्ताओं ने पता लगाया है कि एक विशिष्ट प्रशिक्षण पद्धति कंप्यूटर विज़न मॉडल को मनुष्यों की तरह अधिक अवधारणात्मक रूप से सीधे प्रतिनिधित्व सीखने में मदद कर सकती है। प्रशिक्षण में मशीन-लर्निंग मॉडल के लाखों उदाहरण दिखाना शामिल है ताकि वह किसी कार्य को सीख सके।
शोधकर्ताओं ने पाया कि प्रतिकूल प्रशिक्षण नामक तकनीक का उपयोग करके कंप्यूटर दृष्टि मॉडल को प्रशिक्षित करना, जो उन्हें छवियों में जोड़े गए छोटे त्रुटियों के प्रति कम प्रतिक्रियाशील बनाता है, मॉडल की अवधारणात्मक सीधीता में सुधार करता है।
टीम ने यह भी पाया कि एक मॉडल को प्रदर्शन करने के लिए प्रशिक्षित करने वाले कार्य से अवधारणात्मक सीधापन प्रभावित होता है। अमूर्त कार्यों को करने के लिए प्रशिक्षित मॉडल, जैसे छवियों को वर्गीकृत करना, अधिक ठीक-ठाक कार्यों को करने के लिए प्रशिक्षित लोगों की तुलना में अधिक अवधारणात्मक रूप से सीधे प्रतिनिधित्व करना सीखते हैं, जैसे कि एक छवि में प्रत्येक पिक्सेल को एक श्रेणी में असाइन करना।
उदाहरण के लिए, मॉडल के भीतर के नोड्स में आंतरिक सक्रियता होती है जो "कुत्ते" का प्रतिनिधित्व करती है, जो मॉडल को कुत्ते की किसी भी छवि को देखने पर कुत्ते का पता लगाने की अनुमति देती है। छवि में छोटे परिवर्तन होने पर अवधारणात्मक रूप से सीधे प्रतिनिधित्व एक अधिक स्थिर "कुत्ते" प्रतिनिधित्व को बनाए रखता है। यह उन्हें और अधिक मजबूत बनाता है।
कंप्यूटर दृष्टि में अवधारणात्मक सीधेपन की बेहतर समझ प्राप्त करके, शोधकर्ता अंतर्दृष्टि को उजागर करने की उम्मीद करते हैं जो उन्हें ऐसे मॉडल विकसित करने में मदद कर सकता है जो अधिक सटीक भविष्यवाणियां करते हैं। उदाहरण के लिए, यह संपत्ति स्वायत्त वाहनों की सुरक्षा में सुधार कर सकती है जो पैदल चलने वालों, साइकिल चालकों और अन्य वाहनों के प्रक्षेपवक्र की भविष्यवाणी करने के लिए कंप्यूटर दृष्टि मॉडल का उपयोग करते हैं।
वाशा ड्यूटेल कहती हैं, "यहां एक घर ले जाने वाला संदेश यह है कि जैविक प्रणालियों से प्रेरणा लेना, जैसे कि मानव दृष्टि, दोनों आपको इस बारे में अंतर्दृष्टि दे सकते हैं कि क्यों कुछ चीजें इस तरह से काम करती हैं और तंत्रिका नेटवर्क को बेहतर बनाने के लिए विचारों को भी प्रेरित करती हैं।" , एक एमआईटी पोस्टडॉक और कंप्यूटर दृष्टि में अवधारणात्मक सीधेपन की खोज करने वाले पेपर के सह-लेखक।
कागज पर DuTell में शामिल होने वाले प्रमुख लेखक ऐनी हैरिंगटन हैं, जो इलेक्ट्रिकल इंजीनियरिंग और कंप्यूटर विज्ञान विभाग (EECS) में स्नातक छात्र हैं; आयुष तिवारी, एक पोस्टडॉक; मार्क हैमिल्टन, एक स्नातक छात्र; साइमन स्टेंट, वोवन प्लैनेट में अनुसंधान प्रबंधक; रूथ रोसेनहोल्ट्ज़, मस्तिष्क और संज्ञानात्मक विज्ञान विभाग में प्रमुख शोध वैज्ञानिक और कंप्यूटर विज्ञान और कृत्रिम बुद्धिमत्ता प्रयोगशाला (CSAIL) के सदस्य; और वरिष्ठ लेखक विलियम टी. फ्रीमैन, इलेक्ट्रिकल इंजीनियरिंग और कंप्यूटर साइंस के थॉमस और गर्ड पर्किन्स प्रोफेसर और सीएसएएल के सदस्य हैं। शोध को लर्निंग रिप्रेजेंटेशन पर अंतर्राष्ट्रीय सम्मेलन में प्रस्तुत किया जा रहा है।
सीधा करने का अध्ययन
मनुष्यों में अवधारणात्मक सीधेपन के बारे में न्यूयॉर्क विश्वविद्यालय के शोधकर्ताओं की एक टीम के 2019 के पेपर को पढ़ने के बाद, डुटेल, हैरिंगटन और उनके सहयोगियों ने सोचा कि क्या यह संपत्ति कंप्यूटर विज़न मॉडल में भी उपयोगी हो सकती है।
वे यह निर्धारित करने के लिए निर्धारित करते हैं कि क्या विभिन्न प्रकार के कंप्यूटर विज़न मॉडल उनके द्वारा सीखे गए दृश्य प्रतिनिधित्व को सीधा करते हैं। उन्होंने एक वीडियो के प्रत्येक मॉडल फ्रेम को खिलाया और फिर इसकी सीखने की प्रक्रिया में विभिन्न चरणों में प्रतिनिधित्व की जांच की।
यदि वीडियो के फ्रेम में मॉडल का प्रतिनिधित्व अनुमानित तरीके से बदलता है, तो वह मॉडल सीधा हो रहा है। अंत में, इसका आउटपुट प्रतिनिधित्व इनपुट प्रतिनिधित्व से अधिक स्थिर होना चाहिए।
ड्यूटेल बताते हैं, "आप प्रतिनिधित्व को एक रेखा के रूप में सोच सकते हैं, जो वास्तव में सुडौल शुरू होती है। एक मॉडल जो वीडियो से उस सुडौल रेखा को ले सकता है और इसे अपने प्रसंस्करण चरणों के माध्यम से सीधा कर सकता है।"
उनके द्वारा परीक्षण किए गए अधिकांश मॉडल सीधे नहीं हुए। जिन कुछ लोगों ने किया, उनमें से जो सबसे प्रभावी ढंग से सीधे हुए थे, उन्हें प्रतिकूल प्रशिक्षण के रूप में जाने वाली तकनीक का उपयोग करके वर्गीकरण कार्यों के लिए प्रशिक्षित किया गया था।
प्रतिकूल प्रशिक्षण में प्रत्येक पिक्सेल को थोड़ा बदलकर छवियों को संशोधित करना शामिल है। जबकि एक इंसान अंतर को नोटिस नहीं करेगा, ये मामूली परिवर्तन मशीन को मूर्ख बना सकते हैं, इसलिए यह छवि को गलत तरीके से वर्गीकृत करता है। प्रतिकूल प्रशिक्षण मॉडल को और अधिक मजबूत बनाता है, इसलिए यह इन जोड़तोड़ों से धोखा नहीं खाएगा।
क्योंकि प्रतिकूल प्रशिक्षण मॉडल को छवियों में मामूली बदलावों के प्रति कम प्रतिक्रियाशील होना सिखाता है, इससे उसे एक प्रतिनिधित्व सीखने में मदद मिलती है जो समय के साथ अधिक अनुमानित है, हैरिंगटन बताते हैं।
"लोगों को पहले से ही यह विचार था कि प्रतिकूल प्रशिक्षण मदद कर सकता है