ऑफ़लाइन रीइन्फोर्समेंट लर्निंग जनरेटिव एआई को मात दे सकती है

इससे जो सीखा जाता है उसकी गुणवत्ता कम हो जाती है। इसके अलावा, ये मॉडल प्रदान नहीं करते हैं

Update: 2023-03-21 04:01 GMT
जबकि चैटजीपीटी और जीपीटी 4 सभी गुस्से में हैं, अन्य जनरेटिव आर्टिफिशियल इंटेलिजेंस (एआई) मॉडल हैं - मालिकाना और खुला स्रोत दोनों - जिन्हें क्षेत्र में प्रतिस्पर्धा करने के लिए सम्मानित किया जा रहा है, जैसे कि Google का बर्ट और ओपन-सोर्स ब्लूम। जबकि ये मॉडल जनरेटिव एआई स्पेस में वर्चस्व के लिए आपस में प्रतिस्पर्धा करते हैं, हमें याद रखना चाहिए कि प्रचार के बावजूद, एआई एक क्षेत्र के रूप में अकेले जनरेटिव एआई द्वारा सीमित नहीं है। एआई के लिए हमारी समस्याओं को हल करने के लिए बहुत सारे अन्य मॉडल हैं। मैं दूसरों की अनदेखी करते हुए जनरेटिव एआई मॉडल पर ध्यान देने के प्रति आगाह करूंगा।
ये मॉडल एक विशिष्ट प्रकार की समस्या पर ध्यान केंद्रित करने के लिए डेटा के बहुत छोटे सेट का उपयोग करते हैं: कहते हैं, एक इंजीनियरिंग पैरामीटर जैसे इलेक्ट्रिक स्कूटर के फ्रंट फोर्क की तन्य शक्ति। इस तरह की समस्या के लिए जनरेटिव एआई का उपयोग करना मेरे विचार से संसाधनों और समय की बर्बादी होगी, और इससे भी बदतर, सबसे अधिक संभावना एक असाध्य समाधान प्रदान करेगी। छोटे, अधिक उपयोगी डेटा सेटों की आवश्यकता होगी।
इस कॉलम के लिए, मैं ऑफलाइन रीइन्फोर्समेंट लर्निंग या ऑफलाइन आरएल नामक एक अन्य विधि पर ध्यान केंद्रित करूंगा, जैसा कि ट्रेड में जाना जाता है। मुझे यह भी लगता है कि Microsoft/OpenAI के प्रतियोगी इस प्रकार के मॉडल का उपयोग अपनी व्यावसायिक समस्या-समाधान में अधिक सटीक बनने के लिए करेंगे, लेकिन इसमें कई महीने लगेंगे। इसके बाद जो होता है वह बस दो मॉडलों (ऑफ़लाइन आरएल और जनरेटिव एआई) के बीच एक अंतर है।
ऑफ़लाइन आरएल एक प्रकार की मशीन लर्निंग है जो एक एजेंट को पर्यावरण से प्राप्त पुरस्कार और दंड के आधार पर निर्णय लेने के लिए प्रशिक्षित करने के लिए अनुभवों के एक निश्चित डेटा-सेट का उपयोग करती है। यह दृष्टिकोण उन परिदृश्यों में विशेष रूप से उपयोगी है जहां वास्तविक समय में डेटा एकत्र करना अव्यावहारिक या महंगा है, या जहां पर्यावरण जटिल और संभावित रूप से खतरनाक है।
ऑफलाइन आरएल में कई ताकतें हैं जो जटिल समस्याओं को हल करने के लिए इसे एक शक्तिशाली उपकरण बनाती हैं। सबसे पहले, यह कम्प्यूटेशनल रूप से कुशल है, क्योंकि इसमें पर्यावरण के साथ रीयल-टाइम इंटरैक्शन की आवश्यकता नहीं होती है। इसका मतलब यह है कि यह सीखने के लिए पूर्व-संग्रहित डेटा का उपयोग कर सकता है, जिससे यह बड़े डेटा-सेट के लिए उपयुक्त हो जाता है। दूसरे, ऑफ़लाइन आरएल विशेषज्ञ प्रदर्शनों, मानव वरीयताओं और सिमुलेशन सहित डेटा-सेट की एक विस्तृत श्रृंखला से सीख सकता है। यह लचीलापन एजेंट को विविध डेटा स्रोतों से सीखने देता है, जिससे गुणवत्ता में सुधार होता है। अंत में, ऑफ़लाइन आरएल एक सुरक्षित, नियंत्रित वातावरण में सीख सकता है। रोबोटिक्स जैसे अनुप्रयोगों में यह बहुत उपयोगी है, जहां पर्यावरण के साथ वास्तविक समय की बातचीत खतरनाक हो सकती है।
मैं एक ब्लॉग पोस्ट पर आया जो दावा करता है कि सुदृढीकरण सीखना आगे का रास्ता है और सुझाव देता है कि एआई युद्धों को जीतने में यह वास्तव में Google का छिपा हुआ हथियार हो सकता है (और न ही बर्ट और न ही बार्ड, जो इसके जनरेटिव एआई मॉडल हैं)। यह ब्लॉग Ignacio DeGregorio (bit.ly/3JRMFHd) द्वारा लिखा गया था।
डीग्रेगोरियो इस वैकल्पिक विधि के लिए एक सुंदर परिभाषा प्रदान करता है: "सुदृढ़ीकरण सीखना, या आरएल, एक बहु-चरणीय प्रक्रिया है जिसके लिए 'इंटरैक्शन' की आवश्यकता होती है। प्रक्रिया में प्रत्येक चरण के लिए, मॉडल अपनी स्थिति (पर्यावरण में इसकी स्थिति) को स्वीकार करता है, एक क्रिया करता है, और यदि क्रिया वांछित अंतिम स्थिति के सन्निकटन का अर्थ देती है, तो उसे एक इनाम मिलता है। प्रत्येक क्रिया के लिए मॉडल एक वीडियो गेम कहता है, यह उस कार्रवाई के प्रभाव को समझता है, संभावित रूप से एक इनाम प्राप्त करता है और उन पुरस्कारों को अधिकतम करने के लिए अपने मापदंडों को फिर से आकार देता है। इस तरह, मॉडल सीखता है कि कौन से कार्यों से पुरस्कार मिलते हैं और नीति को परिभाषित करता है - रणनीति - यह उन्हें अधिकतम करने के लिए पालन करेगा।" मेरे लिए, यह सटीकता बिंदु समाधानों के लिए महत्वपूर्ण है।
हालाँकि, ऑफ़लाइन RL की भी कुछ सीमाएँ हैं जिन पर विचार किया जाना चाहिए। सबसे पहले, सीखी गई नीति की गुणवत्ता प्रशिक्षण डेटा-सेट की गुणवत्ता और विविधता पर बहुत अधिक निर्भर करती है। पक्षपाती डेटा-सेट पक्षपाती नीतियों का कारण बन सकते हैं, जिससे एजेंट की नए परिवेशों के लिए सामान्यीकरण करने की क्षमता सीमित हो जाती है। दूसरे, ऑफ़लाइन आरएल, कम से कम अब तक, वास्तविक समय में पर्यावरण का पता नहीं लगाता है, जिससे एजेंट की नए अनुभवों से सीखने की क्षमता सीमित हो जाती है। इसका परिणाम एक उप-इष्टतम नीति हो सकती है जो बदलते परिवेशों के अनुकूल नहीं हो पाती है। अंत में, प्रशिक्षण के लिए उपयोग किए जाने वाले डेटा-सेट का वितरण उस वातावरण के वितरण से भिन्न हो सकता है जिसमें नीति लागू की जाएगी। यह 'डिस्ट्रीब्यूशन शिफ्ट' के रूप में जानी जाने वाली घटना को जन्म दे सकता है, जहां सीखी गई नीति वास्तविक वातावरण में अच्छा प्रदर्शन नहीं करती है।
जनरेटिव एआई, अपने स्वभाव से, नए डेटा नमूने उत्पन्न करने के लिए इस्तेमाल किया जा सकता है, जिसका उपयोग प्रशिक्षण डेटा-सेट को बढ़ाने के लिए किया जा सकता है। यह दृष्टिकोण अधिक विविध और प्रतिनिधि डेटा प्रदान करके सीखी गई नीति की गुणवत्ता में सुधार कर सकता है। दूसरे, जनरेटिव मॉडल को बिना लेबल वाले डेटा पर प्रशिक्षित किया जा सकता है, जिससे बिना निगरानी के सीखने की अनुमति मिलती है। साथ ही, जनरेटिव मॉडल नए और नए डेटा नमूने उत्पन्न कर सकते हैं, जिससे वे संगीत, लेखन और कंप्यूटर प्रोग्रामिंग जैसे रचनात्मक अनुप्रयोगों में उपयोगी हो जाते हैं।
हालाँकि, जनरेटिव मॉडल 'मोड पतन' के रूप में जानी जाने वाली घटना से पीड़ित हो सकते हैं, जहाँ मॉडल प्रशिक्षण डेटा का केवल एक सीमित सबसेट उत्पन्न करता है। इससे जो सीखा जाता है उसकी गुणवत्ता कम हो जाती है। इसके अलावा, ये मॉडल प्रदान नहीं करते हैं

सोर्स: livemint

Tags:    

Similar News