Apple के शोधकर्ताओं ने गणित में एआई की तर्क क्षमता पर सवाल उठाए

Update: 2024-10-12 14:12 GMT

NEW DELHI नई दिल्ली: Apple शोधकर्ताओं की एक टीम ने बड़े भाषा मॉडल (LLM) की औपचारिक तर्क क्षमताओं पर सवाल उठाए हैं, खासकर गणित में।उन्होंने पाया कि LLM एक ही प्रश्न के विभिन्न उदाहरणों का जवाब देते समय ध्यान देने योग्य भिन्नता प्रदर्शित करते हैं।साहित्य से पता चलता है कि LLM में तर्क प्रक्रिया औपचारिक तर्क के बजाय संभाव्य पैटर्न-मिलान है।हालांकि LLM अधिक अमूर्त तर्क पैटर्न से मेल खा सकते हैं, लेकिन वे सच्चे तार्किक तर्क से कम हैं। इनपुट टोकन में छोटे बदलाव मॉडल आउटपुट को काफी हद तक बदल सकते हैं, जो एक मजबूत टोकन पूर्वाग्रह का संकेत देते हैं और सुझाव देते हैं कि ये मॉडल अत्यधिक संवेदनशील और नाजुक हैं।

Apple शोधकर्ताओं ने अपने पेपर "GSM-सिंबोलिक: बड़े भाषा मॉडल में गणितीय तर्क की सीमाओं को समझना" में कहा, "इसके अलावा, कई टोकन के सही चयन की आवश्यकता वाले कार्यों में, सटीक उत्तर पर पहुंचने की संभावना शामिल टोकन या चरणों की संख्या के साथ तेजी से कम हो जाती है, जो जटिल तर्क परिदृश्यों में उनकी अंतर्निहित अविश्वसनीयता को रेखांकित करता है।" ग्रेड-स्कूल स्तर के प्रश्नों पर मॉडल के गणितीय तर्क का आकलन करने के लिए ‘GSM8K’ बेंचमार्क का व्यापक रूप से उपयोग किया जाता है।जबकि हाल के वर्षों में GSM8K पर LLM के प्रदर्शन में उल्लेखनीय सुधार हुआ है, यह स्पष्ट नहीं है कि उनकी गणितीय तर्क क्षमताएँ वास्तव में उन्नत हुई हैं या नहीं, जिससे रिपोर्ट किए गए मीट्रिक की विश्वसनीयता पर सवाल उठते हैं।

इन चिंताओं को दूर करने के लिए, शोधकर्ताओं ने कई अत्याधुनिक खुले और बंद मॉडलों पर बड़े पैमाने पर अध्ययन किया।लेखकों ने लिखा, "मौजूदा मूल्यांकनों की सीमाओं को दूर करने के लिए, हम GSM-Symbolic पेश करते हैं, जो प्रतीकात्मक टेम्पलेट्स से निर्मित एक बेहतर बेंचमार्क है जो प्रश्नों के विविध सेट की पीढ़ी की अनुमति देता है।"

GSM-Symbolic अधिक नियंत्रणीय मूल्यांकन सक्षम करता है, मॉडल की तर्क क्षमताओं को मापने के लिए महत्वपूर्ण अंतर्दृष्टि और अधिक विश्वसनीय मीट्रिक प्रदान करता है। शोधकर्ताओं ने कहा, "हमारे निष्कर्षों से पता चलता है कि LLM एक ही प्रश्न के विभिन्न उदाहरणों का जवाब देते समय ध्यान देने योग्य भिन्नता प्रदर्शित करते हैं," उन्होंने कहा कि कुल मिलाकर, "हमारा काम गणितीय तर्क में LLM की क्षमताओं और सीमाओं की अधिक सूक्ष्म समझ प्रदान करता है"।

Apple के शोधकर्ताओं ने गणित में एआई की तर्क क्षमता पर सवाल उठाए

Similar News