प्रौद्योगिकी

चीनी ओपन-सोर्स AI डीपसीक R1 ओपनAI के o1 से 98% कम कीमत पर

Harrison
27 Jan 2025 1:14 PM GMT
चीनी ओपन-सोर्स AI डीपसीक R1 ओपनAI के o1 से 98% कम कीमत पर
x
DELHI. दिल्ली। चीनी AI शोधकर्ताओं ने वह हासिल किया है जो कई लोगों को लगता था कि प्रकाश वर्ष दूर है: चीनी AI विशेषज्ञों ने एक मुफ़्त ओपन-सोर्स AI मॉडल विकसित किया है जो OpenAI की अग्रणी तर्क प्रणालियों के बराबर या उससे बेहतर है। जो बात इसे और भी उल्लेखनीय बनाती है वह यह है कि उन्होंने यह कैसे किया: शोधकर्ताओं ने एक AI विकसित करके यह सफलता हासिल की जो मानव सीखने की प्रक्रियाओं की तरह ही प्रयोगात्मक परीक्षण और त्रुटि के माध्यम से स्वायत्त रूप से सीखती है। शोध पत्र डीपसीक-आर1-जीरो को एक ऐसे मॉडल के रूप में वर्णित करता है जो बिना किसी पर्यवेक्षित फ़ाइन-ट्यूनिंग प्रक्रिया के बड़े पैमाने पर सुदृढीकरण सीखने के माध्यम से प्रभावशाली तर्क क्षमता प्रदर्शित करता है।
सुदृढीकरण सीखने की विधि मॉडल को पुरस्कारों के माध्यम से अच्छे निर्णयों और दंड के माध्यम से बुरे निर्णयों की पहचान करना सिखाती है, लेकिन यह बताए बिना कि कौन से निर्णय सही थे। कई निर्णयों के माध्यम से मॉडल यह पता लगाता है कि उन परिणामों से मजबूत मार्ग का अनुसरण कैसे किया जाए। पर्यवेक्षित फ़ाइन-ट्यूनिंग के दौरान मनुष्य अच्छे और बुरे परिणामों के मानक निर्धारित करने के लिए मॉडल को वांछित आउटपुट के उदाहरण प्रदान करते हैं। इस चरण के बाद, मॉडल सुदृढीकरण सीखने की ओर बढ़ता है जहाँ यह विभिन्न आउटपुट उत्पन्न करता है जिसका मूल्यांकन मनुष्य शीर्ष प्रदर्शनकर्ताओं को चुनने के लिए करते हैं।
मॉडल बार-बार इस प्रक्रिया से गुजरता है जब तक कि वह लगातार संतोषजनक परिणाम देना नहीं सीख जाता। डीपसीक आर1 मॉडल प्रशिक्षण प्रक्रिया के दौरान अपनी न्यूनतम मानवीय भागीदारी के कारण एआई विकास में एक नई दिशा का प्रतिनिधित्व करता है। डीपसीक आर1 मुख्य रूप से यांत्रिक सुदृढीकरण सीखने पर निर्भर करता है जो इसे विभिन्न क्रियाओं के साथ प्रयोग करके और सफल परिणामों को समझने के लिए प्रतिक्रिया प्राप्त करके सीखने की अनुमति देता है। शोध पत्र में कहा गया है कि डीपसीक-आर1-जीरो सुदृढीकरण सीखने के माध्यम से शक्तिशाली और दिलचस्प तर्क व्यवहार विकसित करता है। मॉडल ने स्व-सत्यापन और प्रतिबिंब जैसी उन्नत क्षमताओं को हासिल किया, भले ही ये क्षमताएं सीधे इसमें प्रोग्राम नहीं की गई थीं। प्रदर्शन संख्या प्रभावशाली हैं। डीपसीक आर1 ने AIME 2024 गणित बेंचमार्क पर 79.8% स्कोर किया, जो OpenAI के o1 तर्क मॉडल से ऊपर था। मॉडल ने 2,029 की कोडफोर्स एलो रेटिंग के साथ मानकीकृत कोडिंग परीक्षणों पर "विशेषज्ञ स्तर" प्रदर्शन हासिल किया, जबकि 96.3% मानव प्रतियोगियों को पीछे छोड़ दिया।
Next Story