तेलंगाना

नया मुफ्त टूल Omniparser V2 बड़े भाषा मॉडल (LLM) को अधिक शक्ति देता

Ratna Netam
16 Feb 2025 7:59 PM IST
नया मुफ्त टूल Omniparser V2 बड़े भाषा मॉडल (LLM) को अधिक शक्ति देता
x
Hyderabad,हैदराबाद: Microsoft ने एक नया AI मॉडल, OmniParser V2 पेश किया। ओपन-सोर्स मॉडल बड़े भाषा मॉडल (LLM) को अनुमति देता है - जो कि बहुत अधिक मात्रा में डेटा पर पहले से प्रशिक्षित डीप-लर्निंग मॉडल हैं - जो कंप्यूटर का उपयोग करने में सक्षम एजेंट के रूप में कार्य करते हैं। Microsoft के अनुसार, ग्राफ़िक यूज़र इंटरफ़ेस (GUI) ऑटोमेशन के लिए ऐसे एजेंट की आवश्यकता होती है जो उपयोगकर्ता स्क्रीन को समझ सकें और उसके साथ इंटरैक्ट कर सकें। हालाँकि, GUI एजेंट के रूप में काम करने के लिए सामान्य उद्देश्य वाले LLM मॉडल का उपयोग करने में कई चुनौतियाँ आती हैं: 1) उपयोगकर्ता इंटरफ़ेस के भीतर इंटरैक्ट करने योग्य आइकन की मज़बूती से पहचान करना, और 2) स्क्रीनशॉट में विभिन्न तत्वों के शब्दार्थ को समझना और स्क्रीन पर संबंधित क्षेत्र के साथ इच्छित क्रिया को सटीक रूप से जोड़ना। OmniParser, UI स्क्रीनशॉट को पिक्सेल स्पेस से स्क्रीनशॉट में संरचित तत्वों में 'टोकनाइज़' करके इस अंतर को पाटता है जो LLM द्वारा व्याख्या योग्य हैं।
यह LLM को पार्स किए गए इंटरैक्ट करने योग्य तत्वों के सेट के आधार पर पुनर्प्राप्ति आधारित अगली क्रिया भविष्यवाणी करने में सक्षम बनाता है। OmniParser V2 इस क्षमता को अगले स्तर पर ले जाता है। अपने पूर्ववर्ती की तुलना में, यह छोटे इंटरैक्टेबल तत्वों का पता लगाने और तेज़ अनुमान लगाने में उच्च सटीकता प्राप्त करता है, जिससे यह GUI स्वचालन के लिए एक उपयोगी उपकरण बन जाता है। विशेष रूप से, OmniParser V2 को इंटरेक्टिव तत्व पहचान डेटा और आइकन फ़ंक्शनल कैप्शन डेटा के एक बड़े सेट के साथ प्रशिक्षित किया जाता है। आइकन कैप्शन मॉडल के इमेज साइज़ को कम करके, OmniParser V2 पिछले संस्करण की तुलना में विलंबता को 60% तक कम कर देता है। विशेष रूप से, Omniparser+GPT-4o हाल ही में जारी ग्राउंडिंग बेंचमार्क ScreenSpot Pro पर 39.6 की अत्याधुनिक औसत सटीकता प्राप्त करता है, जिसमें उच्च रिज़ॉल्यूशन स्क्रीन और छोटे लक्ष्य आइकन हैं। यह GPT-4o के 0.8 के मूल स्कोर पर एक बड़ा सुधार है।
सरल शब्दों में, OmniParserV2 एक ऐसा टूल है जिसे AI मॉडल को ग्राफ़िकल यूज़र इंटरफ़ेस (GUI) के साथ इंटरैक्ट करने में मदद करने के लिए डिज़ाइन किया गया है, जैसे कि आप अपने कंप्यूटर स्क्रीन पर देखते हैं। जब AI मॉडल को GUI में कार्यों को स्वचालित करने के लिए कहा जाता है, तो उन्हें दो मुख्य समस्याओं का सामना करना पड़ता है: 1. स्क्रीन के किन हिस्सों के साथ बातचीत की जा सकती है (जैसे बटन, आइकन, आदि)। 2. स्क्रीन के प्रत्येक भाग का क्या अर्थ है यह समझना और यह जानना कि उस पर क्या कार्रवाई की जानी चाहिए (जैसे बटन पर क्लिक करना या टेक्स्ट दर्ज करना)। OmniParser V2 GUI का स्क्रीनशॉट लेकर और उसे संरचित, समझने योग्य तत्वों में तोड़कर इन समस्याओं को हल करता है। यह दृश्य जानकारी (पिक्सल) को ऐसे भागों में परिवर्तित करता है जिन्हें AI मॉडल आसानी से समझ सकते हैं। इससे AI के लिए यह अनुमान लगाना संभव हो जाता है कि पार्स किए गए तत्वों के आधार पर अगली कार्रवाई क्या होनी चाहिए, जैसे कि कौन सा बटन दबाना है या कौन सा फ़ील्ड भरना है।
Next Story