तेलंगाना
नया मुफ्त टूल Omniparser V2 बड़े भाषा मॉडल (LLM) को अधिक शक्ति देता
Ratna Netam
16 Feb 2025 7:59 PM IST

x
Hyderabad,हैदराबाद: Microsoft ने एक नया AI मॉडल, OmniParser V2 पेश किया। ओपन-सोर्स मॉडल बड़े भाषा मॉडल (LLM) को अनुमति देता है - जो कि बहुत अधिक मात्रा में डेटा पर पहले से प्रशिक्षित डीप-लर्निंग मॉडल हैं - जो कंप्यूटर का उपयोग करने में सक्षम एजेंट के रूप में कार्य करते हैं। Microsoft के अनुसार, ग्राफ़िक यूज़र इंटरफ़ेस (GUI) ऑटोमेशन के लिए ऐसे एजेंट की आवश्यकता होती है जो उपयोगकर्ता स्क्रीन को समझ सकें और उसके साथ इंटरैक्ट कर सकें। हालाँकि, GUI एजेंट के रूप में काम करने के लिए सामान्य उद्देश्य वाले LLM मॉडल का उपयोग करने में कई चुनौतियाँ आती हैं: 1) उपयोगकर्ता इंटरफ़ेस के भीतर इंटरैक्ट करने योग्य आइकन की मज़बूती से पहचान करना, और 2) स्क्रीनशॉट में विभिन्न तत्वों के शब्दार्थ को समझना और स्क्रीन पर संबंधित क्षेत्र के साथ इच्छित क्रिया को सटीक रूप से जोड़ना। OmniParser, UI स्क्रीनशॉट को पिक्सेल स्पेस से स्क्रीनशॉट में संरचित तत्वों में 'टोकनाइज़' करके इस अंतर को पाटता है जो LLM द्वारा व्याख्या योग्य हैं।
यह LLM को पार्स किए गए इंटरैक्ट करने योग्य तत्वों के सेट के आधार पर पुनर्प्राप्ति आधारित अगली क्रिया भविष्यवाणी करने में सक्षम बनाता है। OmniParser V2 इस क्षमता को अगले स्तर पर ले जाता है। अपने पूर्ववर्ती की तुलना में, यह छोटे इंटरैक्टेबल तत्वों का पता लगाने और तेज़ अनुमान लगाने में उच्च सटीकता प्राप्त करता है, जिससे यह GUI स्वचालन के लिए एक उपयोगी उपकरण बन जाता है। विशेष रूप से, OmniParser V2 को इंटरेक्टिव तत्व पहचान डेटा और आइकन फ़ंक्शनल कैप्शन डेटा के एक बड़े सेट के साथ प्रशिक्षित किया जाता है। आइकन कैप्शन मॉडल के इमेज साइज़ को कम करके, OmniParser V2 पिछले संस्करण की तुलना में विलंबता को 60% तक कम कर देता है। विशेष रूप से, Omniparser+GPT-4o हाल ही में जारी ग्राउंडिंग बेंचमार्क ScreenSpot Pro पर 39.6 की अत्याधुनिक औसत सटीकता प्राप्त करता है, जिसमें उच्च रिज़ॉल्यूशन स्क्रीन और छोटे लक्ष्य आइकन हैं। यह GPT-4o के 0.8 के मूल स्कोर पर एक बड़ा सुधार है।
सरल शब्दों में, OmniParserV2 एक ऐसा टूल है जिसे AI मॉडल को ग्राफ़िकल यूज़र इंटरफ़ेस (GUI) के साथ इंटरैक्ट करने में मदद करने के लिए डिज़ाइन किया गया है, जैसे कि आप अपने कंप्यूटर स्क्रीन पर देखते हैं। जब AI मॉडल को GUI में कार्यों को स्वचालित करने के लिए कहा जाता है, तो उन्हें दो मुख्य समस्याओं का सामना करना पड़ता है: 1. स्क्रीन के किन हिस्सों के साथ बातचीत की जा सकती है (जैसे बटन, आइकन, आदि)। 2. स्क्रीन के प्रत्येक भाग का क्या अर्थ है यह समझना और यह जानना कि उस पर क्या कार्रवाई की जानी चाहिए (जैसे बटन पर क्लिक करना या टेक्स्ट दर्ज करना)। OmniParser V2 GUI का स्क्रीनशॉट लेकर और उसे संरचित, समझने योग्य तत्वों में तोड़कर इन समस्याओं को हल करता है। यह दृश्य जानकारी (पिक्सल) को ऐसे भागों में परिवर्तित करता है जिन्हें AI मॉडल आसानी से समझ सकते हैं। इससे AI के लिए यह अनुमान लगाना संभव हो जाता है कि पार्स किए गए तत्वों के आधार पर अगली कार्रवाई क्या होनी चाहिए, जैसे कि कौन सा बटन दबाना है या कौन सा फ़ील्ड भरना है।
Tagsनया मुफ्त टूलOmniparser V2बड़े भाषामॉडल (LLM)New free toolLarge LanguageModels (LLM)जनता से रिश्ता न्यूज़जनता से रिश्ताआज की ताजा न्यूज़हिंन्दी न्यूज़भारत न्यूज़खबरों का सिलसिलाआज की ब्रेंकिग न्यूज़आज की बड़ी खबरमिड डे अख़बारJanta Se Rishta NewsJanta Se RishtaToday's Latest NewsHindi NewsIndia NewsKhabron Ka SilsilaToday's Breaking NewsToday's Big NewsMid Day Newspaperजनताjantasamachar newssamacharहिंन्दी समाचार
Next Story





