तेलंगाना

शोधकर्ताओं ने इंडिक भाषाओं के लिए बहुभाषी उपकरण तैयार किया है

Tulsi Rao
25 Sep 2023 11:02 AM GMT
शोधकर्ताओं ने इंडिक भाषाओं के लिए बहुभाषी उपकरण तैयार किया है
x

हैदराबाद: भाषाई रूप से विविध देश होने के नाते, भारत की मूल भाषाओं में एनोटेट संसाधनों के लिए उपकरणों की कमी है और इंडिक भाषाओं के लिए स्वचालित सिस्टम ओपन इंफॉर्मेशन एक्सट्रैक्शन (ओआईई) में खुले डोमेन में प्राकृतिक भाषा पाठ से मूल्यवान तथ्यों का निष्कर्षण शामिल है। ऐसा एक बहुभाषी OIE टूल, जिसे IndIE के नाम से जाना जाता है, पांच शोधकर्ताओं, ऋत्विक मिश्रा और राजीव रत्न शाह (IIIT दिल्ली), सिमरनजीत सिंह (NSUT दिल्ली), पोन्नुरंगम कुमारगुरु (IIIT हैदराबाद), पुष्पक भट्टाचार्य (IIT बॉम्बे) द्वारा विकसित किया गया है। यह भी पढ़ें- चंद्रबाबू नायडू की गिरफ्तारी पर अभिनेता सुमन ने दी प्रतिक्रिया हिंदी भाषा में इसकी प्रभावशीलता का मूल्यांकन करने के लिए, हिंदी त्रिगुणों के स्वचालित मूल्यांकन के लिए हिंदी-बेंचआईई नामक एक बेंचमार्क स्थापित किया गया है। IndIE का मूल्यांकन 112 हिंदी वाक्यों से निकाले गए स्वर्णिम त्रिगुणों के आधार पर व्यवस्थित रूप से किया गया है। विभिन्न प्राकृतिक भाषाओं में विकसित चंकर को सामान्यीकृत करने की अपनी प्रदर्शित क्षमता और उर्दू, तमिल और तेलुगु जैसी इंडिक भाषाओं द्वारा साझा किए गए सामान्य निर्भरता संबंधों में निहित ट्रिपल पीढ़ी के नियमों के उपयोग के आधार पर, यह अनुमान लगाना प्रशंसनीय है कि IndIE में क्षमता है इन भाषाओं में वाक्यों के लिए सार्थक त्रिगुण भी उत्पन्न करें। यह भी पढ़ें- तेलंगाना के राज्यपाल ने दो एमएलसी पदों के लिए केसीआर के उम्मीदवारों को खारिज कर दिया द हंस इंडिया से बात करते हुए, अंतर्राष्ट्रीय सूचना प्रौद्योगिकी संस्थान, हैदराबाद के प्रोफेसर पोन्नुरंगम कुमारगुरु कहते हैं, “इंडआईई द्वारा समर्थित भाषाओं की संख्या छंद द्वारा समर्थित भाषाओं के प्रतिच्छेदन द्वारा सीमित है पुस्तकालय) के साथ (महत्वपूर्ण निर्भरता वाली भाषाएँ हिंदी निर्भरता संबंधों के साथ ओवरलैप होती हैं), जो हमें निम्नलिखित इंडिक भाषाएँ देती हैं: तमिल, तेलुगु और उर्दू। हम मराठी के लिए IndIE की अनुशंसा नहीं करते हैं क्योंकि मराठी के लिए छंद निर्भरता पार्सर टूल को ऐसे डेटा पर प्रशिक्षित किया जाता है जहां मराठी शब्दों/टोकन को आगे टोकन/टूट दिया गया था। हमारा तर्क है कि IndIE तमिल, तेलुगु और उर्दू के लिए काम करेगा इसका मुख्य कारण उनके और हिंदी के बीच निर्भरता संबंधों का उच्च (~96 प्रतिशत) ओवरलैप है। यह भी पढ़ें- डेटा चुराने के लिए साइबर अपराधी वॉयस फ़िशिंग को OTP ग्रैबर्स के साथ मर्ज कर रहे हैं: रिपोर्ट सबसे आम/लोकप्रिय विषय और वस्तु निर्भरता संबंध हैं। जब हम विषय कहते हैं तो हमारा मतलब इसके आगे के सभी विभक्तियों जैसे nsubj, nsubj:pass, और अन्य से है। इसी प्रकार, वस्तुओं के लिए. ये दोनों निर्भरता संबंध हमें त्रिक के सिर और पूंछ की पहचान करने में मदद करते हैं। IndIE के संभावित अनुप्रयोग किसी भी अन्य OIE टूल या ट्रिपल एक्सट्रैक्टर टूल के संभावित अनुप्रयोगों के समान हैं यानी ट्रिपल एक्सट्रैक्शन को असंरचित पाठ से नॉलेज ग्राफ़ (KG) बनाने में पहला कदम माना जाता है। आगे कहते हुए, प्रोफेसर कुमारगुरु कहते हैं, “अंग्रेजी के लिए कई ओआईई विधियां हैं, जिसके कारण हमारे पास अंग्रेजी के लिए विभिन्न प्रकार के केजी हैं। चूँकि इंडिक भाषाओं में ऐसे उपकरण सार्वजनिक रूप से उपलब्ध नहीं हैं, इसलिए हमारा काम इस कमी को पूरा करता है। हमारे काम का एक प्रमुख निहितार्थ सभी बहुभाषी ओआईई विधियों के लिए एक स्थान पर होना है। इसके अलावा, हम आश्वस्त हैं कि IndIE बहुभाषी OIE की दिशा में कई अन्य कार्य शुरू करेगा।

Next Story