तेलंगाना

शोधकर्ताओं ने इंडिक भाषाओं के लिए बहुभाषी उपकरण तैयार किया

Triveni
25 Sep 2023 5:13 AM GMT
शोधकर्ताओं ने इंडिक भाषाओं के लिए बहुभाषी उपकरण तैयार किया
x
हैदराबाद: भाषाई रूप से विविध देश होने के नाते, भारत की मूल भाषाओं में एनोटेट संसाधनों के लिए उपकरणों की कमी है और इंडिक भाषाओं के लिए स्वचालित सिस्टम ओपन इंफॉर्मेशन एक्सट्रैक्शन (ओआईई) में खुले डोमेन में प्राकृतिक भाषा पाठ से मूल्यवान तथ्यों का निष्कर्षण शामिल है। ऐसा एक बहुभाषी OIE टूल, जिसे IndIE के नाम से जाना जाता है, पांच शोधकर्ताओं, ऋत्विक मिश्रा और राजीव रत्न शाह (IIIT दिल्ली), सिमरनजीत सिंह (NSUT दिल्ली), पोन्नुरंगम कुमारगुरु (IIIT हैदराबाद), पुष्पक भट्टाचार्य (IIT बॉम्बे) द्वारा विकसित किया गया है।
हिंदी भाषा में इसकी प्रभावशीलता का मूल्यांकन करने के लिए, हिंदी त्रिगुणों के स्वचालित मूल्यांकन के लिए हिंदी-बेंचआईई नामक एक बेंचमार्क स्थापित किया गया है। IndIE का मूल्यांकन 112 हिंदी वाक्यों से निकाले गए स्वर्णिम त्रिगुणों के आधार पर व्यवस्थित रूप से किया गया है।
विभिन्न प्राकृतिक भाषाओं में विकसित चंकर को सामान्यीकृत करने की अपनी प्रदर्शित क्षमता और उर्दू, तमिल और तेलुगु जैसी इंडिक भाषाओं द्वारा साझा किए गए सामान्य निर्भरता संबंधों में निहित ट्रिपल पीढ़ी के नियमों के उपयोग के आधार पर, यह अनुमान लगाना प्रशंसनीय है कि IndIE में क्षमता है इन भाषाओं में वाक्यों के लिए सार्थक त्रिगुण भी उत्पन्न करें।
द हंस इंडिया से बात करते हुए, अंतर्राष्ट्रीय सूचना प्रौद्योगिकी संस्थान, हैदराबाद के प्रोफेसर पोन्नुरंगम कुमारगुरु कहते हैं, “इंडआईई द्वारा समर्थित भाषाओं की संख्या (छंद पुस्तकालय द्वारा समर्थित भाषाओं) के साथ (महत्वपूर्ण निर्भरता वाली भाषाएं हिंदी निर्भरता के साथ ओवरलैप होती हैं) सीमित हैं। संबंध), जो हमें निम्नलिखित इंडिक भाषाएँ देता है: तमिल, तेलुगु और उर्दू। हम मराठी के लिए IndIE की अनुशंसा नहीं करते हैं क्योंकि मराठी के लिए छंद निर्भरता पार्सर टूल को ऐसे डेटा पर प्रशिक्षित किया जाता है जहां मराठी शब्दों/टोकन को आगे टोकन/टूट दिया गया था। हमारा तर्क है कि IndIE तमिल, तेलुगु और उर्दू के लिए काम करेगा इसका मुख्य कारण उनके और हिंदी के बीच निर्भरता संबंधों का उच्च (~96 प्रतिशत) ओवरलैप है।
सबसे आम/लोकप्रिय विषय और वस्तु निर्भरता संबंध हैं। जब हम विषय कहते हैं तो हमारा मतलब इसके आगे के सभी विभक्तियों जैसे nsubj, nsubj:pass, और अन्य से है। इसी प्रकार, वस्तुओं के लिए. ये दोनों निर्भरता संबंध हमें त्रिक के सिर और पूंछ की पहचान करने में मदद करते हैं।
IndIE के संभावित अनुप्रयोग किसी भी अन्य OIE टूल या ट्रिपल एक्सट्रैक्टर टूल के संभावित अनुप्रयोगों के समान हैं यानी ट्रिपल एक्सट्रैक्शन को असंरचित पाठ से नॉलेज ग्राफ़ (KG) बनाने में पहला कदम माना जाता है। आगे कहते हुए, प्रोफेसर कुमारगुरु कहते हैं, “अंग्रेजी के लिए कई ओआईई विधियां हैं, जिसके कारण हमारे पास अंग्रेजी के लिए विभिन्न प्रकार के केजी हैं।
चूँकि इंडिक भाषाओं में ऐसे उपकरण सार्वजनिक रूप से उपलब्ध नहीं हैं, इसलिए हमारा काम इस कमी को पूरा करता है। हमारे काम का एक प्रमुख निहितार्थ सभी बहुभाषी ओआईई विधियों के लिए एक स्थान पर होना है।
इसके अलावा, हम आश्वस्त हैं कि IndIE बहुभाषी OIE की दिशा में कई अन्य कार्य शुरू करेगा।
Next Story