तेलंगाना

शोधकर्ताओं ने इंडिक भाषाओं के लिए बहुभाषी उपकरण तैयार किया

Subhi
25 Sept 2023 11:38 AM IST
शोधकर्ताओं ने इंडिक भाषाओं के लिए बहुभाषी उपकरण तैयार किया
x

हैदराबाद: भाषाई रूप से विविध देश होने के नाते, भारत की मूल भाषाओं में एनोटेट संसाधनों के लिए उपकरणों की कमी है और इंडिक भाषाओं के लिए स्वचालित सिस्टम ओपन इंफॉर्मेशन एक्सट्रैक्शन (ओआईई) में खुले डोमेन में प्राकृतिक भाषा पाठ से मूल्यवान तथ्यों का निष्कर्षण शामिल है। ऐसा एक बहुभाषी OIE टूल, जिसे IndIE के नाम से जाना जाता है, पांच शोधकर्ताओं, ऋत्विक मिश्रा और राजीव रत्न शाह (IIIT दिल्ली), सिमरनजीत सिंह (NSUT दिल्ली), पोन्नुरंगम कुमारगुरु (IIIT हैदराबाद), पुष्पक भट्टाचार्य (IIT बॉम्बे) द्वारा विकसित किया गया है।

हिंदी भाषा में इसकी प्रभावशीलता का मूल्यांकन करने के लिए, हिंदी त्रिगुणों के स्वचालित मूल्यांकन के लिए हिंदी-बेंचआईई नामक एक बेंचमार्क स्थापित किया गया है। IndIE का मूल्यांकन 112 हिंदी वाक्यों से निकाले गए स्वर्णिम त्रिगुणों के आधार पर व्यवस्थित रूप से किया गया है।

विभिन्न प्राकृतिक भाषाओं में विकसित चंकर को सामान्यीकृत करने की अपनी प्रदर्शित क्षमता और उर्दू, तमिल और तेलुगु जैसी इंडिक भाषाओं द्वारा साझा किए गए सामान्य निर्भरता संबंधों में निहित ट्रिपल पीढ़ी के नियमों के उपयोग के आधार पर, यह अनुमान लगाना प्रशंसनीय है कि IndIE में क्षमता है इन भाषाओं में वाक्यों के लिए सार्थक त्रिगुण भी उत्पन्न करें।

द हंस इंडिया से बात करते हुए, अंतर्राष्ट्रीय सूचना प्रौद्योगिकी संस्थान, हैदराबाद के प्रोफेसर पोन्नुरंगम कुमारगुरु कहते हैं, “इंडआईई द्वारा समर्थित भाषाओं की संख्या (छंद पुस्तकालय द्वारा समर्थित भाषाओं) के साथ (महत्वपूर्ण निर्भरता वाली भाषाएं हिंदी निर्भरता के साथ ओवरलैप होती हैं) सीमित हैं। संबंध), जो हमें निम्नलिखित इंडिक भाषाएँ देता है: तमिल, तेलुगु और उर्दू। हम मराठी के लिए IndIE की अनुशंसा नहीं करते हैं क्योंकि मराठी के लिए छंद निर्भरता पार्सर टूल को ऐसे डेटा पर प्रशिक्षित किया जाता है जहां मराठी शब्दों/टोकन को आगे टोकन/टूट दिया गया था। हमारा तर्क है कि IndIE तमिल, तेलुगु और उर्दू के लिए काम करेगा इसका मुख्य कारण उनके और हिंदी के बीच निर्भरता संबंधों का उच्च (~96 प्रतिशत) ओवरलैप है।

सबसे आम/लोकप्रिय विषय और वस्तु निर्भरता संबंध हैं। जब हम विषय कहते हैं तो हमारा मतलब इसके आगे के सभी विभक्तियों जैसे nsubj, nsubj:pass, और अन्य से है। इसी प्रकार, वस्तुओं के लिए. ये दोनों निर्भरता संबंध हमें त्रिक के सिर और पूंछ की पहचान करने में मदद करते हैं।

IndIE के संभावित अनुप्रयोग किसी भी अन्य OIE टूल या ट्रिपल एक्सट्रैक्टर टूल के संभावित अनुप्रयोगों के समान हैं यानी ट्रिपल एक्सट्रैक्शन को असंरचित पाठ से नॉलेज ग्राफ़ (KG) बनाने में पहला कदम माना जाता है। आगे कहते हुए, प्रोफेसर कुमारगुरु कहते हैं, “अंग्रेजी के लिए कई ओआईई विधियां हैं, जिसके कारण हमारे पास अंग्रेजी के लिए विभिन्न प्रकार के केजी हैं।

चूँकि इंडिक भाषाओं में ऐसे उपकरण सार्वजनिक रूप से उपलब्ध नहीं हैं, इसलिए हमारा काम इस कमी को पूरा करता है। हमारे काम का एक प्रमुख निहितार्थ सभी बहुभाषी ओआईई विधियों के लिए एक स्थान पर होना है।

Next Story