शोधकर्ताओं ने इंडिक भाषाओं के लिए बहुभाषी उपकरण तैयार किया

Update: 2023-09-25 06:08 GMT

हैदराबाद: भाषाई रूप से विविध देश होने के नाते, भारत की मूल भाषाओं में एनोटेट संसाधनों के लिए उपकरणों की कमी है और इंडिक भाषाओं के लिए स्वचालित सिस्टम ओपन इंफॉर्मेशन एक्सट्रैक्शन (ओआईई) में खुले डोमेन में प्राकृतिक भाषा पाठ से मूल्यवान तथ्यों का निष्कर्षण शामिल है। ऐसा एक बहुभाषी OIE टूल, जिसे IndIE के नाम से जाना जाता है, पांच शोधकर्ताओं, ऋत्विक मिश्रा और राजीव रत्न शाह (IIIT दिल्ली), सिमरनजीत सिंह (NSUT दिल्ली), पोन्नुरंगम कुमारगुरु (IIIT हैदराबाद), पुष्पक भट्टाचार्य (IIT बॉम्बे) द्वारा विकसित किया गया है।

हिंदी भाषा में इसकी प्रभावशीलता का मूल्यांकन करने के लिए, हिंदी त्रिगुणों के स्वचालित मूल्यांकन के लिए हिंदी-बेंचआईई नामक एक बेंचमार्क स्थापित किया गया है। IndIE का मूल्यांकन 112 हिंदी वाक्यों से निकाले गए स्वर्णिम त्रिगुणों के आधार पर व्यवस्थित रूप से किया गया है।

विभिन्न प्राकृतिक भाषाओं में विकसित चंकर को सामान्यीकृत करने की अपनी प्रदर्शित क्षमता और उर्दू, तमिल और तेलुगु जैसी इंडिक भाषाओं द्वारा साझा किए गए सामान्य निर्भरता संबंधों में निहित ट्रिपल पीढ़ी के नियमों के उपयोग के आधार पर, यह अनुमान लगाना प्रशंसनीय है कि IndIE में क्षमता है इन भाषाओं में वाक्यों के लिए सार्थक त्रिगुण भी उत्पन्न करें।

द हंस इंडिया से बात करते हुए, अंतर्राष्ट्रीय सूचना प्रौद्योगिकी संस्थान, हैदराबाद के प्रोफेसर पोन्नुरंगम कुमारगुरु कहते हैं, “इंडआईई द्वारा समर्थित भाषाओं की संख्या (छंद पुस्तकालय द्वारा समर्थित भाषाओं) के साथ (महत्वपूर्ण निर्भरता वाली भाषाएं हिंदी निर्भरता के साथ ओवरलैप होती हैं) सीमित हैं। संबंध), जो हमें निम्नलिखित इंडिक भाषाएँ देता है: तमिल, तेलुगु और उर्दू। हम मराठी के लिए IndIE की अनुशंसा नहीं करते हैं क्योंकि मराठी के लिए छंद निर्भरता पार्सर टूल को ऐसे डेटा पर प्रशिक्षित किया जाता है जहां मराठी शब्दों/टोकन को आगे टोकन/टूट दिया गया था। हमारा तर्क है कि IndIE तमिल, तेलुगु और उर्दू के लिए काम करेगा इसका मुख्य कारण उनके और हिंदी के बीच निर्भरता संबंधों का उच्च (~96 प्रतिशत) ओवरलैप है।

सबसे आम/लोकप्रिय विषय और वस्तु निर्भरता संबंध हैं। जब हम विषय कहते हैं तो हमारा मतलब इसके आगे के सभी विभक्तियों जैसे nsubj, nsubj:pass, और अन्य से है। इसी प्रकार, वस्तुओं के लिए. ये दोनों निर्भरता संबंध हमें त्रिक के सिर और पूंछ की पहचान करने में मदद करते हैं।

IndIE के संभावित अनुप्रयोग किसी भी अन्य OIE टूल या ट्रिपल एक्सट्रैक्टर टूल के संभावित अनुप्रयोगों के समान हैं यानी ट्रिपल एक्सट्रैक्शन को असंरचित पाठ से नॉलेज ग्राफ़ (KG) बनाने में पहला कदम माना जाता है। आगे कहते हुए, प्रोफेसर कुमारगुरु कहते हैं, “अंग्रेजी के लिए कई ओआईई विधियां हैं, जिसके कारण हमारे पास अंग्रेजी के लिए विभिन्न प्रकार के केजी हैं।

चूँकि इंडिक भाषाओं में ऐसे उपकरण सार्वजनिक रूप से उपलब्ध नहीं हैं, इसलिए हमारा काम इस कमी को पूरा करता है। हमारे काम का एक प्रमुख निहितार्थ सभी बहुभाषी ओआईई विधियों के लिए एक स्थान पर होना है।

 

Tags:    

Similar News

-->