x
हैदराबाद: भाषाई रूप से विविध देश होने के नाते, भारत की मूल भाषाओं में एनोटेट संसाधनों के लिए उपकरणों की कमी है और इंडिक भाषाओं के लिए स्वचालित सिस्टम ओपन इंफॉर्मेशन एक्सट्रैक्शन (ओआईई) में खुले डोमेन में प्राकृतिक भाषा पाठ से मूल्यवान तथ्यों का निष्कर्षण शामिल है। ऐसा एक बहुभाषी OIE टूल, जिसे IndIE के नाम से जाना जाता है, पांच शोधकर्ताओं, ऋत्विक मिश्रा और राजीव रत्न शाह (IIIT दिल्ली), सिमरनजीत सिंह (NSUT दिल्ली), पोन्नुरंगम कुमारगुरु (IIIT हैदराबाद), पुष्पक भट्टाचार्य (IIT बॉम्बे) द्वारा विकसित किया गया है।
हिंदी भाषा में इसकी प्रभावशीलता का मूल्यांकन करने के लिए, हिंदी त्रिगुणों के स्वचालित मूल्यांकन के लिए हिंदी-बेंचआईई नामक एक बेंचमार्क स्थापित किया गया है। IndIE का मूल्यांकन 112 हिंदी वाक्यों से निकाले गए स्वर्णिम त्रिगुणों के आधार पर व्यवस्थित रूप से किया गया है।
विभिन्न प्राकृतिक भाषाओं में विकसित चंकर को सामान्यीकृत करने की अपनी प्रदर्शित क्षमता और उर्दू, तमिल और तेलुगु जैसी इंडिक भाषाओं द्वारा साझा किए गए सामान्य निर्भरता संबंधों में निहित ट्रिपल पीढ़ी के नियमों के उपयोग के आधार पर, यह अनुमान लगाना प्रशंसनीय है कि IndIE में क्षमता है इन भाषाओं में वाक्यों के लिए सार्थक त्रिगुण भी उत्पन्न करें।
द हंस इंडिया से बात करते हुए, अंतर्राष्ट्रीय सूचना प्रौद्योगिकी संस्थान, हैदराबाद के प्रोफेसर पोन्नुरंगम कुमारगुरु कहते हैं, “इंडआईई द्वारा समर्थित भाषाओं की संख्या (छंद पुस्तकालय द्वारा समर्थित भाषाओं) के साथ (महत्वपूर्ण निर्भरता वाली भाषाएं हिंदी निर्भरता के साथ ओवरलैप होती हैं) सीमित हैं। संबंध), जो हमें निम्नलिखित इंडिक भाषाएँ देता है: तमिल, तेलुगु और उर्दू। हम मराठी के लिए IndIE की अनुशंसा नहीं करते हैं क्योंकि मराठी के लिए छंद निर्भरता पार्सर टूल को ऐसे डेटा पर प्रशिक्षित किया जाता है जहां मराठी शब्दों/टोकन को आगे टोकन/टूट दिया गया था। हमारा तर्क है कि IndIE तमिल, तेलुगु और उर्दू के लिए काम करेगा इसका मुख्य कारण उनके और हिंदी के बीच निर्भरता संबंधों का उच्च (~96 प्रतिशत) ओवरलैप है।
सबसे आम/लोकप्रिय विषय और वस्तु निर्भरता संबंध हैं। जब हम विषय कहते हैं तो हमारा मतलब इसके आगे के सभी विभक्तियों जैसे nsubj, nsubj:pass, और अन्य से है। इसी प्रकार, वस्तुओं के लिए. ये दोनों निर्भरता संबंध हमें त्रिक के सिर और पूंछ की पहचान करने में मदद करते हैं।
IndIE के संभावित अनुप्रयोग किसी भी अन्य OIE टूल या ट्रिपल एक्सट्रैक्टर टूल के संभावित अनुप्रयोगों के समान हैं यानी ट्रिपल एक्सट्रैक्शन को असंरचित पाठ से नॉलेज ग्राफ़ (KG) बनाने में पहला कदम माना जाता है। आगे कहते हुए, प्रोफेसर कुमारगुरु कहते हैं, “अंग्रेजी के लिए कई ओआईई विधियां हैं, जिसके कारण हमारे पास अंग्रेजी के लिए विभिन्न प्रकार के केजी हैं।
चूँकि इंडिक भाषाओं में ऐसे उपकरण सार्वजनिक रूप से उपलब्ध नहीं हैं, इसलिए हमारा काम इस कमी को पूरा करता है। हमारे काम का एक प्रमुख निहितार्थ सभी बहुभाषी ओआईई विधियों के लिए एक स्थान पर होना है।
इसके अलावा, हम आश्वस्त हैं कि IndIE बहुभाषी OIE की दिशा में कई अन्य कार्य शुरू करेगा।
Tagsशोधकर्ताओंइंडिक भाषाओंबहुभाषी उपकरण तैयारResearchersIndic languagesprepare multilingual toolsजनता से रिश्ता न्यूज़जनता से रिश्ताआज की ताजा न्यूज़छत्तीसगढ़ न्यूज़हिंन्दी न्यूज़भारत न्यूज़खबरों का सिलसिलाआज का ब्रेंकिग न्यूज़आज की बड़ी खबरमिड डे अख़बारJanta Se Rishta NewsJanta Se RishtaToday's Latest NewsChhattisgarh NewsHindi NewsInsdia NewsKhabaron SisilaToday's Breaking NewsToday's Big NewsMid Day Newspaper
Triveni
Next Story