Rewind: समझ में नहीं आ रहा — क्या भारत का AI बूम अपनी भाषाओं में सोच सकता है? | Rewind: Lost in comprehension — Can India’s AI boom think in its own languages?

Breaking

Home
/
अन्य खबरें
/
सम्पादकीय
/
Rewind: समझ में नहीं आ...

भारत का AI बूम अपनी भाषाओं में सोच सकता है?

जब इंडिया AI इम्पैक्ट समिट 2026 में प्रधानमंत्री नरेंद्र मोदी के भाषण का भारत मंडपम में भारतीय भाषाओं में लाइव ट्रांसलेट किया गया, तो यह एक शानदार तस्वीर थी — इसे इस बात का सबूत माना गया कि भारत का AI मोमेंट आ गया है। भारत में 22 शेड्यूल्ड भाषाएँ हैं। उनमें से सभी कमरे में नहीं थीं। एक ऐसे देश के लिए जहाँ दस में से नौ लोग घर पर इंग्लिश नहीं बोलते, यह गैप — इतना छोटा कि समिट में ध्यान न जाए, इतना बड़ा कि लाखों लोग बाहर हो जाएं — ठीक यही वह कहानी है जिसे तालियों ने दबा दिया।

AI समिट, ग्लोबल साउथ में पहली हाई-लेवल AI गैदरिंग, ने घोषणा की कि AI का मतलब “ऑल इनक्लूसिव” है और इसे “एक मल्टीप्लायर होना चाहिए, मोनोपॉली नहीं।” भारत की लगभग 10% आबादी इंग्लिश बोलती है, और सिर्फ़ 0.02% लोग ही अपनी मातृभाषा के तौर पर बोलते हैं। हिंदी लगभग 43.6% भारतीयों को कवर करती है, लेकिन बंगाली, मराठी, तमिल, तेलुगु, कन्नड़, ओडिया, पंजाबी और असमिया मिलकर करोड़ों और लोगों को रिप्रेजेंट करते हैं — हर एक की अलग स्क्रिप्ट, ग्रामर स्ट्रक्चर और कल्चरल कॉन्टेक्स्ट हैं जिन्हें इंग्लिश-डोमिनेंट मॉडल ठीक से हैंडल नहीं कर पाते हैं।

सर्वम मोमेंट

समिट का सबसे ठोस लैंग्वेज AI प्रोडक्ट बेंगलुरु-बेस्ड सर्वम AI से आया, जिसने विक्रम को पेश किया, जो 35-बिलियन और 105-बिलियन पैरामीटर वाला ओपन-सोर्स मॉडल है। दूसरी तरफ, AI4Bharat ने 22 शेड्यूल्ड भाषाओं में 15,000 घंटे का ट्रांसक्राइब्ड डेटा इकट्ठा किया है। भारतजेन सभी 22 के लिए एक मल्टीमॉडल लार्ज लैंग्वेज मॉडल (LLM) बना रहा है, और Gnani.ai कई फाइनेंशियल सर्विस कंपनियों के लिए रोज़ाना लाखों मल्टीलिंगुअल वॉयस इंटरैक्शन हैंडल करता है।

लेकिन विक्रम अभी पब्लिकली अवेलेबल नहीं है — बेंचमार्क खुद रिपोर्ट किए जाते हैं, और मुश्किल टेस्ट यह है कि क्या इनमें से कोई भी मॉडल सिर्फ जवाब देने के बजाय भारतीय भाषाओं में रीज़न कर सकता है, जो अभी भी अनवेरिफाइड है। यह मकसद असली है। रिसर्च और डिप्लॉयमेंट के बीच का अंतर भी उतना ही असली है।

डेटा वॉल

हर मॉडल उतना ही अच्छा होता है जितना अच्छा वह डेटा जिस पर उसे ट्रेन किया जाता है, और यहां भारत एक स्ट्रक्चरल प्रॉब्लम का सामना कर रहा है जिसे सिर्फ इन्वेस्टमेंट से जल्दी सॉल्व नहीं किया जा सकता। इंग्लिश में दशकों का डिजिटाइज्ड टेक्स्ट, लेबल्ड डेटासेट और इंटरनेट कंटेंट है। बोडो, डोगरी और संताली जैसी भाषाएं – लाखों बोलने वाली शेड्यूल्ड भाषाएं – के पास लगभग कोई इस्तेमाल करने लायक डिजिटल ट्रेनिंग डेटा नहीं है।

फिर लेबलिंग की प्रॉब्लम है। अच्छा AI बनाने के लिए ऐसे ह्यूमन एनोटेटर्स की ज़रूरत होती है जो फ्लूएंट हों, कल्चरल रूप से अवेयर हों, और आउटपुट को इवैल्यूएट कर सकें। IBM के IndQA बेंचमार्क के लिए 11 इंडिक भाषाओं में कल्चरल रूप से ग्राउंडेड प्रॉम्प्ट्स बनाने के लिए 261 इंडियन रिसर्चर्स और लिंग्विस्ट्स की ज़रूरत थी। 22 भाषाओं और सैकड़ों बोलियों में सिस्टमैटिक तरीके से ऐसा करने के लिए एक वर्कफोर्स और फंडिंग पाइपलाइन की ज़रूरत होती है जो आज ऑर्गनाइज्ड रूप में मुश्किल से मौजूद है।

• हाल ही में हुए AI समिट का असली टेस्ट इन्वेस्टमेंट के वादों में नहीं है। इसे रोज़मर्रा के पलों में देखा जाएगा — झारखंड में एक आंगनवाड़ी वर्कर बिना किसी फॉर्म या बिचौलिए के, संताली में आवाज़ से बच्चों के खाने का डेटा लॉग कर रही है; मेघालय के एक गांव में एक बुज़ुर्ग महिला अपने पोते की मदद के बिना खासी में सरकारी हेल्थ स्कीम का इस्तेमाल कर रही है।

लिंग्विस्ट अरविंद जोशी के कोड स्विचिंग पर शुरुआती काम ने दशकों पहले इसे कम्प्यूटेशनल लिंग्विस्टिक्स की सबसे मुश्किल समस्याओं में से एक के तौर पर पहचाना था। यह अभी भी अनसुलझी है। IBM का MILU बेंचमार्क AI को न सिर्फ़ ग्रामर और सिंटैक्स पर बल्कि कानून, हेल्थ और इतिहास समेत 41 सब्जेक्ट्स में कल्चरल फ़्लूएंसी पर भी जाँचता है — ज़्यादातर नए घोषित मॉडल्स को इसके ख़िलाफ़ टेस्ट नहीं किया गया है। हेल्थकेयर और गवर्नेंस के लिए, यह गैप एकेडमिक नहीं है। गलत ट्रांसलेटेड शब्द कोई परेशानी नहीं है; यह नुकसान है।

असली तरक्की, असली गैप

इंडिया AI मिशन के लिए 10,300 करोड़ रुपये से ज़्यादा अलॉट किए गए हैं और इसे 38,000 GPU तक बढ़ाया गया है — सर्वम का विक्रम उस सब्सिडी वाली पहुँच का सीधा प्रोडक्ट है। भाषिनी 350 AI मॉडल्स में 22 भारतीय भाषाओं को सपोर्ट करता है। लेकिन जवाबदेही अभी भी कम है; डेटा प्राइवेसी और AI एथिक्स के लिए पॉलिसी स्टैंडर्ड और रेगुलेटरी फ्रेमवर्क, बिना साफ़ डेटा गवर्नेंस पॉलिसी के काफी हद तक गायब हैं।

सरकारी सेवाओं के लिए मल्टीलिंगुअल AI बनाने की कोशिशों के ब्यूरोक्रेटिक देरी में फंसने का खतरा है। ज़रूरी सवाल यह है — भारत के AI मिशन एलोकेशन का कितना हिस्सा खास तौर पर कम रिसोर्स वाले भाषा डेवलपमेंट बनाम जनरल इंफ्रास्ट्रक्चर के लिए है?

दूसरों ने बनाया आधार

भारत इस समस्या का सामना करने वाला पहला देश नहीं है। नॉर्वे ने नॉर्वेजियन लैंग्वेज बैंक बनाया, जो टेक्स्ट और स्पीच डेटा का एक पब्लिकली फंडेड रिपॉजिटरी है, जो AI ट्रेनिंग के लिए फ्री में उपलब्ध है — बड़े लैंग्वेज मॉडल्स के मेनस्ट्रीम कंसर्न बनने से कई साल पहले। नॉर्वेजियन आज AI में सबसे अच्छी सर्विस वाली नॉन-इंग्लिश भाषाओं में से एक है, इसलिए नहीं कि नॉर्वे में सबसे बड़ी टेक इंडस्ट्री है, बल्कि इसलिए कि उसने लैंग्वेज डेटा को पब्लिक इंफ्रास्ट्रक्चर माना। एक नेशनल लैंग्वेज डेटा कॉमन्स, जो हर रिसर्चर और स्टार्टअप के लिए फ्री में उपलब्ध हो, किसी भी GPU प्रोक्योरमेंट अनाउंसमेंट की तुलना में मल्टीलिंगुअल AI के लिए ज़्यादा काम करेगा।

वेल्स इस बात का सबसे अच्छा उदाहरण देता है कि सिर्फ मैंडेट क्या हासिल कर सकता है। 1993 के वेल्श लैंग्वेज एक्ट ने सभी पब्लिक डिजिटल सर्विसेज़ के लिए वेल्श भाषा की जानकारी को कानूनी ज़रूरत बना दिया। इसने उन टेक्नोलॉजिकल कंपनियों को बढ़ावा दिया जो अपने प्रोडक्ट्स को काम करने के लिए सरकारी कॉन्ट्रैक्ट चाहती थीं।

Breaking

nidhi

छत्तीसगढ़

विश्व

Breaking

Rewind: समझ में नहीं आ रहा — क्या भारत का AI बूम अपनी भाषाओं में सोच सकता है?

nidhi

छत्तीसगढ़

विश्व

Follow us On: