सम्पादकीय

Rewind: समझ में नहीं आ रहा — क्या भारत का AI बूम अपनी भाषाओं में सोच सकता है?

nidhi
12 April 2026 9:32 AM IST
Rewind: समझ में नहीं आ रहा — क्या भारत का AI बूम अपनी भाषाओं में सोच सकता है?
x
भारत का AI बूम अपनी भाषाओं में सोच सकता है?
जब इंडिया AI इम्पैक्ट समिट 2026 में प्रधानमंत्री नरेंद्र मोदी के भाषण का भारत मंडपम में भारतीय भाषाओं में लाइव ट्रांसलेट किया गया, तो यह एक शानदार तस्वीर थी — इसे इस बात का सबूत माना गया कि भारत का AI मोमेंट आ गया है। भारत में 22 शेड्यूल्ड भाषाएँ हैं। उनमें से सभी कमरे में नहीं थीं। एक ऐसे देश के लिए जहाँ दस में से नौ लोग घर पर इंग्लिश नहीं बोलते, यह गैप — इतना छोटा कि समिट में ध्यान न जाए, इतना बड़ा कि लाखों लोग बाहर हो जाएं — ठीक यही वह कहानी है जिसे तालियों ने दबा दिया।
AI समिट, ग्लोबल साउथ में पहली हाई-लेवल AI गैदरिंग, ने घोषणा की कि AI का मतलब “ऑल इनक्लूसिव” है और इसे “एक मल्टीप्लायर होना चाहिए, मोनोपॉली नहीं।” भारत की लगभग 10% आबादी इंग्लिश बोलती है, और सिर्फ़ 0.02% लोग ही अपनी मातृभाषा के तौर पर बोलते हैं। हिंदी लगभग 43.6% भारतीयों को कवर करती है, लेकिन बंगाली, मराठी, तमिल, तेलुगु, कन्नड़, ओडिया, पंजाबी और असमिया मिलकर करोड़ों और लोगों को रिप्रेजेंट करते हैं — हर एक की अलग स्क्रिप्ट, ग्रामर स्ट्रक्चर और कल्चरल कॉन्टेक्स्ट हैं जिन्हें इंग्लिश-डोमिनेंट मॉडल ठीक से हैंडल नहीं कर पाते हैं।
सर्वम मोमेंट
समिट का सबसे ठोस लैंग्वेज AI प्रोडक्ट बेंगलुरु-बेस्ड सर्वम AI से आया, जिसने विक्रम को पेश किया, जो 35-बिलियन और 105-बिलियन पैरामीटर वाला ओपन-सोर्स मॉडल है। दूसरी तरफ, AI4Bharat ने 22 शेड्यूल्ड भाषाओं में 15,000 घंटे का ट्रांसक्राइब्ड डेटा इकट्ठा किया है। भारतजेन सभी 22 के लिए एक मल्टीमॉडल लार्ज लैंग्वेज मॉडल (LLM) बना रहा है, और Gnani.ai कई फाइनेंशियल सर्विस कंपनियों के लिए रोज़ाना लाखों मल्टीलिंगुअल वॉयस इंटरैक्शन हैंडल करता है।
लेकिन विक्रम अभी पब्लिकली अवेलेबल नहीं है — बेंचमार्क खुद रिपोर्ट किए जाते हैं, और मुश्किल टेस्ट यह है कि क्या इनमें से कोई भी मॉडल सिर्फ जवाब देने के बजाय भारतीय भाषाओं में रीज़न कर सकता है, जो अभी भी अनवेरिफाइड है। यह मकसद असली है। रिसर्च और डिप्लॉयमेंट के बीच का अंतर भी उतना ही असली है।
डेटा वॉल
हर मॉडल उतना ही अच्छा होता है जितना अच्छा वह डेटा जिस पर उसे ट्रेन किया जाता है, और यहां भारत एक स्ट्रक्चरल प्रॉब्लम का सामना कर रहा है जिसे सिर्फ इन्वेस्टमेंट से जल्दी सॉल्व नहीं किया जा सकता। इंग्लिश में दशकों का डिजिटाइज्ड टेक्स्ट, लेबल्ड डेटासेट और इंटरनेट कंटेंट है। बोडो, डोगरी और संताली जैसी भाषाएं – लाखों बोलने वाली शेड्यूल्ड भाषाएं – के पास लगभग कोई इस्तेमाल करने लायक डिजिटल ट्रेनिंग डेटा नहीं है।
फिर लेबलिंग की प्रॉब्लम है। अच्छा AI बनाने के लिए ऐसे ह्यूमन एनोटेटर्स की ज़रूरत होती है जो फ्लूएंट हों, कल्चरल रूप से अवेयर हों, और आउटपुट को इवैल्यूएट कर सकें। IBM के IndQA बेंचमार्क के लिए 11 इंडिक भाषाओं में कल्चरल रूप से ग्राउंडेड प्रॉम्प्ट्स बनाने के लिए 261 इंडियन रिसर्चर्स और लिंग्विस्ट्स की ज़रूरत थी। 22 भाषाओं और सैकड़ों बोलियों में सिस्टमैटिक तरीके से ऐसा करने के लिए एक वर्कफोर्स और फंडिंग पाइपलाइन की ज़रूरत होती है जो आज ऑर्गनाइज्ड रूप में मुश्किल से मौजूद है।
• हाल ही में हुए AI समिट का असली टेस्ट इन्वेस्टमेंट के वादों में नहीं है। इसे रोज़मर्रा के पलों में देखा जाएगा — झारखंड में एक आंगनवाड़ी वर्कर बिना किसी फॉर्म या बिचौलिए के, संताली में आवाज़ से बच्चों के खाने का डेटा लॉग कर रही है; मेघालय के एक गांव में एक बुज़ुर्ग महिला अपने पोते की मदद के बिना खासी में सरकारी हेल्थ स्कीम का इस्तेमाल कर रही है।
लिंग्विस्ट अरविंद जोशी के कोड स्विचिंग पर शुरुआती काम ने दशकों पहले इसे कम्प्यूटेशनल लिंग्विस्टिक्स की सबसे मुश्किल समस्याओं में से एक के तौर पर पहचाना था। यह अभी भी अनसुलझी है। IBM का MILU बेंचमार्क AI को न सिर्फ़ ग्रामर और सिंटैक्स पर बल्कि कानून, हेल्थ और इतिहास समेत 41 सब्जेक्ट्स में कल्चरल फ़्लूएंसी पर भी जाँचता है — ज़्यादातर नए घोषित मॉडल्स को इसके ख़िलाफ़ टेस्ट नहीं किया गया है। हेल्थकेयर और गवर्नेंस के लिए, यह गैप एकेडमिक नहीं है। गलत ट्रांसलेटेड शब्द कोई परेशानी नहीं है; यह नुकसान है।
असली तरक्की, असली गैप
इंडिया AI मिशन के लिए 10,300 करोड़ रुपये से ज़्यादा अलॉट किए गए हैं और इसे 38,000 GPU तक बढ़ाया गया है — सर्वम का विक्रम उस सब्सिडी वाली पहुँच का सीधा प्रोडक्ट है। भाषिनी 350 AI मॉडल्स में 22 भारतीय भाषाओं को सपोर्ट करता है। लेकिन जवाबदेही अभी भी कम है; डेटा प्राइवेसी और AI एथिक्स के लिए पॉलिसी स्टैंडर्ड और रेगुलेटरी फ्रेमवर्क, बिना साफ़ डेटा गवर्नेंस पॉलिसी के काफी हद तक गायब हैं।
सरकारी सेवाओं के लिए मल्टीलिंगुअल AI बनाने की कोशिशों के ब्यूरोक्रेटिक देरी में फंसने का खतरा है। ज़रूरी सवाल यह है — भारत के AI मिशन एलोकेशन का कितना हिस्सा खास तौर पर कम रिसोर्स वाले भाषा डेवलपमेंट बनाम जनरल इंफ्रास्ट्रक्चर के लिए है?
दूसरों ने बनाया आधार
भारत इस समस्या का सामना करने वाला पहला देश नहीं है। नॉर्वे ने नॉर्वेजियन लैंग्वेज बैंक बनाया, जो टेक्स्ट और स्पीच डेटा का एक पब्लिकली फंडेड रिपॉजिटरी है, जो AI ट्रेनिंग के लिए फ्री में उपलब्ध है — बड़े लैंग्वेज मॉडल्स के मेनस्ट्रीम कंसर्न बनने से कई साल पहले। नॉर्वेजियन आज AI में सबसे अच्छी सर्विस वाली नॉन-इंग्लिश भाषाओं में से एक है, इसलिए नहीं कि नॉर्वे में सबसे बड़ी टेक इंडस्ट्री है, बल्कि इसलिए कि उसने लैंग्वेज डेटा को पब्लिक इंफ्रास्ट्रक्चर माना। एक नेशनल लैंग्वेज डेटा कॉमन्स, जो हर रिसर्चर और स्टार्टअप के लिए फ्री में उपलब्ध हो, किसी भी GPU प्रोक्योरमेंट अनाउंसमेंट की तुलना में मल्टीलिंगुअल AI के लिए ज़्यादा काम करेगा।
वेल्स इस बात का सबसे अच्छा उदाहरण देता है कि सिर्फ मैंडेट क्या हासिल कर सकता है। 1993 के वेल्श लैंग्वेज एक्ट ने सभी पब्लिक डिजिटल सर्विसेज़ के लिए वेल्श भाषा की जानकारी को कानूनी ज़रूरत बना दिया। इसने उन टेक्नोलॉजिकल कंपनियों को बढ़ावा दिया जो अपने प्रोडक्ट्स को काम करने के लिए सरकारी कॉन्ट्रैक्ट चाहती थीं।
Next Story