
बेंगलुरु: भारतीय विज्ञान संस्थान (IISc) के इलेक्ट्रिकल इंजीनियरिंग विभाग की एक प्रयोगशाला में, डॉ. श्रीराम गणपति मशीनों को वह सिखाने की कोशिश कर रहे हैं जो ज़्यादातर इंसान आसानी से कर लेते हैं - वास्तविक दुनिया के शोर के बीच भाषण को समझना।
अपनी लर्निंग एंड एक्सट्रैक्शन ऑफ़ एकॉस्टिक पैटर्न (LEAP) प्रयोगशाला के साथ, वह यह समझने पर ध्यान केंद्रित कर रहे हैं कि इंसान कैसे बोलते हैं, सुनते हैं और एक-दूसरे की व्याख्या कैसे करते हैं, खास तौर पर शोर भरे माहौल में - जहाँ मौजूदा आर्टिफिशियल इंटेलिजेंस (AI) मॉडल विफल हो जाते हैं। उनके शोध में भविष्य में बेहतर श्रवण यंत्र विकसित करने की बहुत संभावना है।
मशीन लर्निंग को न्यूरोसाइंस के साथ जोड़कर, प्रयोगशाला न केवल भाषण और भावना की पहचान करने के लिए सिस्टम को प्रशिक्षित कर रही है, बल्कि यह भी पता लगा रही है कि मस्तिष्क ध्वनि को कैसे संसाधित करता है।
पिछले नौ वर्षों में, LEAP प्रयोगशाला ने शोर भरे माहौल में काम करने वाले भाषण पहचान प्रणाली विकसित करने से लेकर, बातचीत में मस्तिष्क 'दो वक्ताओं' के बीच कैसे अंतर करता है, इसका अध्ययन करने तक हर चीज़ पर काम किया है। उनके शोध ने सैमसंग, सोनी और गूगल जैसी कंपनियों के साथ सहयोग आकर्षित किया है।
हाल ही में, LEAP लैब की टीम बड़े भाषा मॉडल (LLM) का उपयोग करने की कोशिश कर रही है - चैटGPT में इस्तेमाल किए जाने वाले समान मॉडल - भाषण में भावनाओं का पता लगाने के लिए, एक ऐसा कार्य जिसे सर्वश्रेष्ठ AI टूल भी अभी भी मुश्किल पाते हैं। लैब ने यह अध्ययन करने के लिए प्रयोग किए कि मनुष्य कैसे बता सकते हैं कि कोई नया व्यक्ति कब बोलना शुरू करता है।
IISc लैब ने AI की मदद से सुनने की तकनीक को बेहतर बनाया
एक परीक्षण में, लोगों को स्पीकर में बदलाव देखने पर एक बटन दबाना था। दिलचस्प बात यह है कि जो लोग भाषा नहीं समझते थे, वे बदलाव को पहचानने में तेज़ थे। "यदि भाषा अज्ञात है, तो मस्तिष्क अर्थ पर नहीं, बल्कि आवाज़ और स्वर पर अधिक ध्यान देता है," गणपति ने समझाया, यह बताते हुए कि इससे बेहतर श्रवण यंत्रों को डिज़ाइन करने में मदद मिल सकती है।
गणपति के काम का एक बड़ा हिस्सा "प्रतिनिधित्व सीखने" में है, जहाँ मशीनों को ऑडियो से पैटर्न चुनने के लिए प्रशिक्षित किया जाता है। ये पैटर्न मशीनों को अलग-अलग आवाज़ों, लहज़ों और भावनाओं को पहचानने में मदद करते हैं - तब भी जब भाषण बहुत स्पष्ट न हो। बेहतर श्रवण यंत्रों के अलावा, यह शोध ऐसे आभासी सहायक बनाने में मदद कर सकता है जो अधिक मानवीय लगते हैं।
लैब एक्सप्लेनेबल एआई (xAI) पर भी काम कर रही है, जो विश्लेषण करती है कि एआई के निर्णय कितने भरोसेमंद और समझने योग्य हैं। एक प्रोजेक्ट में, लैब ने कैप्शन में उल्लिखित महत्वपूर्ण दृश्य क्षेत्रों की पहचान करने के लिए इमेज-रिकग्निशन मॉडल को प्रशिक्षित किया। इसने पुराने मॉडल से बेहतर प्रदर्शन किया। इसका उपयोग स्पीच मॉडल में भी किया जा सकता है, जिससे एआई को अपने उत्तरों को अधिक स्पष्ट रूप से समझने और समझाने में मदद मिलती है।
कोविड-19 के दौरान, गणपति की टीम ने कॉसवारा नामक एक ऐप बनाया, जो संभावित कोविड संक्रमणों का पता लगाने के लिए खांसी और आवाज की आवाज़ का उपयोग करता है। उन्होंने पूरे भारत में लोगों के नमूनों का उपयोग करके मॉडल को प्रशिक्षित किया। हालाँकि भारतीय चिकित्सा अनुसंधान परिषद (ICMR) ने इसे बढ़ाने पर चर्चा की, लेकिन यह आगे नहीं बढ़ा। बाद में टीम ने 2023 में अपने निष्कर्ष प्रकाशित किए। उनकी यात्रा केरल में शुरू हुई, जहाँ उन्होंने कॉलेज ऑफ़ इंजीनियरिंग, त्रिवेंद्रम (CET) में इलेक्ट्रॉनिक्स और दूरसंचार का अध्ययन किया। बाद में उन्होंने सिग्नल प्रोसेसिंग में एमटेक के लिए IISc में दाखिला लिया। .
जब उन्होंने EPFL (स्विस फ़ेडरल टेक्नोलॉजी इंस्टीट्यूट ऑफ़ लॉज़ेन), स्विटज़रलैंड के हाइनेक हर्मेंस्की की एक वार्ता में भाग लिया, तो सब कुछ बदल गया। गणपति ने उनसे संपर्क किया और उनकी प्रयोगशाला में शामिल हो गए। पीएचडी के बाद उन्होंने आईबीएम टीजे वाटसन रिसर्च सेंटर में काम किया।





