Hyderabad हैदराबाद: IIIT हैदराबाद के शोधकर्ताओं ने भाषण हानि वाले लोगों को समझदार भाषण आउटपुट उत्पन्न करने में मदद करने के लिए मशीन लर्निंग (ML) मॉडल का उपयोग किया है। शोधकर्ताओं ने एक वायरलेस स्टेथोस्कोप के न्यूनतम डिजाइन का उपयोग किया जो कान के पीछे के कंपन को परिवर्तित करता है - गैर-श्रव्य फुसफुसाहट के रूप में सुना जाता है - समझदार भाषण में। निष्कर्षों को 'स्टेथोस्पीच: त्वचा से जुड़े एक नैदानिक स्टेथोस्कोप के माध्यम से भाषण पीढ़ी' नामक एक शोध पत्र में शामिल किया गया था, जिसे नील शाह के नेतृत्व में एक टीम द्वारा तैयार किया गया था, जो एक टीसीएस शोधकर्ता और विजुअल इंफॉर्मेशन टेक्नोलॉजी (CVIT), IIITH में पीएचडी छात्र हैं। अन्य शोधकर्ता नेहा साहिपजॉन और विशाल ताम्ब्राहल्ली थे और टीम की देखरेख डॉ रामनाथन सुब्रमण्यन और प्रो।
विनीत गांधी ने की थी। उन्होंने एक मूक भाषण इंटरफ़ेस (एसएसआई) के साथ प्रयोग किया जो गैर-श्रव्य भाषण को एक मुखर आउटपुट में बदल सकता है। एसएसआई संचार का एक रूप है जहां श्रव्य ध्वनि उत्पन्न नहीं होती है। नील ने कहा, "एसएसआई तकनीकों में सबसे लोकप्रिय और सरल है होंठ पढ़ना।" अन्य एसएसआई तकनीकों में अल्ट्रासाउंड जीभ इमेजिंग, रीयल-टाइम एमआरआई (आरटीएमआरआई), इलेक्ट्रोमैग्नेटिक आर्टिकुलोग्राफी और इलेक्ट्रोपैलेटोग्राफी शामिल हैं, जहां मुखर सिलवटों में कंपन का विश्लेषण करके उच्चारण को समझा जाता है।
शोधकर्ताओं के अनुसार, ये तकनीकें अपनी अत्यधिक आक्रामक प्रकृति (जैसे कि गति को मापने के लिए होठों और जीभ से जुड़ी कुंडलियाँ) के कारण कमज़ोर पड़ जाती हैं और वास्तविक समय में काम नहीं करती हैं। टीम ने कान के पीछे की त्वचा से जुड़े स्टेथोस्कोप का इस्तेमाल कान के पीछे के कंपन को समझने योग्य भाषण में बदलने के लिए किया। प्रो. गांधी ने कहा, "ऐसे कंपन को गैर-श्रव्य बड़बड़ाहट (एनएएम) कहा जाता है।" IIITH टीम ने शोर की स्थिति में एकत्र किए गए एनएएम कंपन का एक डेटासेट तैयार किया। इन कंपनों को उनके संबंधित पाठ के साथ जोड़ा गया। "हमने लोगों से कुछ पाठ पढ़ने के लिए कहा - सभी बड़बड़ाते हुए। जब वे पाठ पढ़ रहे थे, तो हमने उनके कानों के पीछे के कंपन को कैप्चर किया। हमने उस डेटा का इस्तेमाल किया और फिर इन कंपनों को भाषण में बदलने के लिए अपने मॉडल को प्रशिक्षित किया,” प्रो. गांधी ने कहा।
ब्लूटूथ के ज़रिए स्टेथोस्कोप के ज़रिए मोबाइल फ़ोन पर
NAM कंपन प्रेषित किए गए और फ़ोन स्पीकर पर आउटपुट के रूप में स्पष्ट भाषण प्राप्त हुआ। नील ने बताया, “हमने दिखाया कि NAM कंपन को भाषण में बदलना ‘शून्य-शॉट’ सेटिंग में भी हो सकता है, जिसका मतलब है कि यह उन नए वक्ताओं के लिए भी काम करता है जिनके डेटा का इस्तेमाल मॉडल को प्रशिक्षित करने के लिए नहीं किया गया है।” 10 सेकंड के NAM कंपन को अनुवाद करने में 0.3 सेकंड से भी कम समय लगता है और यह उपयोगकर्ता के चलने जैसी हरकतों के साथ भी अच्छी तरह से काम करता है।उपयोगकर्ता जातीयता (जैसे दक्षिण भारतीय लहजे में बोली जाने वाली अंग्रेज़ी) और आवाज़ का लिंग भी चुन सकते हैं। किसी भी व्यक्ति के सिर्फ़ चार घंटे के बड़बड़ाने के डेटा को रिकॉर्ड करके, उस व्यक्ति के लिए एक विशेष मॉडल बनाया जा सकता है।
आउटपुट की गुणवत्ता बहुत अच्छी है। प्रो. गांधी ने कहा, “ज़्यादातर ML एल्गोरिदम सीधे टेक्स्ट को भाषण में बदल देते हैं, लेकिन मनुष्य इस तरह से बोलना नहीं सीखते। नवजात शिशु पहले ऑडियो के साथ बातचीत करते हैं और सीधे बोलना शुरू करते हैं।” प्राकृतिक भाषण की नकल करने के लिए, टीम ने सबसे पहले एक स्पीच-टू-स्पीच सिस्टम बनाया। फिर उन्होंने दूसरे एमएल मॉडल की तरह सीधे टेक्स्ट से स्पीच में जाने के बजाय, ध्वनि प्रतिनिधित्व को टेक्स्ट में मैप किया।
इस सिस्टम के भविष्य में बहुत अच्छे निहितार्थ हैं, जिसका एक बड़ा फायदा यह है कि कोई भी वक्ता किसी भी भाषा में 'बोल' सकता है। इसका उपयोग रॉक कॉन्सर्ट जैसे उच्च शोर वाले वातावरण में भी किया जा सकता है, जहाँ सामान्य भाषण भी समझ में नहीं आता है। इसका उपयोग सुरक्षा गार्डों द्वारा किए जाने वाले गुप्त संचार को समझने के लिए भी किया जा सकता है।