एक नया ऑडियो सिस्टम उन स्मार्ट उपकरणों को भ्रमित करता है जो सुनने की कोशिश करते हैं
जनता से रिश्ता वेबडेस्क। आप उन्हें सिरी या एलेक्सा के नाम से जानते होंगे। डब्ड पर्सनल असिस्टेंट, ये स्मार्ट डिवाइस चौकस श्रोता हैं। बस कुछ शब्द कहें, और वे एक पसंदीदा गाना बजाएंगे या निकटतम गैस स्टेशन तक ले जाएंगे। लेकिन यह सब सुनने से निजता को खतरा होता है। लोगों को छिपकर सुनने वाले उपकरणों से खुद को बचाने में मदद करने के लिए, एक नई प्रणाली नरम, परिकलित ध्वनियाँ बजाती है। यह उपकरणों को भ्रमित करने के लिए बातचीत को मास्क करता है।
मिया चिक्वियर बताते हैं कि स्मार्ट डिवाइस ध्वनि तरंगों को टेक्स्ट में अनुवाद करने के लिए स्वचालित भाषण-पहचान - या एएसआर - का उपयोग करते हैं। वह न्यूयॉर्क शहर में कोलंबिया विश्वविद्यालय में कंप्यूटर विज्ञान की पढ़ाई करती है। नया कार्यक्रम आपके भाषण के साथ अलग-अलग ध्वनि तरंगों को चलाकर एएसआर को मूर्ख बनाता है। वे अतिरिक्त तरंगें एक ध्वनि संकेत को गड़गड़ाहट करती हैं जिससे ASR के लिए आपके भाषण की ध्वनियों को चुनना कठिन हो जाता है। यह "इस ट्रांसक्रिप्शनिंग सिस्टम को पूरी तरह से भ्रमित करता है," चिक्वियर कहते हैं।
मास्किंग ध्वनियों की मात्रा महत्वपूर्ण नहीं है। दरअसल, ये आवाजें शांत होती हैं। Chiquier उन्हें पृष्ठभूमि में एक छोटे एयर कंडीशनर की आवाज़ से तुलना करता है। वह कहती हैं कि उन्हें प्रभावी बनाने की चाल इन तथाकथित "हमले" ध्वनि तरंगों को किसी के कहने के साथ फिट बैठती है। काम करने के लिए, सिस्टम उन ध्वनियों की भविष्यवाणी करता है जो कोई भविष्य में थोड़े समय के लिए कहेगा। फिर यह उन शब्दों की स्मार्ट स्पीकर की व्याख्या को भ्रमित करने के लिए चुनी गई ध्वनियों को चुपचाप प्रसारित करता है।
यदि आप बहुत अधिक पाठ संदेश भेजते हैं, तो आपका स्मार्टफोन यह अनुमान लगाना शुरू कर देगा कि संदेश में अगले कुछ अक्षर या शब्द क्या होंगे। यह इस बात की भी आदत हो जाती है कि आप किस प्रकार के संदेश भेजते हैं और आपके द्वारा उपयोग किए जाने वाले शब्द। नया एल्गोरिदम लगभग उसी तरह काम करता है।
"हमारा सिस्टम आपके भाषण के अंतिम दो सेकंड को सुनता है," चिक्वियर बताते हैं। "उस भाषण के आधार पर, यह उन ध्वनियों का अनुमान लगाता है जो आप भविष्य में कर सकते हैं।" और न केवल भविष्य में, बल्कि आधे सेकेंड बाद। यह भविष्यवाणी आपकी आवाज की विशेषताओं और आपकी भाषा के पैटर्न पर आधारित है। ये डेटा एल्गोरिदम को सीखने और गणना करने में मदद करते हैं कि टीम भविष्य कहनेवाला हमला क्या कहती है।
यह हमला उस ध्वनि के बराबर है जो सिस्टम स्पीकर के शब्दों के साथ बजाता है। और यह प्रत्येक ध्वनि के साथ बदलता रहता है जो कोई बोलता है। जब हमला एल्गोरिथम द्वारा भविष्यवाणी किए गए शब्दों के साथ खेलता है, तो संयुक्त ध्वनि तरंगें एक ध्वनिक मिशमाश में बदल जाती हैं जो ईयरशॉट के भीतर किसी भी एएसआर सिस्टम को भ्रमित करती है।
चिक्वियर कहते हैं, एएसआर सिस्टम के लिए भविष्य कहनेवाला हमले भी कठिन हैं। उदाहरण के लिए, यदि किसी ने पृष्ठभूमि में एकल ध्वनि चलाकर ASR को बाधित करने का प्रयास किया, तो डिवाइस उस शोर को वाक् ध्वनियों से घटा सकता है। यह सच है, भले ही समय के साथ मास्किंग ध्वनि समय-समय पर बदल जाए।
इसके बजाय नई प्रणाली एक स्पीकर द्वारा अभी-अभी कही गई बातों के आधार पर ध्वनि तरंगें उत्पन्न करती है। तो इसके हमले की आवाज लगातार बदल रही है - और अप्रत्याशित तरीके से। चिक्वियर के अनुसार, इससे "[एएसआर डिवाइस] के खिलाफ बचाव करना बहुत मुश्किल हो जाता है।"
अपने एल्गोरिदम का परीक्षण करने के लिए, शोधकर्ताओं ने वास्तविक जीवन की स्थिति का अनुकरण किया। उन्होंने औसत स्तर के पृष्ठभूमि शोर वाले कमरे में अंग्रेजी बोलने वाले किसी व्यक्ति की रिकॉर्डिंग चलाई। एक एएसआर डिवाइस ने जो कुछ सुना उसे सुना और ट्रांसक्रिप्ट किया। पृष्ठभूमि में सफेद शोर जोड़ने के बाद टीम ने इस परीक्षण को दोहराया। अंत में, टीम ने अपने वॉयस-मास्किंग सिस्टम के साथ ऐसा किया।
आवाज-छलावरण एल्गोरिथ्म ने एएसआर को 80 प्रतिशत समय तक सही ढंग से शब्दों को सुनने से रोक दिया। "द" और "हमारा" जैसे सामान्य शब्द मुखौटा के लिए सबसे कठिन थे। लेकिन उन शब्दों में बहुत अधिक जानकारी नहीं होती है, शोधकर्ताओं ने कहा। उनकी प्रणाली सफेद शोर की तुलना में बहुत अधिक प्रभावी थी। इसने पृष्ठभूमि शोर को घटाने के लिए डिज़ाइन किए गए ASR सिस्टम के विरुद्ध भी अच्छा प्रदर्शन किया।
चिक्वियर कहते हैं, एल्गोरिदम किसी दिन वास्तविक दुनिया में उपयोग के लिए एक ऐप में एम्बेड किया जा सकता है। यह सुनिश्चित करने के लिए कि एक ASR सिस्टम मज़बूती से नहीं सुन सकता, "आप बस ऐप खोलेंगे," वह कहती हैं। "यह इसके बारे में।" सिस्टम को ध्वनि उत्सर्जित करने वाले किसी भी उपकरण में जोड़ा जा सकता है।