Automatic speech पहचान प्रणाली अभी भी मानव श्रोता का विकल्प नहीं

Update: 2025-02-01 13:15 GMT
Delhi दिल्ली। ऐसी AI प्रणाली का निर्माण करना जो लिंग, आयु, जाति, पहली बनाम दूसरी भाषा, सामाजिक-आर्थिक स्थिति, क्षमता और बहुत सी अन्य चीज़ों से उत्पन्न मानव भाषण में अनंत विविधताओं को समझ सके, के लिए महत्वपूर्ण संसाधनों और समय की आवश्यकता होती है। एक मानव-समान आर्टिफिशियल इंटेलिजेंस सहायक का विचार जिसके साथ आप बात कर सकते हैं, “हर” की रिलीज़ के बाद से कई लोगों की कल्पनाओं में जीवित है, स्पाइक जोनज़ की 2013 की फ़िल्म “हर” एक ऐसे आदमी के बारे में है जो सामंथा नामक एक सिरी-जैसी AI के प्यार में पड़ जाता है। फिल्म के दौरान, नायक उन तरीकों से जूझता है, जिनसे सामंथा, जितनी भी वास्तविक लगती हो, वह मानव नहीं है और कभी नहीं होगी। बारह साल बाद, यह अब विज्ञान कथा की चीज नहीं है।
ChatGPT जैसे जेनरेटिव AI टूल और Apple के सिरी और Amazon के एलेक्सा जैसे डिजिटल सहायक लोगों को ड्राइविंग निर्देश प्राप्त करने, किराने की सूची बनाने और बहुत कुछ करने में मदद करते आपको शायद अपने बैंक या यूटिलिटी कंपनी को कॉल करने और खुद को दोहराने की ज़रूरत पड़ने का निराशाजनक अनुभव हुआ होगा ताकि दूसरी लाइन पर डिजिटल कस्टमर सर्विस बॉट आपको समझ सके। हो सकता है कि आपने अपने फ़ोन पर कोई नोट लिखवाया हो, लेकिन उसमें समय बर्बाद करके आप गलत शब्दों को एडिट कर रहे हों। भाषा विज्ञान और कंप्यूटर विज्ञान के शोधकर्ताओं ने दिखाया है कि ये सिस्टम कुछ लोगों के लिए दूसरों की तुलना में ज़्यादा खराब काम करते हैं। अगर आपका उच्चारण गैर-देशी या क्षेत्रीय है, आप अश्वेत हैं, अफ्रीकी अमेरिकी वर्नाक्यूलर अंग्रेजी बोलते हैं, कोड-स्विच करते हैं, अगर आप महिला हैं, बूढ़े हैं, बहुत छोटे हैं या आपको बोलने में दिक्कत है, तो ये सिस्टम ज़्यादा गलतियाँ करते हैं।
टिन इयर: आप या मेरे विपरीत, स्वचालित स्पीच रिकग्निशन सिस्टम वो नहीं हैं जिन्हें शोधकर्ता "सहानुभूतिपूर्ण श्रोता" कहते हैं। स्वर या चेहरे के हाव-भाव जैसे अन्य उपयोगी संकेतों को समझकर आपको समझने की कोशिश करने के बजाय, वे बस हार मान लेते हैं। या वे एक संभाव्य अनुमान लगाते हैं, एक ऐसा कदम जो कभी-कभी त्रुटि का कारण बन सकता है। जैसे-जैसे कंपनियाँ और सार्वजनिक एजेंसियाँ लागत कम करने के लिए स्वचालित स्पीच रिकग्निशन टूल को तेज़ी से अपना रही हैं, लोगों के पास उनके साथ बातचीत करने के अलावा कोई विकल्प नहीं है। लेकिन ये सिस्टम आपातकालीन प्रथम प्रतिक्रियाकर्ताओं और स्वास्थ्य सेवा से लेकर शिक्षा और कानून प्रवर्तन तक के महत्वपूर्ण क्षेत्रों में जितना अधिक उपयोग में आएंगे, उतनी ही अधिक संभावना है कि जब वे लोगों की बातों को पहचानने में विफल होंगे तो गंभीर परिणाम होंगे। कल्पना करें कि निकट भविष्य में आप किसी कार दुर्घटना में घायल हो गए हैं। आप किसी आपातकालीन स्थिति में पुलिस हेल्पलाइन पर डायल करते हैं, लेकिन मानव डिस्पैचर से जुड़ने के बजाय, आपको एक बॉट मिलता है जिसे गैर-आपातकालीन कॉल को छांटने के लिए डिज़ाइन किया गया है। आपको समझने में कई दौर लगते हैं, जिससे समय की बर्बादी होती है और सबसे खराब समय में आपकी चिंता का स्तर बढ़ जाता है। इस तरह की त्रुटि क्यों होती है? इन प्रणालियों से उत्पन्न होने वाली कुछ असमानताएँ भाषाई डेटा के ढेर में समाहित होती हैं जिसका उपयोग डेवलपर्स बड़े भाषा मॉडल बनाने के लिए करते हैं। डेवलपर्स कृत्रिम बुद्धिमत्ता प्रणालियों को मानव भाषा को समझने और उसकी नकल करने के लिए प्रशिक्षित करते हैं, उन्हें वास्तविक मानव भाषण वाली बड़ी मात्रा में टेक्स्ट और ऑडियो फ़ाइलें खिलाकर। लेकिन वे उन्हें किसकी भाषा खिला रहे हैं? यदि कोई सिस्टम 30 के दशक के मध्य में अमीर श्वेत अमेरिकियों से बात करते समय उच्च सटीकता दर प्राप्त करता है, तो यह अनुमान लगाना उचित है कि इसे इस प्रोफ़ाइल में फिट होने वाले लोगों की बहुत सारी ऑडियो रिकॉर्डिंग का उपयोग करके प्रशिक्षित किया गया था। विभिन्न स्रोतों से कठोर डेटा संग्रह के साथ, AI डेवलपर्स इन त्रुटियों को कम कर सकते हैं। लेकिन ऐसे AI सिस्टम बनाने के लिए जो लिंग, आयु, जाति, पहली बनाम दूसरी भाषा, सामाजिक आर्थिक स्थिति, क्षमता और बहुत कुछ जैसी चीजों से उत्पन्न होने वाले मानव भाषण में अनंत भिन्नताओं को समझ सकें, इसके लिए महत्वपूर्ण संसाधनों और समय की आवश्यकता होती है। 'उचित' अंग्रेजी उन लोगों के लिए जो अंग्रेजी नहीं बोलते हैं - यानी दुनिया भर के अधिकांश लोग - चुनौतियां और भी बड़ी हैं। दुनिया के अधिकांश सबसे बड़े जनरेटिव AI सिस्टम अंग्रेजी में बनाए गए थे, और वे किसी भी अन्य भाषा की तुलना में अंग्रेजी में कहीं बेहतर काम करते हैं।
Tags:    

Similar News

-->