प्रौद्योगिकी

नया AI मॉडल शोर वाले ऑडियो को ट्यून करने में मदद करेगा

9 Feb 2024 4:41 AM GMT
नया AI मॉडल शोर वाले ऑडियो को ट्यून करने में मदद करेगा
x

नई दिल्ली: शोधकर्ताओं ने एक नया कृत्रिम बुद्धिमत्ता (एआई) मॉडल विकसित किया है जो मनुष्य के भाषण को समझने के तरीके का लाभ उठाकर वास्तविक दुनिया के परिदृश्यों में ऑडियो गुणवत्ता में काफी सुधार कर सकता है। ओहियो स्टेट यूनिवर्सिटी, यूएस की टीम ने पाया कि लोगों द्वारा बनाई गई ध्वनि की गुणवत्ता की व्यक्तिपरक …

नई दिल्ली: शोधकर्ताओं ने एक नया कृत्रिम बुद्धिमत्ता (एआई) मॉडल विकसित किया है जो मनुष्य के भाषण को समझने के तरीके का लाभ उठाकर वास्तविक दुनिया के परिदृश्यों में ऑडियो गुणवत्ता में काफी सुधार कर सकता है।
ओहियो स्टेट यूनिवर्सिटी, यूएस की टीम ने पाया कि लोगों द्वारा बनाई गई ध्वनि की गुणवत्ता की व्यक्तिपरक रेटिंग को भाषण वृद्धि मॉडल के साथ जोड़ा जा सकता है ताकि वस्तुनिष्ठ मेट्रिक्स द्वारा मापी गई बेहतर भाषण गुणवत्ता प्राप्त की जा सके।

ऑडियो, स्पीच और लैंग्वेज प्रोसेसिंग पर आईईईई/एसीएम ट्रांजेक्शन जर्नल में वर्णित नए मॉडल ने शोर वाले ऑडियो - अवांछित ध्वनियों की उपस्थिति को कम करने में अन्य मानक तरीकों से बेहतर प्रदर्शन किया है जो श्रोता वास्तव में जो सुनना चाहते हैं उसे बाधित कर सकते हैं।शोधकर्ताओं ने कहा कि मॉडल द्वारा उत्पन्न पूर्वानुमानित गुणवत्ता स्कोर मनुष्यों द्वारा किए गए निर्णयों से दृढ़ता से संबंधित पाए गए।

पृष्ठभूमि शोर को सीमित करने के पारंपरिक उपायों ने वांछित सिग्नल से शोर निकालने के लिए एआई एल्गोरिदम का उपयोग किया है।हालाँकि, ओहियो स्टेट यूनिवर्सिटी के एसोसिएट प्रोफेसर और अध्ययन के सह-लेखक डोनाल्ड विलियमसन ने कहा, ये वस्तुनिष्ठ तरीके हमेशा श्रोताओं के मूल्यांकन से मेल नहीं खाते हैं कि भाषण को समझना आसान क्यों है।विलियमसन ने एक बयान में कहा, "जो बात इस अध्ययन को दूसरों से अलग करती है वह यह है कि हम अवांछित ध्वनियों को हटाने के लिए मॉडल को प्रशिक्षित करने के लिए धारणा का उपयोग करने की कोशिश कर रहे हैं।"

शोधकर्ताओं ने कहा कि अगर सिग्नल की गुणवत्ता के संदर्भ में कुछ लोगों द्वारा समझा जा सकता है, तो मॉडल इसे सीखने और बेहतर शोर को दूर करने के लिए अतिरिक्त जानकारी के रूप में उपयोग कर सकता है।अध्ययन में मोनोरल स्पीच एन्हांसमेंट, या एक माइक्रोफोन जैसे एकल ऑडियो चैनल से आने वाले भाषण को बेहतर बनाने पर ध्यान केंद्रित किया गया।इस अध्ययन ने नए मॉडल को पिछले शोध के दो डेटासेट पर प्रशिक्षित किया जिसमें बात कर रहे लोगों की रिकॉर्डिंग शामिल थी। कुछ मामलों में, टीवी या संगीत जैसे पृष्ठभूमि शोर थे जो बातचीत को अस्पष्ट कर सकते थे।

श्रोताओं ने प्रत्येक रिकॉर्डिंग की भाषण गुणवत्ता को 1 से 100 के पैमाने पर रेटिंग दी।यह मॉडल एक संयुक्त-शिक्षण पद्धति से अपना प्रभावशाली प्रदर्शन प्राप्त करता है जिसमें एक भविष्यवाणी मॉडल के साथ एक विशेष भाषण वृद्धि भाषा मॉड्यूल शामिल होता है जो औसत राय स्कोर का अनुमान लगा सकता है कि मानव श्रोता एक शोर संकेत दे सकते हैं।परिणामों से पता चला कि नए दृष्टिकोण ने बेहतर भाषण गुणवत्ता के लिए अन्य मॉडलों को बेहतर प्रदर्शन किया है, जैसा कि अवधारणात्मक गुणवत्ता, सुगमता और मानव रेटिंग जैसे उद्देश्य मेट्रिक्स द्वारा मापा जाता है।

तथापि। विलियमसन ने कहा, ध्वनि की गुणवत्ता के बारे में मानवीय धारणा का उपयोग करने के अपने मुद्दे हैं।"जो चीज़ शोर वाले ऑडियो का मूल्यांकन करना इतना कठिन बनाती है वह यह है कि यह बहुत ही व्यक्तिपरक है। उन्होंने कहा, "यह आपकी सुनने की क्षमताओं और आपके सुनने के अनुभवों पर निर्भर करता है।"शोधकर्ता ने कहा कि श्रवण यंत्र या कॉकलियर इम्प्लांट जैसे कारक भी इस बात पर असर डालते हैं कि औसत व्यक्ति अपने ध्वनि वातावरण से कितना कुछ ग्रहण करता है।

    Next Story