V2A technology : Google DeepMind ने V2A तकनीक की पेश

Breaking

mobile news :Google Deepmind ने अपने वीडियो-टू-ऑडियो मॉडल का अनावरण किया जो ऑडियो ट्रैक बनाने के लिए वीडियो पिक्सेल और टेक्स्ट का उपयोग करता है। यह तकनीक स्क्रीन पर दृश्यों के अनुरूप वीडियो पिक्सेल और टेक्स्ट प्रॉम्प्ट को मिलाकर आउटपुट बनाती है। Deepmind ने पुराने फुटेज, अभिलेखीय सामग्री, मूक फिल्मों और अन्य में संभावित उपयोग के मामलों पर प्रकाश डाला। अधिक जानकारी के लिए आगे पढ़ें।

Google Deepmind के V2A को आउटपुट बनाते समय 'सकारात्मक' या 'नकारात्मक' प्रॉम्प्ट के माध्यम से एक विशिष्ट टोन की ओर निर्देशित किया जा सकता है।Google की AI अनुसंधान शाखा Google Deepmind ने घोषणा की है कि वह एक ऐसी तकनीक पर काम कर रही है जो ऑडियो ट्रैक बनाने के लिए वीडियो पिक्सल और टेक्स्ट का उपयोग करती है। यह तकनीक स्क्रीन पर विजुअल के अनुरूप ऑडियो बनाने के लिए वीडियो पिक्सल को टेक्स्ट प्रॉम्प्ट के साथ जोड़कर सिंक्रोनाइज्ड ऑडियोविजुअल जनरेशन को संभव बना सकती है। V2A को नाटकीय ट्रैक, ध्वनि प्रभाव या संवाद बनाने के लिए Google के जनरेटिव

वीडियो मॉडल Veo के साथ जोड़ा जा सकता है जो वीडियो फ्रेम में चरित्र के साथ सिंक हो। Deepmind ने पुराने फुटेज, अभिलेखीय सामग्री, मूक फिल्मों और बहुत कुछ में संभावित उपयोग के मामलों पर प्रकाश डाला। जबकि V2A असीमित साउंडट्रैक उत्पन्न कर सकता है, इसे आउटपुट उत्पन्न करते समय "सकारात्मक" या "नकारात्मक" प्रॉम्प्ट के माध्यम से एक विशिष्ट टोन की ओर निर्देशित किया जा सकता है। Google जल्द ही वीडियो प्लेटफ़ॉर्म पर ये 8 AI-संचालित संवर्द्धन ला सकता है इसके कामकाज के लिए, सिस्टम "वीडियो इनपुट को संपीड़ित प्रतिनिधित्व में एन्कोड करके शुरू होता है" और फिर प्रसार मॉडल "यादृच्छिक शोर से ऑडियो को परिष्कृत करता है"। डीपमाइंड ने कहा, "यह प्रक्रिया दृश्य इनपुट और प्राकृतिक भाषा संकेतों द्वारा निर्देशित होती है, ताकि सिंक्रनाइज़, यथार्थवादी ऑडियो उत्पन्न किया जा सके, जो संकेत के साथ निकटता से संरेखित हो।"

फिर इस ऑडियो को डिकोड किया जाता है, ऑडियो वेवफ़ॉर्म में परिवर्तित किया जाता है और वीडियो के साथ मर्ज किया जाता है। प्रशिक्षण प्रक्रिया के दौरान, Google ने विभिन्न दृश्य दृश्यों से निपटने के दौरान मॉडल को ध्वनियों का एक विशिष्ट सेट उत्पन्न करने के लिए मार्गदर्शन करने के लिए ऑडियो के विवरण और बोले गए शब्द के प्रतिलेखन के साथ AI-जनरेटेड एनोटेशन जोड़े।

इस उपकरण के अलग होने के कारणों के बारे में, डीपमाइंड ने कहा कि
V2A पिक्सेल से समझता है और आउटपुट उत्पन्न करने के लिए टेक्स्ट-आधारित संकेत जोड़ना वैकल्पिक है। साथ ही, वीडियो तत्वों और उनके समय के साथ सिंक करने के लिए ध्वनि की मैन्युअल गति की आवश्यकता नहीं होती है। सीमा के बारे में, डीपमाइंड ने कहा कि आउटपुट की गुणवत्ता वीडियो इनपुट पर निर्भर करती है और क्लिप में विकृतियाँ या कलाकृतियाँ परिणाम को बाधित कर सकती हैं।

स्पीच की आवश्यकता वाले वीडियो के लिए लिप सिंक में सुधार (क्योंकि V2A का लक्ष्य ट्रांसक्रिप्ट से स्पीच उत्पन्न करना है ताकि इसे चरित्र के मौखिक संकेतों के साथ सिंक किया जा सके) पाइपलाइन में हैं। मॉडल को जनता के लिए रोल आउट नहीं किया जा रहा है और सुरक्षा आकलन और परीक्षण से गुजर रहा है।

Breaking

Deepa Sahu

छत्तीसगढ़

विश्व

Breaking

V2A technology : Google DeepMind ने V2A तकनीक की पेश

Deepa Sahu

छत्तीसगढ़

विश्व

Follow us On: