प्रौद्योगिकी

V2A technology : Google DeepMind ने V2A तकनीक की पेश

Deepa Sahu
18 Jun 2024 1:17 PM GMT
V2A technology : Google DeepMind ने  V2A तकनीक की पेश
x
mobile news :Google Deepmind ने अपने वीडियो-टू-ऑडियो मॉडल का अनावरण किया जो ऑडियो ट्रैक बनाने के लिए वीडियो पिक्सेल और टेक्स्ट का उपयोग करता है। यह तकनीक स्क्रीन पर दृश्यों के अनुरूप वीडियो पिक्सेल और टेक्स्ट प्रॉम्प्ट को मिलाकर आउटपुट बनाती है। Deepmind ने पुराने फुटेज, अभिलेखीय सामग्री, मूक फिल्मों और अन्य में संभावित उपयोग के मामलों पर प्रकाश डाला। अधिक जानकारी के लिए आगे पढ़ें।
Google Deepmind के V2A
को आउटपुट बनाते समय 'सकारात्मक' या 'नकारात्मक' प्रॉम्प्ट के माध्यम से एक विशिष्ट टोन की ओर निर्देशित किया जा सकता है।Google की AI अनुसंधान शाखा Google Deepmind ने घोषणा की है कि वह एक ऐसी तकनीक पर काम कर रही है जो ऑडियो ट्रैक बनाने के लिए वीडियो पिक्सल और टेक्स्ट का उपयोग करती है। यह तकनीक स्क्रीन पर विजुअल के अनुरूप ऑडियो बनाने के लिए वीडियो पिक्सल को टेक्स्ट प्रॉम्प्ट के साथ जोड़कर सिंक्रोनाइज्ड ऑडियोविजुअल जनरेशन को संभव बना सकती है। V2A को नाटकीय ट्रैक, ध्वनि प्रभाव या संवाद बनाने के लिए Google के जनरेटिव
वीडियो मॉडल Veo के साथ जोड़ा जा सकता है जो वीडियो फ्रेम में चरित्र के साथ सिंक हो। Deepmind ने पुराने फुटेज, अभिलेखीय सामग्री, मूक फिल्मों और बहुत कुछ में संभावित उपयोग के मामलों पर प्रकाश डाला। जबकि V2A असीमित साउंडट्रैक उत्पन्न कर सकता है, इसे आउटपुट उत्पन्न करते समय "सकारात्मक" या "नकारात्मक" प्रॉम्प्ट के माध्यम से एक विशिष्ट टोन की ओर निर्देशित किया जा सकता है। Google जल्द ही वीडियो प्लेटफ़ॉर्म पर ये 8 AI-संचालित संवर्द्धन ला सकता है इसके कामकाज के लिए, सिस्टम "वीडियो इनपुट को संपीड़ित प्रतिनिधित्व में एन्कोड करके शुरू होता है" और फिर प्रसार मॉडल "यादृच्छिक शोर से ऑडियो को परिष्कृत करता है"। डीपमाइंड ने कहा, "यह प्रक्रिया दृश्य इनपुट और प्राकृतिक भाषा संकेतों द्वारा निर्देशित होती है, ताकि सिंक्रनाइज़, यथार्थवादी ऑडियो उत्पन्न किया जा सके, जो संकेत के साथ निकटता से संरेखित हो।"
फिर इस ऑडियो को डिकोड किया जाता है, ऑडियो वेवफ़ॉर्म में परिवर्तित किया जाता है और वीडियो के साथ मर्ज किया जाता है। प्रशिक्षण प्रक्रिया के दौरान, Google ने विभिन्न दृश्य दृश्यों से निपटने के दौरान मॉडल को ध्वनियों का एक विशिष्ट सेट उत्पन्न करने के लिए मार्गदर्शन करने के लिए ऑडियो के विवरण और बोले गए शब्द के प्रतिलेखन के साथ AI-जनरेटेड एनोटेशन जोड़े।
इस उपकरण के अलग होने के कारणों के बारे में, डीपमाइंड ने कहा कि
V2A
पिक्सेल से समझता है और आउटपुट उत्पन्न करने के लिए टेक्स्ट-आधारित संकेत जोड़ना वैकल्पिक है। साथ ही, वीडियो तत्वों और उनके समय के साथ सिंक करने के लिए ध्वनि की मैन्युअल गति की आवश्यकता नहीं होती है। सीमा के बारे में, डीपमाइंड ने कहा कि आउटपुट की गुणवत्ता वीडियो इनपुट पर निर्भर करती है और क्लिप में विकृतियाँ या कलाकृतियाँ परिणाम को बाधित कर सकती हैं।
स्पीच की आवश्यकता वाले वीडियो के लिए लिप सिंक में सुधार (क्योंकि V2A का लक्ष्य ट्रांसक्रिप्ट से स्पीच उत्पन्न करना है ताकि इसे चरित्र के मौखिक संकेतों के साथ सिंक किया जा सके) पाइपलाइन में हैं। मॉडल को जनता के लिए रोल आउट नहीं किया जा रहा है और सुरक्षा आकलन और परीक्षण से गुजर रहा है।

Next Story