V2A technology : Google DeepMind ने V2A तकनीक की पेश

Update: 2024-06-18 13:17 GMT
mobile news :Google Deepmind ने अपने वीडियो-टू-ऑडियो मॉडल का अनावरण किया जो ऑडियो ट्रैक बनाने के लिए वीडियो पिक्सेल और टेक्स्ट का उपयोग करता है। यह तकनीक स्क्रीन पर दृश्यों के अनुरूप वीडियो पिक्सेल और टेक्स्ट प्रॉम्प्ट को मिलाकर आउटपुट बनाती है। Deepmind ने पुराने फुटेज, अभिलेखीय सामग्री, मूक फिल्मों और अन्य में संभावित उपयोग के मामलों पर प्रकाश डाला। अधिक जानकारी के लिए आगे पढ़ें।
Google Deepmind के V2A
को आउटपुट बनाते समय 'सकारात्मक' या 'नकारात्मक' प्रॉम्प्ट के माध्यम से एक विशिष्ट टोन की ओर निर्देशित किया जा सकता है।Google की AI अनुसंधान शाखा Google Deepmind ने घोषणा की है कि वह एक ऐसी तकनीक पर काम कर रही है जो ऑडियो ट्रैक बनाने के लिए वीडियो पिक्सल और टेक्स्ट का उपयोग करती है। यह तकनीक स्क्रीन पर विजुअल के अनुरूप ऑडियो बनाने के लिए वीडियो पिक्सल को टेक्स्ट प्रॉम्प्ट के साथ जोड़कर सिंक्रोनाइज्ड ऑडियोविजुअल जनरेशन को संभव बना सकती है। V2A को नाटकीय ट्रैक, ध्वनि प्रभाव या संवाद बनाने के लिए Google के जनरेटिव
वीडियो मॉडल Veo के साथ जोड़ा जा सकता है जो वीडियो फ्रेम में चरित्र के साथ सिंक हो। Deepmind ने पुराने फुटेज, अभिलेखीय सामग्री, मूक फिल्मों और बहुत कुछ में संभावित उपयोग के मामलों पर प्रकाश डाला। जबकि V2A असीमित साउंडट्रैक उत्पन्न कर सकता है, इसे आउटपुट उत्पन्न करते समय "सकारात्मक" या "नकारात्मक" प्रॉम्प्ट के माध्यम से एक विशिष्ट टोन की ओर निर्देशित किया जा सकता है।  Google जल्द ही वीडियो प्लेटफ़ॉर्म पर ये 8 AI-संचालित संवर्द्धन ला सकता है इसके कामकाज के लिए, सिस्टम "वीडियो इनपुट को संपीड़ित प्रतिनिधित्व में एन्कोड करके शुरू होता है" और फिर प्रसार मॉडल "यादृच्छिक शोर से ऑडियो को परिष्कृत करता है"। डीपमाइंड ने कहा, "यह प्रक्रिया दृश्य इनपुट और प्राकृतिक भाषा संकेतों द्वारा निर्देशित होती है, ताकि सिंक्रनाइज़, यथार्थवादी ऑडियो उत्पन्न किया जा सके, जो संकेत के साथ निकटता से संरेखित हो।"
फिर इस ऑडियो को डिकोड किया जाता है, ऑडियो वेवफ़ॉर्म में परिवर्तित किया जाता है और वीडियो के साथ मर्ज किया जाता है। प्रशिक्षण प्रक्रिया के दौरान, Google ने विभिन्न दृश्य दृश्यों से निपटने के दौरान मॉडल को ध्वनियों का एक विशिष्ट सेट उत्पन्न करने के लिए मार्गदर्शन करने के लिए ऑडियो के विवरण और बोले गए शब्द के प्रतिलेखन के साथ AI-जनरेटेड एनोटेशन जोड़े।
इस उपकरण के अलग होने के कारणों के बारे में, डीपमाइंड ने कहा कि
V2A
पिक्सेल से समझता है और आउटपुट उत्पन्न करने के लिए टेक्स्ट-आधारित संकेत जोड़ना वैकल्पिक है। साथ ही, वीडियो तत्वों और उनके समय के साथ सिंक करने के लिए ध्वनि की मैन्युअल गति की आवश्यकता नहीं होती है। सीमा के बारे में, डीपमाइंड ने कहा कि आउटपुट की गुणवत्ता वीडियो इनपुट पर निर्भर करती है और क्लिप में विकृतियाँ या कलाकृतियाँ परिणाम को बाधित कर सकती हैं।
स्पीच की आवश्यकता वाले वीडियो के लिए लिप सिंक में सुधार (क्योंकि V2A का लक्ष्य ट्रांसक्रिप्ट से स्पीच उत्पन्न करना है ताकि इसे चरित्र के मौखिक संकेतों के साथ सिंक किया जा सके) पाइपलाइन में हैं। मॉडल को जनता के लिए रोल आउट नहीं किया जा रहा है और सुरक्षा आकलन और परीक्षण से गुजर रहा है।

Tags:    

Similar News

-->