- Home
- /
- प्रौद्योगिकी
- /
- V2A technology :...
x
mobile news :Google Deepmind ने अपने वीडियो-टू-ऑडियो मॉडल का अनावरण किया जो ऑडियो ट्रैक बनाने के लिए वीडियो पिक्सेल और टेक्स्ट का उपयोग करता है। यह तकनीक स्क्रीन पर दृश्यों के अनुरूप वीडियो पिक्सेल और टेक्स्ट प्रॉम्प्ट को मिलाकर आउटपुट बनाती है। Deepmind ने पुराने फुटेज, अभिलेखीय सामग्री, मूक फिल्मों और अन्य में संभावित उपयोग के मामलों पर प्रकाश डाला। अधिक जानकारी के लिए आगे पढ़ें।
Google Deepmind के V2A को आउटपुट बनाते समय 'सकारात्मक' या 'नकारात्मक' प्रॉम्प्ट के माध्यम से एक विशिष्ट टोन की ओर निर्देशित किया जा सकता है।Google की AI अनुसंधान शाखा Google Deepmind ने घोषणा की है कि वह एक ऐसी तकनीक पर काम कर रही है जो ऑडियो ट्रैक बनाने के लिए वीडियो पिक्सल और टेक्स्ट का उपयोग करती है। यह तकनीक स्क्रीन पर विजुअल के अनुरूप ऑडियो बनाने के लिए वीडियो पिक्सल को टेक्स्ट प्रॉम्प्ट के साथ जोड़कर सिंक्रोनाइज्ड ऑडियोविजुअल जनरेशन को संभव बना सकती है। V2A को नाटकीय ट्रैक, ध्वनि प्रभाव या संवाद बनाने के लिए Google के जनरेटिव
वीडियो मॉडल Veo के साथ जोड़ा जा सकता है जो वीडियो फ्रेम में चरित्र के साथ सिंक हो। Deepmind ने पुराने फुटेज, अभिलेखीय सामग्री, मूक फिल्मों और बहुत कुछ में संभावित उपयोग के मामलों पर प्रकाश डाला। जबकि V2A असीमित साउंडट्रैक उत्पन्न कर सकता है, इसे आउटपुट उत्पन्न करते समय "सकारात्मक" या "नकारात्मक" प्रॉम्प्ट के माध्यम से एक विशिष्ट टोन की ओर निर्देशित किया जा सकता है। Google जल्द ही वीडियो प्लेटफ़ॉर्म पर ये 8 AI-संचालित संवर्द्धन ला सकता है इसके कामकाज के लिए, सिस्टम "वीडियो इनपुट को संपीड़ित प्रतिनिधित्व में एन्कोड करके शुरू होता है" और फिर प्रसार मॉडल "यादृच्छिक शोर से ऑडियो को परिष्कृत करता है"। डीपमाइंड ने कहा, "यह प्रक्रिया दृश्य इनपुट और प्राकृतिक भाषा संकेतों द्वारा निर्देशित होती है, ताकि सिंक्रनाइज़, यथार्थवादी ऑडियो उत्पन्न किया जा सके, जो संकेत के साथ निकटता से संरेखित हो।"
फिर इस ऑडियो को डिकोड किया जाता है, ऑडियो वेवफ़ॉर्म में परिवर्तित किया जाता है और वीडियो के साथ मर्ज किया जाता है। प्रशिक्षण प्रक्रिया के दौरान, Google ने विभिन्न दृश्य दृश्यों से निपटने के दौरान मॉडल को ध्वनियों का एक विशिष्ट सेट उत्पन्न करने के लिए मार्गदर्शन करने के लिए ऑडियो के विवरण और बोले गए शब्द के प्रतिलेखन के साथ AI-जनरेटेड एनोटेशन जोड़े।
इस उपकरण के अलग होने के कारणों के बारे में, डीपमाइंड ने कहा कि V2A पिक्सेल से समझता है और आउटपुट उत्पन्न करने के लिए टेक्स्ट-आधारित संकेत जोड़ना वैकल्पिक है। साथ ही, वीडियो तत्वों और उनके समय के साथ सिंक करने के लिए ध्वनि की मैन्युअल गति की आवश्यकता नहीं होती है। सीमा के बारे में, डीपमाइंड ने कहा कि आउटपुट की गुणवत्ता वीडियो इनपुट पर निर्भर करती है और क्लिप में विकृतियाँ या कलाकृतियाँ परिणाम को बाधित कर सकती हैं।
स्पीच की आवश्यकता वाले वीडियो के लिए लिप सिंक में सुधार (क्योंकि V2A का लक्ष्य ट्रांसक्रिप्ट से स्पीच उत्पन्न करना है ताकि इसे चरित्र के मौखिक संकेतों के साथ सिंक किया जा सके) पाइपलाइन में हैं। मॉडल को जनता के लिए रोल आउट नहीं किया जा रहा है और सुरक्षा आकलन और परीक्षण से गुजर रहा है।
TagsGoogle DeepMindV2A तकनीकपेशV2A technologyintroducedजनता से रिश्ता न्यूज़जनता से रिश्ताआज की ताजा न्यूज़हिंन्दी न्यूज़भारत न्यूज़खबरों का सिलसिलाआज की ब्रेंकिग न्यूज़आज की बड़ी खबरमिड डे अख़बारJanta Se Rishta NewsJanta Se RishtaToday's Latest NewsHindi NewsIndia NewsKhabron Ka SilsilaToday's Breaking NewsToday's Big NewsMid Day Newspaperजनताjantasamachar newssamacharहिंन्दी समाचार
Deepa Sahu
Next Story