AI द्वारा नए चमकते अणु को प्रकृति में विकसित होने में 500 मिलियन वर्ष लगे होंगे- वैज्ञानिक
SCIENCE: एक नए अध्ययन के अनुसार, एक कृत्रिम बुद्धिमत्ता (AI) मॉडल ने पहले से अज्ञात प्रोटीन के लिए कोड बनाने के लिए आधे अरब वर्षों के आणविक विकास का अनुकरण किया है। शोधकर्ताओं का कहना है कि जेलीफ़िश और कोरल में पाए जाने वाले प्रोटीन के समान चमकने वाला प्रोटीन नई दवाओं के विकास में मदद कर सकता है। प्रोटीन जीवन के निर्माण खंडों में से एक हैं और शरीर में विभिन्न कार्य करते हैं, जैसे मांसपेशियों का निर्माण और बीमारी से लड़ना। esmGFP नामक नकली प्रोटीन केवल कंप्यूटर कोड के रूप में मौजूद है, लेकिन इसमें पहले से अज्ञात प्रकार के हरे फ्लोरोसेंट प्रोटीन का खाका शामिल है।
प्रकृति में, हरे फ्लोरोसेंट प्रोटीन फ्लोरोसेंट जेलीफ़िश और कोरल को उनकी चमक देते हैं। esmGFP बनाने के निर्देशों को बताने वाले अक्षरों का क्रम निकटतम ज्ञात फ्लोरोसेंट प्रोटीन से केवल 58% समान है, जो बबल-टिप समुद्री एनीमोन (एंटैक्मेया क्वाड्रिकलर) में पाए जाने वाले प्रोटीन का मानव-संशोधित संस्करण है - रंगीन समुद्री जीव जो दिखने में ऐसे लगते हैं जैसे उनके तंबू के सिरों पर बुलबुले हों। शेष अनुक्रम अद्वितीय है, और इसके विकास के लिए कुल 96 विभिन्न आनुवंशिक उत्परिवर्तनों की आवश्यकता होगी। अध्ययन के अनुसार, इन परिवर्तनों को स्वाभाविक रूप से विकसित होने में 500 मिलियन से अधिक वर्ष लगे होंगे।
इवोल्यूशनरीस्केल नामक कंपनी के शोधकर्ताओं ने पिछले साल एक प्रीप्रिंट अध्ययन में esmGFP और इसे बनाने के लिए उपयोग किए गए AI मॉडल, ESM3 का अनावरण किया। स्वतंत्र वैज्ञानिकों ने अब उन निष्कर्षों की सहकर्मी समीक्षा की है, जिन्हें 16 जनवरी को साइंस जर्नल में प्रकाशित किया गया था।
ESM3 विकास की सामान्य सीमाओं के भीतर प्रोटीन डिज़ाइन नहीं करता है। इसके बजाय, यह एक समस्या-समाधानकर्ता है जो शोधकर्ताओं द्वारा प्रदान किए गए अधूरे प्रोटीन कोड के अंतराल को भरता है, और ऐसा करने में कुछ ऐसा डिज़ाइन करता है जो विकास के सभी संभावित मार्गों के आधार पर मौजूद हो सकता है।
इवोल्यूशनरीस्केल के सह-संस्थापक और मुख्य वैज्ञानिक, अध्ययन के सह-लेखक एलेक्स रिव्स ने लाइव साइंस को एक ईमेल में बताया, "हमने पाया है कि ESM3 मौलिक जीव विज्ञान सीखता है, और विकास द्वारा खोजे गए स्थान के बाहर कार्यात्मक प्रोटीन उत्पन्न कर सकता है।" नया अध्ययन उस शोध पर आधारित है जिसे रिव्स और उनके सहयोगियों ने 2024 में इवोल्यूशनरीस्केल शुरू करने से पहले फेसबुक और इंस्टाग्राम की मूल कंपनी मेटा में शुरू किया था। ESM3 ओपनएआई के GPT-4 के समान एक जनरेटिव भाषा मॉडल का उनका नवीनतम संस्करण है, जो ChatGPT चलाता है, लेकिन यह जीव विज्ञान पर आधारित है।
प्रोटीन अमीनो एसिड नामक अणुओं की श्रृंखलाओं से बने होते हैं, जिनका अनुक्रम जीन द्वारा प्रदान किया जाता है। विभिन्न प्रोटीनों में अलग-अलग अमीनो एसिड अनुक्रम होते हैं। नेचर एजुकेशन के अनुसार, वे संरचनात्मक रूप से भी भिन्न होते हैं, प्रत्येक एक अद्वितीय आकार में मुड़ता है जो उन्हें अपना कार्य करने की अनुमति देता है। ESM3 को प्रोटीन को समझने के लिए, शोधकर्ताओं ने प्रोटीन के मुख्य गुणों - अमीनो एसिड अनुक्रम, संरचना और कार्य - पर मॉडल डेटा को अक्षरों की एक श्रृंखला के रूप में खिलाया।
टीम ने प्रकृति में पाए जाने वाले 2.78 बिलियन प्रोटीन के डेटा पर ESM3 को प्रशिक्षित किया। फिर शोधकर्ताओं ने प्रोटीन ब्लूप्रिंट के कुछ हिस्सों को बेतरतीब ढंग से छिपा दिया और ESM3 को जो सीखा था उसके आधार पर कोड को पूरा करने के लिए अंतराल को भरने के लिए कहा।
रिव्स ने कहा, "जिस तरह से कोई व्यक्ति एकालाप में रिक्त स्थान भर सकता है "करना है या नहीं करना है, यही _ है," उसी तरह हम प्रोटीन में रिक्त स्थान भरने के लिए भाषा मॉडल को प्रशिक्षित कर सकते हैं।" "हमारे शोध से पता चला है कि इस सरल कार्य को हल करने से, प्रोटीन जीवविज्ञान की गहरी संरचना के बारे में जानकारी नेटवर्क में उभरती है।"