SCIENCE: जिस तरह ChatGPT किसी अनुक्रम में सबसे अधिक संभावित शब्द का पूर्वानुमान लगाकर पाठ तैयार करता है, उसी तरह एक नया कृत्रिम बुद्धिमत्ता (AI) मॉडल नए प्रोटीन लिख सकता है जो प्राकृतिक रूप से नहीं होते हैं।वैज्ञानिकों ने नए मॉडल, ESM3 का उपयोग करके एक नया फ्लोरोसेंट प्रोटीन बनाया है जो प्राकृतिक रूप से पाए जाने वाले फ्लोरोसेंट प्रोटीन के साथ अपने अनुक्रम का केवल 58% साझा करता है, उन्होंने 2 जुलाई को प्रीप्रिंट बायोरेक्सिव डेटाबेस पर प्रकाशित एक अध्ययन में कहा। मेटा के पूर्व शोधकर्ताओं द्वारा बनाई गई कंपनी इवोल्यूशनरीस्केल के प्रतिनिधियों ने भी 25 जून को एक बयान में विवरण की रूपरेखा तैयार कीअनुसंधान दल ने गैर-वाणिज्यिक लाइसेंस के तहत मॉडल का एक छोटा संस्करण जारी किया है और मॉडल का बड़ा संस्करण वाणिज्यिक शोधकर्ताओं के लिए उपलब्ध कराएगा। इवोल्यूशनरीस्केल के अनुसार, यह तकनीक दवा की खोज से लेकर प्लास्टिक के क्षरण के लिए नए रसायनों को डिजाइन करने तक के क्षेत्रों में उपयोगी हो सकती है।
ESM3 एक बड़ा भाषा मॉडल (LLM) है जो OpenAI के GPT-4 के समान है, जो ChatGPT चैटबॉट को शक्ति प्रदान करता है, और वैज्ञानिकों ने 2.78 बिलियन प्रोटीन पर अपने सबसे बड़े संस्करण को प्रशिक्षित किया। प्रत्येक प्रोटीन के लिए, उन्होंने अनुक्रम (प्रोटीन बनाने वाले अमीनो एसिड बिल्डिंग ब्लॉकों का क्रम), संरचना (प्रोटीन का त्रि-आयामी मुड़ा हुआ आकार), और कार्य (प्रोटीन क्या करता है) के बारे में जानकारी निकाली। उन्होंने इन प्रोटीनों के बारे में जानकारी के टुकड़ों को बेतरतीब ढंग से छिपाया और अनुरोध किया कि ESM3 गायब टुकड़ों की भविष्यवाणी करे।उन्होंने इस मॉडल को उस शोध से आगे बढ़ाया जो वही टीम मेटा में रहते हुए कर रही थी। 2022 में उन्होंने EMSFold की घोषणा की - ESM3 का एक अग्रदूत जिसने अज्ञात माइक्रोबियल प्रोटीन संरचनाओं की भविष्यवाणी की। उस वर्ष, अल्फाबेट के डीपमाइंड ने भी 200 मिलियन प्रोटीन के लिए प्रोटीन संरचनाओं की भविष्यवाणी की। वैज्ञानिकों ने बाद में बताया कि इन AI मॉडल की भविष्यवाणियों की सीमाएँ हैं और प्रोटीन भविष्यवाणियों को सत्यापित करने की आवश्यकता है। लेकिन ये विधियां अभी भी प्रोटीन संरचनाओं की खोज में तेजी ला सकती हैं, क्योंकि विकल्प यह है कि प्रोटीन संरचनाओं को एक-एक करके मैप करने के लिए एक्स-रे का उपयोग किया जाए - जो धीमा और महंगा है।