醫療創新|  破解mRNA疫苗大海撈針   巧借語言處理按圖索驥

醫療創新| 破解mRNA疫苗大海撈針 巧借語言處理按圖索驥

Table Of Contents
Nature
《Nature》正刊發表了百度與合作單位在生物計算領域成果,套用自然語言處理算法到基因計算,11分鐘之內就可找到最穩定的mRNA候選序列。

[醫療創新]

COVID-19新冠疫苗研究過程,mRNA或者「信使核糖核酸」大放異彩。mRNA研究從上世紀六十年代開始,研究人員開始嘗試以DNA或mRNA結合細胞,令人體自行做出目標蛋白質,可用於開發疫苗,亦可用於治療癌症或罕見病。

自從mRNA應用在新冠疫苗開發,癌症和多種疾病亦找到潛在治療新方法。mRNA是將遺傳指令從DNA,傳遞到細胞蛋白質製造機器的信使,mRNA可為人體各種功能創造特定蛋白質。

mRNA在安全、有效性和生產具有優勢,迅速應用到COVID-19疫苗開發。但是mRNA本身先天極不穩定,有時導致蛋白質表達不足,削弱疫苗刺激免疫反應能力。mRNA疫苗的不穩定也令儲存和運輸不便,限制發展中國家採用,妨礙mRNA疫苗普及率。

不少研究均顯示,mRNA與基因最佳密碼子結合,可優化mRNA的二級結構穩定性,有機會改善蛋白質表達,令疫苗更穩定,保護效用更好。不過,mRNA基因設計空間是同義的密碼子,序列空間龐大,大約有10的632次方個mRNA序列,可翻譯成相同的SARS-CoV-2刺突蛋白結構,才能發展出有效疫苗。

傳統運算無法破解

逐一計算10的632次方的mRNA序列,所須算力幾乎是天文數字。假設利用一台超級電腦,每秒計算一個序列,逐條序列去尋找,即使是從宇宙誕生直至現在138億年不停計算,沿著搜索路線,依次每個節點均做一次計算,要在潛在mRNA序列中尋找,連億萬分之一計算都無法完成。

乍看之下,自然語言處理(NLP)和生物學似乎無關,但這兩者著極強的數學聯繫。人類語言中,句子是由多個字的序列,加上帶有名詞和動詞短語的基本樹狀句法組成,兩者疊加以共同傳達了含義。RNA鏈是具有核苷酸序列和基於其摺疊模式相關的二級結構,借助NLP算法,有可能減省找出候選mRNA序列的計算時間。

百度與俄勒岡州立大學、StemiRNA Therapeutics、羅切斯特大學醫學中心合作,提出mRNA序列優化演算法LinearDesign,11分鐘內找出最穩定候選序列,有機會加快設計出穩定、成藥性更好的mRNA序列。有關論文《Algorithm for Optimized mRNA Design Improves Stability and Immunogenicity》,刊出在《Nature》上;也是中國科企首次以第一完成單位身份在《Nature》期刊發表論文。

LatticeParsing
自然語言處理中網格解析(Lattice Parsing)技術優化mRNA疫苗序列,大大縮短了篩選候選序列的時間。

借用他山之石

百度運用NLP的「網格解析」(Lattice Parsing)技術,優化mRNA疫苗序列,提升了疫苗穩定和有效性。LinearDesign巧妙將序列設計大量計算工作,簡化為NLP經典算法,將尋找序列從「大海撈針」變成「按圖索驥」。

根據實驗數據,LinearDesign演算法在設計序列,有助生物醫藥快速研發有效mRNA疫苗,包括縮短研發週期及降低研發成本,此述演算法已於新冠mRNA和帶狀皰疹mRNA疫苗研發,獲得了具體驗證。

LinearDesign顯著改善體外mRNA半衰期和蛋白質表達,與傳統的基準相比,體內抗體反應增強128倍,美國Moderna前計算RNA生物學家Dave Mauger指,新方法計算效率,確實令人印象深刻。

新科技速遞|   AI溝通按部就班   大模型如虎添翼

新科技速遞| AI溝通按部就班 大模型如虎添翼

Google Next 2024推出公開預覽Gemini 1.5 Pro大模型,打破上下文限制,達一百萬Tokens,能閱讀一本70萬字長篇小說,生成式AI可代閱讀並作出總結。 [新科技速遞] 生成 …

了解更多
虛擬工廠誘捕器  黑客活動現形記

虛擬工廠誘捕器 黑客活動現形記

趨勢科技以六個月建立模擬工業環境誘捕黑客,並寫成研究報告,內容和細節鉅細無遺,讀來趣味盎然 新科技速遞 究竟黑客如何入侵網絡?如何發展受害者?不少人對黑客活動充滿神祕感。趨勢科技研究人員就建立了一家 …

了解更多
骨質疏鬆長者福音 內植物助骨折癒合

骨質疏鬆長者福音 內植物助骨折癒合

創辦人和行政總裁古思融為港大醫學院生物醫學工程博士,長期於中國從事設計,早前畢業於麻省理工,以跨學科及新物料,改善外科骨折手術的成功率 眾創時代 一般的骨折手術必須利用金屬片及螺絲,固定斷骨的位置, …

了解更多