醫療創新|  破解mRNA疫苗大海撈針   巧借語言處理按圖索驥

醫療創新| 破解mRNA疫苗大海撈針 巧借語言處理按圖索驥

Table Of Contents
Nature
《Nature》正刊發表了百度與合作單位在生物計算領域成果,套用自然語言處理算法到基因計算,11分鐘之內就可找到最穩定的mRNA候選序列。

[醫療創新]

COVID-19新冠疫苗研究過程,mRNA或者「信使核糖核酸」大放異彩。mRNA研究從上世紀六十年代開始,研究人員開始嘗試以DNA或mRNA結合細胞,令人體自行做出目標蛋白質,可用於開發疫苗,亦可用於治療癌症或罕見病。

自從mRNA應用在新冠疫苗開發,癌症和多種疾病亦找到潛在治療新方法。mRNA是將遺傳指令從DNA,傳遞到細胞蛋白質製造機器的信使,mRNA可為人體各種功能創造特定蛋白質。

mRNA在安全、有效性和生產具有優勢,迅速應用到COVID-19疫苗開發。但是mRNA本身先天極不穩定,有時導致蛋白質表達不足,削弱疫苗刺激免疫反應能力。mRNA疫苗的不穩定也令儲存和運輸不便,限制發展中國家採用,妨礙mRNA疫苗普及率。

不少研究均顯示,mRNA與基因最佳密碼子結合,可優化mRNA的二級結構穩定性,有機會改善蛋白質表達,令疫苗更穩定,保護效用更好。不過,mRNA基因設計空間是同義的密碼子,序列空間龐大,大約有10的632次方個mRNA序列,可翻譯成相同的SARS-CoV-2刺突蛋白結構,才能發展出有效疫苗。

傳統運算無法破解

逐一計算10的632次方的mRNA序列,所須算力幾乎是天文數字。假設利用一台超級電腦,每秒計算一個序列,逐條序列去尋找,即使是從宇宙誕生直至現在138億年不停計算,沿著搜索路線,依次每個節點均做一次計算,要在潛在mRNA序列中尋找,連億萬分之一計算都無法完成。

乍看之下,自然語言處理(NLP)和生物學似乎無關,但這兩者著極強的數學聯繫。人類語言中,句子是由多個字的序列,加上帶有名詞和動詞短語的基本樹狀句法組成,兩者疊加以共同傳達了含義。RNA鏈是具有核苷酸序列和基於其摺疊模式相關的二級結構,借助NLP算法,有可能減省找出候選mRNA序列的計算時間。

百度與俄勒岡州立大學、StemiRNA Therapeutics、羅切斯特大學醫學中心合作,提出mRNA序列優化演算法LinearDesign,11分鐘內找出最穩定候選序列,有機會加快設計出穩定、成藥性更好的mRNA序列。有關論文《Algorithm for Optimized mRNA Design Improves Stability and Immunogenicity》,刊出在《Nature》上;也是中國科企首次以第一完成單位身份在《Nature》期刊發表論文。

LatticeParsing
自然語言處理中網格解析(Lattice Parsing)技術優化mRNA疫苗序列,大大縮短了篩選候選序列的時間。

借用他山之石

百度運用NLP的「網格解析」(Lattice Parsing)技術,優化mRNA疫苗序列,提升了疫苗穩定和有效性。LinearDesign巧妙將序列設計大量計算工作,簡化為NLP經典算法,將尋找序列從「大海撈針」變成「按圖索驥」。

根據實驗數據,LinearDesign演算法在設計序列,有助生物醫藥快速研發有效mRNA疫苗,包括縮短研發週期及降低研發成本,此述演算法已於新冠mRNA和帶狀皰疹mRNA疫苗研發,獲得了具體驗證。

LinearDesign顯著改善體外mRNA半衰期和蛋白質表達,與傳統的基準相比,體內抗體反應增強128倍,美國Moderna前計算RNA生物學家Dave Mauger指,新方法計算效率,確實令人印象深刻。

生產力局首度參展深圳3D打印展 AI融入3D打印技術開創新局

生產力局首度參展深圳3D打印展 AI融入3D打印技術開創新局

3D打印技術在全球製造業發展中扮演越來越重要的角色。根據市場研究機構數據,2025年全球3D打印市場規模預計將以年均複合增長率達20%的速度突破348億美元。在此背景下,香港生產力促進局(生產力局)於 …

了解更多
低價快閃進入商用 儲存市場醞釀巨變

低價快閃進入商用 儲存市場醞釀巨變

Pure Storage香港及澳門區總經理陳錦全:FlashArray//C為業界首款商用的QLC快閃儲存,FlashArray//C價格低,可儲存大量的數據,有助快閃儲存進一步普及,取代混合儲存。 …

了解更多
安富利聯手易冲半導體 推動無線充電技術升級

安富利聯手易冲半導體 推動無線充電技術升級

無線充電技術近年來因應智能設備普及及電動車產業的快速發展,逐漸成為全球科技重點關注領域。根據市場研究機構數據,預計至2030年,無線充電市場規模將邁向千億美元規模。在此背景下, …

了解更多