現在可以在患者中檢測到罕見的遺傳疾病,並確定腫瘤特異性突變——幾十年前改變生物醫學研究的 DNA 測序使這一里程碑成為可能。近年來,新測序技術(下一代測序)的引入推動了一波進步。例如,在 2020 年和 2021 年,這些方法可以快速解碼 SARS-CoV-2 基因組並進行全球監測。

與此同時,越來越多的研究人員正在公開他們的測序結果。這導致存儲在美國 SRA(序列讀取檔案)和歐洲 ENA(歐洲核苷酸檔案)等大型數據庫中的數據激增。這些檔案現在總共包含約 100 PB 的信息,大致相當於整個互聯網上找到的全部文本量,其中 1 PB 相當於 100 萬 GB。

到目前為止,生物醫學科學家需要大量的計算資源來搜索這些巨大的基因庫並將其與數據進行比較,這使得全面的搜索幾乎不可能。蘇黎世聯邦理工學院的研究人員現已開發出一種方法來克服這一限制。

全文搜索而不是下載整個數據集

該團隊創建了一個名為 MetaGraph 的工具,它極大地簡化並加快了這一過程。 MetaGraph 無需下載整個數據集,而是可以在原始 DNA 或 RNA 數據中直接搜索,就像使用互聯網搜索引擎一樣。科學家只需將感興趣的基因序列輸入搜索字段,然後根據查詢的不同,在幾秒鐘或幾分鐘內,他們就可以看到該序列出現在全球數據庫中的位置。

“這是一種 DNA 谷歌,”蘇黎世聯邦理工學院計算機科學係數據科學家 Gunnar Rätsch 教授解釋道。以前,研究人員僅搜索描述性元數據,然後必須下載整個數據集才能訪問原始序列。這種方法緩慢、不完整且昂貴。

該研究的作者表示,MetaGraph 也具有成本效益。替換所有公開可用的生物序列只需要幾個計算機硬盤驅動器,大型查詢的成本不會超過每兆鹼基 0.74 美元。

由於新型 DNA 搜索器快速準確,因此可以顯著加快研究速度,特別是在識別新出現的病原體或研究與抗生素耐藥性相關的遺傳因素時。該系統還可以幫助找到消滅隱藏在這些龐大數據庫中的有害細菌(噬菌體)的有益病毒。

壓縮 300 倍

10 月 8 日發表的一項研究顯示 自然ETH 團隊演示了 MetaGraph 的工作原理。該工具使用先進的數學圖形來組織和壓縮遺傳數據,從而更有效地構建信息,類似於電子表格軟件組織值的方式。 “從數學上來說,它是一個擁有數百萬列和數十億行的巨大矩陣,”Rätsch 解釋道。

為大型數據集建立索引以進行搜索是計算領域的一個常見概念,但 ETH 方法因其將原始數據與元數據鏈接的方式而脫穎而出,同時實現了約 300 倍的非凡壓縮率。這種縮減的方式類似於總結一本書:它消除了冗餘,保留了基本的敘述和關係,以更小的形式保留了所有重要的信息。

安德烈·卡勒斯 (André Kahles) 博士說:“我們正在突破可能的極限,使數據集盡可能緊湊,同時又不會丟失必要的信息。”他和 Rätsch 一樣,都是蘇黎世聯邦理工學院生物醫學信息學小組的成員。與目前正在研究的其他 DNA 搜索掩模相比,ETH 研究人員的方法具有可擴展性。這意味著查詢的數據量越大,工具所需的額外計算能力就越少。

一半數據已經可用

MetaGraph 於 2020 年首次推出,並不斷完善。該工具現已公開可供搜索(https://metagraph.ethz.ch/search)並且已經對來自病毒、細菌、真菌、植物、動物和人類的數百萬條 DNA、RNA 和蛋白質序列進行了索引。目前,已包含近一半可用的全球序列數據集,其餘部分預計將在今年年底完成。由於 MetaGraph 是開源的,它也可能會吸引管理大量內部研究數據的製藥公司的興趣。

Kahles還認為,DNA搜索引擎有一天可能會被個人使用:“早期,連谷歌都不清楚搜索引擎到底有什麼用。如果DNA測序繼續快速發展,更準確地識別陽台植物可能會變得司空見慣。”

來源連結