自2005年,二代測序開始改變遺傳學領域的研究。獲得個人的全基因組測序變得快速且相對廉價。遺傳信息數據庫正在以TB字節(jié)的速度增長,醫(yī)生和研究人員迫切需要一種有效的信息篩選方法,以尋找某種異常的原因或者為評估患者對治療措施的反應提供線索。
在過去的五年,研發(fā)DNA搜索引擎的公司如雨后春筍般涌現,爭相成為研發(fā)DNA搜索引擎的第一人。他們都有不同的戰(zhàn)術——有些甚至擁有自己私有的遺傳信息數據庫,但是大多數正致力于鏈接足夠多的遺傳數據庫,以便用戶可以快速識別大量的各種各樣的突變。大多數公司也研究應用生物學文獻補充遺傳學信息的搜索算法。但在早期網絡的日子里,在谷歌稱雄之前,沒有哪個公司成為明顯的贏家。
創(chuàng)造一個有效的搜索引擎是典型的大數據問題, ViaGenetics公司的副總裁邁克爾•岡薩雷斯說,預計本月將重啟他們的搜索平臺。在醫(yī)生或研究人員可以使用數據之前,基因組數據必須按照可讀取和可搜索的模式來組織。邁向目標的第一步是,按照一種稱之為“變體識別格式”或“VCF”的標準格式存儲,一個人的完整基因組測序數據約100千兆字節(jié),直接采用原始的數據格式入庫,即使每天只有10個病人的基因組數據,數據庫也會很快失控。但VCF文件更緊湊,每個基因只有幾百兆字節(jié),有助于研究人員在更短的時間內搜索到他們想要找的特定變異。與全基因組測序不同,VCF文件只給出一個人的基因數據在哪里偏離了2001年的人類基因組計劃最初編制的基因組標準。
有了VCF,從基因組數據中篩選出精準的突變基因不是搜索引擎公司面臨的挑戰(zhàn)。大多數這類公司都集中資源致力于無縫編譯從其他網絡數據庫中補充特定的突變信息,如生物醫(yī)學研究檔案PubMed或各種搜集來的電子醫(yī)療記錄。許多這些工具都用精細的算法來優(yōu)化結果的可信度和相關性?!澳阆M軌驅⒛硞€位點的突變信息匯集到一起,并迅速作出評估,” 總部位于猶他州的另一家研發(fā)基因--搜索引擎的公司Tute Genomics的首席科學官David Mittelman說。
為了拓展信息關聯到一個尚無定論的基因組,位于佛羅里達州邁阿密海灘的ViaGenetics公司,正在更新他們提供給想進行跨機構協(xié)作的研究人員使用的信息平臺?!坝辛薞iaGenetics的工具,研究人員可以將他們的數據提供給其他用戶,其他用戶可以看到這些項目,請求訪問,并形成合作,”岡薩雷斯說,“它幫助人們在不同的研究人員和機構間建立連接點。這對于沒有很廣泛的基因組數據庫的小型實驗室或致力于解碼相同的突變的不同大學的研究人員都特別有用。
盡管基因組—搜索行業(yè)現在專注于服務科學家,但并會不一直如此。Mittelman設想TuteGenomics公司最終可能直接服務于消費者。Mittelman說,人們已經要求了解他們的基因組信息,只是為了能更好的了解自己,但大多數公司還不認為普通人是他們的主要客戶。為了實現這樣的轉變,搜素工具將會更加直觀和友好。“使用不容易解釋的數據或不標準術語的搜索工具存在讓人們困惑的可能。”他說。隱私也是普通用戶主要關心的一個方面,Tute用戶上傳的信息并不是永久保存的,Mittelman說,但是如果平臺提供給大眾群體使用,就需要有其他的保證。
另外,行業(yè)也在向縱深發(fā)展,ViaGenetics和Tute都希望能夠自己運營整個過程,從最初的DNA測序到展示給用戶最終可搜索的結果。 “目前分析和解釋基因組數據的市場很分散,就像計算機行業(yè)在1990年代一樣,當時你不得不去找單獨的供應商購買顯卡或主板,然后試著把它組裝在一起,“Mittelman說。“很快這個領域將會整合,就象計算機行業(yè)曾經的那樣。