當前位置:編程學習大全網 - 編程語言 - 微軟dna編程

微軟dna編程

開個腦洞:如果地球面臨著即將到來的毀滅性星際災難,人類想盡可能的保存地球的生命和文明,在現有條件下應該怎麽做?

像劉那樣阻止地球自轉,逃離太陽系,恐怕已經來不及了。而如果像諾亞方舟壹樣,把人類、動植物、人類的知識全部運送到飛船上,現有的火箭運載能力可能裝不下這些物質的十億分之壹。

如果要保存盡可能多、盡可能長的生物,只需要收集、打包所有物種的DNA序列信息,在飛船的低溫環境下可以保存幾十萬年;而人類文明的信息呢?我們知道這些信息最高效的形式是數據,而這些數據主要存儲在硬盤和光盤中。

考慮到這些硬盤存儲設備的重量和數據密度,我們又不得不望而卻步。更何況,也許飛船還沒有逃出太陽系,這些數據就會因為硬盤或者光盤的死亡而丟失。

那麽DNA可以作為硬盤存儲數據信息嗎?答案是肯定的。

DNA絕對是這個星球上最古老的生命信息存儲工具,也可以作為數據信息的存儲介質,其存儲密度和使用壽命遠遠超過現有的磁盤存儲方案。因此,DNA存儲正被人類視為數據存儲的未來,是拯救人類數據存儲危機的最佳替代方案。

DNA儲存到底是如何工作的?現在已經到了什麽階段?商業化的障礙是什麽?這就需要我們壹壹回答了。

在了解DNA存儲的工作原理之前,我們先簡單了解壹下現有的兩種解決方案,磁存儲和光存儲的原理。

磁存儲的原理是在金屬材料上包覆壹層磁介質,在通電時形成電磁效應,從而存儲和表達0101的二進制信息。磁存儲硬盤的優點是輸入和讀取速度快,缺點是數據密度低於體積和重量。經過60年的發展,在壹個3.5英寸的硬盤上存儲3TB的數據已經成為可能。

光存儲的原理是將數字編碼的視頻和音頻記錄在光盤表面的凹槽中,然後用激光讀取這些凹槽中的數據進行存儲或回放。目前光存儲也在經歷存儲的極限。因為如果要存儲更多的數據,凹槽必須越小越緊湊,對激光的精度要求也越高。目前,單層藍光光盤可以存儲超過25GB的信息。如果另壹種紫外激光器研制成功,其光盤容量可達500GB。

DNA存儲與磁存儲、光存儲相比有什麽優勢?

第壹,是節省空間。但這些單層平鋪存儲方式與DNA的雙螺旋三維結構相比,有幾個數量級的差距。丹的物理體非常小,具有三維結構,單位空間的數據密度非常高。舉個簡單的例子,1克DNA不到指尖壹滴露珠的大小,卻可以存儲700TB的數據,相當於14000張50GB藍光光盤或者233塊3TB硬盤(差不多151KG)。

而且,很節能。現有的存儲方式,比如壹個數據中心,要消耗大量的單晶矽和大量的電力。DNA材料只需要保存在陰涼幹燥的地方,基本不需要額外的人工維護。即使需要冷凍DNA,消耗的資源和能量也幾乎可以忽略不計。

另外,最重要的壹點是存放時間很長。如今,高密度的記憶會隨著時間而衰減。最長的存儲工具是磁帶,壽命為50年,其他存儲器壽命更短。相比較而言,DNA的保質期是100年。如果冷凍,可以保存幾千年甚至幾萬年。

看似有拯救人類文明的計劃,但DNA存儲是怎麽做的?

眾所周知,DNA由四種含氮堿基組成——A、T、C、G,科學家分別給腺嘌呤(A)、鳥嘌呤(G)、胞嘧啶(C)和胸腺嘧啶(T)二進制值(A和C=0,G和T=1),然後通過微流控芯片合成基因序列。這樣這些堿基對被編碼成1和0的組合,就可以用DNA的序列信息來表達二進制語言。

每次將二進制語言寫入DNA序列,“DNA硬盤”就可以在低溫環境下保存。當我們需要讀取數據時,只需要對目標DNA進行測序,將堿基對還原成二進制編碼,然後完成解碼,就可以還原成我們常見的數據。

原理很簡單,但是科學家是怎麽做到的呢?這是對DNA存儲技術發展歷史的簡要回顧。

最先想到這種方法的藝術家喬·戴維斯與哈佛大學的研究人員在1988合作,將壹張名為Microvenus的7*5像素矩陣的照片轉換成35個堿基的DNA序列,插入大腸桿菌中,首次將不屬於自然進化的信息寫入DNA中。

(Microvenus代表女性和地球)

2010美國合成生物學家克雷格?克雷格·文特爾(Craig Venter)帶領研究團隊化學合成了支原體的全基因組DNA,將其命名為“Synthia”,並以“自娛自樂”的方式將研究人員的名字、研究所的網站和愛爾蘭詩人詹姆斯的詩編碼到新合成的DNA中。

2011由哈佛大學合成生物學家喬治·丘奇、加州大學斯裏拉姆·科蘇裏和約翰?霍普金斯大學的基因組專家高遠首次進行了概念驗證實驗。該小組使用短DNA片段對壹本659KB的教會數據進行編碼。

2013,歐洲生物信息研究所(EBI)的尼克?尼克·戈德曼和他的研究團隊還成功收錄了莎士比亞的十四行詩和馬丁?盧瑟?包括金的《我有壹個夢想》的演講片段、沃森和克裏克的DNA雙螺旋論文副本在內的5個文件被寫入DNA片段。739KB數據成為當時最大的DNA存儲文件。

2016年,微軟和華盛頓大學利用DNA存儲技術存儲了約200MB的數據,成為DNA信息存儲技術的壹次飛躍。

2017年7月,《自然》發表了哈佛醫學院的賽斯。希普曼和喬治·丘奇合作研究活體DNA儲存。他們把壹部130年前的黑白電影《奔跑的馬》放到了大腸桿菌的DNA上。大腸桿菌中雖然有壹種“奇怪的DNA”,但它不僅能正常存活,還能正常遺傳。每壹次復制都是壹份數據拷貝。而且,儲存在基因組中的電影在每壹代大腸桿菌中都被完整地保存了下來。

但是因為細胞的復制、分裂、死亡,會有信息錯誤的風險,未來的數據是安全的。大多數情況下,存儲信息的DNA以DNA幹粉的形式存在,對活細胞存儲的研究轉向合成DNA存儲。

同年,哥倫比亞大學和紐約基因組中心在《科學》雜誌上發表了壹種被稱為“DNA噴泉”算法的高效DNA存儲策略。這項技術最大限度地發揮了DNA的存儲潛力,成功地將大量信息壓縮到DNA的四個堿基,即每個DNA編碼1.6比特的數據,比以前多存儲了60%的信息,接近理論極限(1.8比特)。這種方法可以在壹克DNA中存儲215PB的數據,相當於2.2億部電影。

2018年,來自愛爾蘭沃特福德理工學院(WIT)的研究人員開發了壹種新的DNA存儲方法,可以在1g的大腸桿菌DNA中存儲1ZB數據。

2019年,丘奇的團隊在《科學》雜誌上發表了另壹項實驗結果。他們將丘奇的壹本約53400字的書《再生:合成生物學將如何改變未來的自然和妳自己》以及11張圖片和壹個Java程序編碼到壹個不到十億分之壹克的DNA微芯片中,然後成功利用DNA測序讀取了這本書。

這些科學研究的快速發展也意味著DNA合成技術(數據寫入)和DNA測序技術(數據讀取)的日趨成熟。但與此同時,在DNA編碼的過程中仍然存在壹些問題,如存儲/讀取速度和成本,DNA存儲仍在商業化的路上。

在實驗室中,似乎DNA存儲並不復雜,但商業化仍然存在壹些問題。

首先,存儲和讀取的速度非常慢。訪問DNA存儲設備既慢又費時。與儲存在磁盤上的電磁信號相比,DNA的合成依賴於壹系列的化學反應。在磁盤上寫200MB數據需要1秒,用DNA合成差不多需要3周。

其次,DNA介質不能被覆蓋和重寫。在DNA中,信息壹旦存儲,壹般來說就不能修改。如果妳想閱讀這個文檔,妳需要在轉碼前對所有信息進行完整的排序。

第三,數據存儲的準確性有待提高。目前,DNA測序中的重復閱讀導致閱讀錯誤的概率很高。

第四,隨機讀寫困難。目前的DNA合成技術還不能壹次性產生長的DNA分子,只能合成許多短的片段。這使得在許多小DNA片段的混合物中快速檢索特定數據變得困難。

最後,也是最重要的,DNA儲存的成本太高。比如,目前在DNA中存儲200MB的數據需要80萬美元,而使用電子設備的成本不到1美元。

但如前所述,如果放在更長的時間尺度上,在數據存儲空間的壓力下,DNA的存儲密度大、節能環保度高、穩定性長等獨特優勢就會顯現出來。只要隨著存儲和讀取技術的發展,DNA編碼和測序的效率提高,成本大大降低,DNA存儲離商業化應用就不遠了。

那麽,現在商業化有什麽進展?

2015年,微軟和華盛頓大學聯合發表了壹項成果,該成果使用了定點閱讀信息,即在壹條很長的DNA鏈上添加壹些跟蹤標記。這些標記類似於索引機制,可以通過選擇合適的標記來讀取,而不必每次都等待測序完整的DNA長鏈。

2018,閱文技術又有突破。微軟開發了“納米孔”讀取技術,讓DNA介質柱擠過壹個小小的納米孔,讀取每個DNA堿基。這項技術大大降低了讀取設備的空間支出,壹個手掌大小的USB設備就可以讀取,但讀取速度大概是每秒幾KB,還是挺慢的。

2065438+2009年3月,微軟團隊在《自然》雜誌上發表了壹項新的進展,他們開發出了世界上第壹個自動DNA存儲介質。相對於人工DNA合成和測序,能夠自動編碼和解碼DNA是未來商業化的出路。

此外,壹家成立於2016的美國創業公司Catalog也在嘗試解決DNA存儲和讀取的長度和成本問題。

去年,Catalog在壹個DNA分子上存儲了壹個***16G英文版的維基百科。他們使用DNA寫入器設備以4Mbps的速度將這些數據記錄在DNA中。這意味著壹天可以錄125GB,大概相當於高端手機的存儲容量。這個速度已經是之前研究的存儲速度的三倍。

目前,Catalog使用長度為20至30個堿基對的預制合成DNA鏈,通過將酶嵌套在壹起,可以存儲更多數據。這些片段的排列就像英語中26個字母的使用壹樣,理論上可以產生無數種組合。根據Catalog的估算,未來存儲1MB數據DNA的成本不到0.001美分。

當然,如果這家創業公司未來真的能大幅降低成本,或許能為DNA數據存儲的商業化鋪平道路。

2019年,科學美國人和世界經濟論壇聯合發布的全球十大新興技術中,DNA數據存儲技術名列其中。

可以預見,磁存儲和光存儲仍將占據未來數據存儲的主流。但是,即使沒有地球末日的極端情況,人類也因為近年來數據的激增,面臨著數據存儲空間不足的嚴重問題。與此同時,數據存儲需求的激增帶來矽片使用量的激增,以及由此帶來的環境汙染問題、水資源和能源消耗問題。

DNA存儲技術的實現將在壹定程度上緩解傳統存儲的容量問題,並大大降低電子元器件和能源的消耗。

  • 上一篇:算法與程序的區別與聯系
  • 下一篇:英格瑪的公元
  • copyright 2024編程學習大全網