當前位置:編程學習大全網 - 人物素材 - 我的科目是生物學。對計算機科學感興趣怎麽辦?

我的科目是生物學。對計算機科學感興趣怎麽辦?

生物信息學是壹門新興的交叉學科。很多人會認為生物信息學既涉及生物學又涉及物理學,壹定是壹個非常廣泛的學科領域。其實它的內涵很具體,範圍很明確。生物信息學是伴隨著基因組研究而產生的,因此其研究內容是與基因組研究緊密發展的。

廣義而言,生物信息學是從事與基因組研究相關的生物信息的獲取、處理、存儲、分發、分析和解釋。這個定義包含兩層含義:壹是海量數據的收集、整理和服務,即這些數據的管理;另壹種是從中發現新的規律,也就是利用好這些數據。

具體來說,生物信息學以分析基因組D NA序列信息為來源,尋找基因組序列中代表蛋白質和R NA基因的編碼區;同時,闡明基因組中大量非編碼區的信息本質,破譯隱藏在D NA序列中的遺傳語言規則;在此基礎上,對基因組遺傳信息的釋放和調控相關的轉錄譜和蛋白質譜的數據進行總結和整理,從而了解代謝、發育、分化和進化的規律。

生物信息學還利用基因組中編碼區的信息模擬蛋白質的空間結構和預測蛋白質的功能,並將這些信息與生物體和生命過程的生理生化信息相結合,闡明其分子機制,最終進行蛋白質、核酸的分子設計、藥物設計和個體化醫療保健設計。

基因組信息學、蛋白質的結構計算和模擬以及藥物設計與遺傳信息傳遞的中心原理密切相關,因此它們必須有機地聯系起來。

為什麽基因組研究需要依賴生物信息學?首先,隨著基因組的研究,相關信息呈爆炸式增長,急需處理海量的生物信息。自從科學家在1.995中破譯出全長1.8萬個核苷酸的流感嗜血桿菌基因組後,已經完成了約60種微生物和幾種真核生物的全基因組測序,如酵母、線蟲、果蠅和擬南芥。到2001年春天,科學家公布了人類基因組的大部分序列,即人類基因組的工作草圖。這些成果意味著基因組研究將進入信息提取和數據分析的新階段。據國際數據庫統計,1999 12的DNA堿基數是30億,2000年4月是60億,現在已經達到14億,大約每14個月翻壹番。同時,電子計算機芯片數字處理能力的增長相當於每18個月翻壹番。因此,計算機可以有效地管理和運行海量數據。

然而,更本質的原因是基因組數據的復雜性。所謂生物的基因組,是指生物所有遺傳物質的總和。生物遺傳物質是壹種叫做脫氧核糖核酸(DNA)的生物大分子,由四個核苷酸串聯而成,通常用字符A、T、G、C表示..壹般來說,生物的遺傳密碼是由這四個字符連接而成的線性長鏈。這種鏈條往往很長。例如,人類遺傳密碼包含32億個字符。當它們堆在壹起,就形成了壹本超過654.38+0萬頁,每頁3000字的“天書”。這本“天書”包含了大量關於人體結構功能和生命活動過程的信息,但它只有四個字組成,沒有詞法、句法和標點符號。好像每個頁面都差不多。怎麽讀是壹個很大的問題。基因組研究最終是將生物學問題轉化為數字符號的處理。為了解決這壹問題,我們必須發展新的分析理論、方法、技術和工具,我們必須依靠計算機信息處理。

從事生物信息學研究應具備多種科學基礎。首先需要壹定的計算能力,包括相應的軟硬件設備。應有各種數據庫或與國際和國內數據庫系統的有效通信。要有發達穩定的互聯網體系;同時,生物信息學需要強大的創新算法和軟件。沒有算法創新,生物信息學無法實現可持續發展。最後,它應該與實驗科學建立廣泛而密切的聯系,特別是與自動化大規模高通生物研究方法和平臺技術的聯系。這些技術不僅是生成生物信息學數據的主要方法,也是驗證生物信息學研究成果的關鍵手段。因此,從事生物信息學研究的人也必須具備跨學科的知識。

我國生物信息學的研究和應用已有壹定基礎,因此有望取得突破性成果,這對於增強我國在基礎研究領域的實力,在某些方面占據國際領先地位非常重要。生物信息學成果的應用也將產生巨大的社會效益和經濟效益。

當前主要研究內容:

I .獲得人類和各種生物的完整基因組

基因組研究的首要目標是獲得壹套完整的人類遺傳密碼。人類的遺傳密碼有32億個堿基,但目前的D-NA測序儀每次反應只能讀取幾百到幾千個堿基。也就是說,要得到人類所有的遺傳密碼,必須先破解人類基因組,然後測量短序列後再重新組裝。

然而,我們很容易想象,如果壹本書被撕成同樣大小的碎片,它將永遠無法將它們正確地放回壹起,因為書的上下文同時丟失了。應該如何做到這壹點?我們可以拿兩本壹模壹樣的書,按照不同的撕法分別撕。通過交叉引用不同的片段,找到相同的詞語,可以部分還原書的脈絡。書撕的越多,恢復的語境聯系就越多。因此,為了獲得壹套完整的人類遺傳密碼,不能只對人類的32億個堿基進行壹次測量,而往往要進行多次測量。例如,今年年初發表在《自然》和《科學》雜誌上的人類基因組草案報告稱,它包含約29億個堿基,物理圖譜覆蓋率為96%,序列覆蓋率為94%。90%以上的連續序列組大於654.38+百萬堿基;大約25%的連續序列組等於或大於1千萬個堿基。在這些序列中發現了30,000-40,000個編碼蛋白質的基因。得到這樣的圖譜,相當於把人類基因組測了5次左右。要做到這壹點,需要通過比對將數千萬個小片段連接起來,這通常被稱為基因組序列數據的拼接和組裝。

大規模基因組測序的每壹個環節都與信息分析密切相關。從測序儀的光密度采樣和分析、堿基讀取、載體識別和去除、拼接和填補序列缺口,到重復序列識別、框架預測和基因標記,每壹步都緊密依賴於生物信息學軟件和數據庫。其中,序列拼接和填補序列缺口是最為關鍵和首要的問題。它的困難不僅在於其龐大的海量數據,還在於其高度重復的序列。因此,在這個過程中,將實驗設計與信息分析聯系起來就顯得尤為必要。另壹方面,必須根據不同步驟的要求,開發合適的算法和相應的軟件,來處理各種復雜的問題。世界上很多著名的基因組研究中心都有自己的剪接和組裝策略,這樣的工作都是在超級計算機上完成的。

有了完整的基因組,人類會對自己有更細致準確的認識。比如我們的基因組只有65,438+0.65,438+0%實際編碼蛋白質(稱為外顯子)。外顯子之間的區域(稱為內含子)占24%;但是基因之間的區間序列占了75%,也就是說人類基因組中不編碼蛋白質的區域占了絕大多數。發現人類編碼蛋白質的基因比其他生物更復雜,有更豐富的剪接方式。發現基因組中的片段重復非常普遍,這反映了人類復雜的進化史。發現人類染色體13相對穩定,而男性染色體12和女性染色體16是可變的,等等。

二。新基因和新單核苷酸多態性的發現

發現新基因是目前國際基因組研究的熱點,利用生物信息學是發現新基因的重要手段。例如,釀酒酵母的完整基因組包含約6000個基因,其中約60%是通過信息分析獲得的。(1)基因的計算機克隆

利用E ST數據庫發現新基因也被稱為基因的計算機克隆。E ST序列是基因表達的短c DNA序列,攜帶著完整基因的某些片段的信息。到2001和10,GenBank的EST數據庫中已有超過380萬條人類E-ST序列,覆蓋了約90%的人類基因。

早在1996年,中國就開始通過計算機克隆尋找新基因。它的原理很簡單,就是找到所有屬於同壹個基因的E ST片段,然後連接起來。因為E ST序列是在全世界很多實驗室隨機生成的,所以在屬於同壹個基因的很多E ST序列中必然存在大量重復的小片段。使用這些小片段作為標記,可以將不同的ESTs連接起來,直到找到它們的全長,因此我們可以說通過計算機克隆找到了壹個基因。如果這個基因以前沒有被發現,那麽我們已經發現了壹個新的基因。但是,計算機克隆程序設計復雜,計算量巨大。

(2)從基因組D NA序列預測新基因。

從基因組序列中預測新基因,本質上是區分編碼蛋白質的區域和不編碼蛋白質的區域。對於理論方法,就是找出編碼區和非編碼區有哪些數學和物理特征不同。通過將這些序列與已知基因的數據庫進行比較,可以發現新的基因。

新基因的發現將加深我們對生命活動的理解。據《自然》雜誌從1999到65438+2月2日的報道,從人類第22號染色體的數據中已經鑒定出679個基因,其中55%是未知的。有35種疾病與染色體突變有關,如免疫系統疾病、先天性心臟病和精神分裂癥。然而,將人類所有的基因及其對應的蛋白質和相關的功能完整而正確地整合成壹個索引,仍然是壹項非常重要而艱巨的任務。國際人類基因組合作組正在致力於建立壹個完整的“綜合基因索引”和相關的“綜合蛋白質索引”。

(3)發現了單核苷酸多態性。

有的人抽煙喝酒卻長壽,有的人從小就有病;同樣壹種治療腫瘤的藥物,對壹些人很有效,對另壹些人則完全無效。這是為什麽呢?答案是它們基因組的差異。這些差異中的許多表現為單堿基變異,即單核苷酸多態性(S NP)。

壹般認為,對S NP的研究是人類基因組計劃應用的重要壹步。這主要是因為S NP將為高危人群的發現、疾病相關基因的識別、藥物的設計和測試以及生物學的基礎研究提供有力的工具。S NP在基因組中分布廣泛,最近的研究表明,它在人類基因組中每300個堿基對就出現壹次。大量S NP位點的存在,使人們有機會發現與包括腫瘤在內的各種疾病相關的基因組突變;從實驗操作來看,通過S NP比通過家族更容易發現疾病相關基因突變。有些S NP並不直接導致疾病基因的表達,但由於它與某些疾病基因相鄰,所以成為壹個重要的標記。納米粒子在基礎研究中也發揮了巨大的作用。近年來,Y染色體S NP的分析在人類進化、人類種群進化和遷移等領域取得了壹系列重要成果。

三。基因組中的非編碼蛋白

區域的結構與功能研究

最近的研究表明,在細菌等微生物中,非編碼蛋白區僅占全基因組序列的10%至20%。隨著生物的進化,非編碼區越來越多,在高等生物和人類基因組中,非編碼序列已經占了基因組序列的絕大多數。這說明這些非編碼序列壹定具有重要的生物學功能。壹般認為它們與基因表達的調節有關。

對於人類基因組來說,到目前為止,真正掌握的只有D-NA上編碼蛋白質的區域(基因),最新數據顯示,這部分序列只占基因組的1.1%。對僅占人類基因組1.1%的編碼區的研究,造就了幾十位諾貝爾獎獲得者,98%的非編碼區所包含的成果數量將十分可觀。因此,尋找這些區域的編碼特征、信息調控和表達規律將是未來很長壹段時間內的熱點課題,也是重要成果的來源。

四。在基因組水平上研究生物進化

近年來,隨著基因組序列數據的海量增加,關於序列差異與進化關系的爭論日益激烈。首先,發現同壹種群基於不同分子序列重建的系統發育樹可能不同。與此同時,關於“縱向進化”與“橫向進化”關系的討論也逐漸引起人們的關註。也就是近幾年發現的基因“橫向轉移現象”。即基因可以在共存的種群間遷移,結果可能導致序列差異,但這種差異與進化無關。甚至對人類基因組的分析也發現,幾十個人的基因只和細菌基因相似,而果蠅和線蟲中並不存在。如果用人類的這些基因序列來研究進化,會得出荒謬的結論。因此,在當前的分子進化研究中,必須選擇垂直進化的分子作為樣本。特別是在分子進化分析中,“相似性”和“同源性”是兩個不同的概念。相似性只是反映了兩者的相似性,並不包含任何與進化相關的含義。同源性是指與同壹祖先相關的相似性。

動詞 (verb的縮寫)全基因組的比較研究

後基因組時代,全基因組數據越來越多。有了這些數據,人們可以分析和研究壹些重要的生物學問題,比如:生命起源於哪裏?生命是如何進化的?遺傳密碼是如何起源的?最小的獨立生命體需要多少個基因?這些基因是如何讓生物體活起來的?等壹下。這些重要的問題只能在基因組水平上回答。比如小鼠和人類的基因組大小差不多,都含有30億個左右的堿基對,基因數量也差不多,而且大部分都是同源的。但是老鼠和人的區別就是這麽大。為什麽?同樣,有科學家估計不同種族間的基因組差異只有0.1%;猿類之間的差別大概是1%。但是它們的表現型之間的差異非常顯著。因此,這種差異不僅應歸因於基因和D NA序列,還應歸因於整個基因組和染色體組織的差異。這項工作開創了比較基因組學。

科學家發現,所有的基因根據其功能和系統發育可以分為幾類,包括與復制、轉錄、翻譯、分子伴娘、能量產生、離子轉運和各種代謝有關的基因。這項工作也為蛋白質分類提供了新的途徑。同時,通過比較幾個完整的基因組,科學家計算出維持生命活動所需的基因數量最少約為250個。同樣,當我們比較老鼠和人類的基因組時,我們會發現,盡管基因組大小和基因數量相似,但基因組的組織結構卻截然不同。例如,存在於小鼠染色體1中的基因已經分布到人類染色體1、2、5、6、8、13和18中。研究表明,某些核糖體蛋白排列順序的差異可以反映物種間的親緣關系,親緣關系越近,基因排列順序越接近。這樣就可以通過比較基因的序列來研究物種之間的系統發育關系。

我國從1998開始進行微生物全基因組大規模測序和分析。目前國內自主鑒定的有:嗜熱真細菌和嗜熱古菌;福氏誌賀菌;鉤端螺旋體出血性黃疸依賴株;表皮葡萄球菌;菊花黃單胞菌中國科學家完成了人類基因組1%測序,最近完成了水稻基因組4.3億堿基對的“工作草圖”。這些數據將為中國在這壹領域的研究提供最直接的材料。

不及物動詞從功能基因組到系統生物學

不同組織中表達的基因數量差異很大。大腦中表達的基因數量最多,大約有30000-40000個轉錄本,有些組織只有幾十或幾百個基因表達。在個體生長發育的不同階段,同壹組織中表達的基因的種類和數量也是不同的。有些基因在童年時表達,有些在中年時表達,有些在老年時表達。我們不僅要知道基因的序列,還要知道基因的功能,也就是基因在不同時間不同組織中的表達譜。這就是通常所說的功能基因組研究。

為了獲得基因表達譜,已經在核酸和蛋白質水平上開發了新技術。這就是核酸層面的基因芯片(或D NA芯片)技術和蛋白質層面的大規模蛋白質分離和序列鑒定技術,也就是所謂的蛋白質組技術。由於芯片上樣本點的密度很高,每個芯片可以達到幾十萬個,表達譜數據挖掘和知識發現成為了這項研究成功的關鍵。生物芯片和蛋白質組技術的發展越來越依賴於生物信息學的理論、技術和數據庫。下壹步,功能基因組學研究將向復雜系統發展,即探索生物系統中各部分和各層次的相互作用,從而進入系統生物學領域。

七。蛋白質結構模擬與藥物設計

蛋白質的空間結構模擬和藥物設計已經有二三十年的歷史了。隨著人類基因組研究的快速發展,該領域面臨新的形勢,即找到3-4萬個人類基因的堿基序列指日可待,因此其表達產物的氨基酸序列也將逐步實現。此時,預測這些蛋白質的空間結構,進而實現靶向藥物設計,是壹項迫切的任務。這也是壹個大規模的計算問題。

八。生物信息學的應用與發展研究

生物信息學的研究成果不僅具有重要的理論價值,而且可以直接應用於工農業生產和醫學實踐。因此,生物信息學相關的分析和應用算法、軟件和數據庫具有重要的經濟價值,最終會形成商品,提供經濟效益和社會效益。

(1)疾病相關基因信息及相關算法和軟件開發。

許多疾病都與基因突變或基因多態性有關。據估計,約有1000個原癌基因和100個抑癌基因與癌癥相關。有6000多種人類疾病與各種人類基因變化有關。更多的疾病是環境(包括病原微生物)和人類基因(基因產物)相互作用的結果。隨著人類基因組計劃的深入,當我們知道了人類所有基因在染色體上的位置、它們的序列特征(包括S NPs)、它們的表達規律以及產物的特性(R NA和蛋白質)後,人們就可以有效地判斷各種疾病的分子機制,進而制定相應的診斷和治療方法。因此,兩項生物信息學任務很重要:壹是建立與疾病相關的人類基因信息數據庫(包括S NP數據庫),二是開發有效分析基因分型數據的生物信息學算法,特別是S NP數據與疾病和致病因子關聯的計算方法。

(2)建立動植物育種相關基因組數據庫,發展分子標記輔助育種技術。

根據不同物種間的進化距離和功能基因的同源性,我們可以很容易地找到與各種家畜和經濟作物的經濟效益相關的基因,並進壹步了解其發育、生長和抗逆性的各種途徑和機制。在此基礎上,利用相關的基因組分子標記可以加快育種速度,並根據人們的意願進行轉化。

(3)研發基於生物信息的藥物設計軟件和分子生物學技術。

人類基因組信息為藥物開發提供了新的候選分子和新的候選藥物靶基因。同時,分子生物學中常用的表達載體、P CR和雜交引物以及各種試劑盒(包括D NA芯片)的設計必須依賴於核酸的序列信息。基因組信息學提供的大量信息為這類技術的發展提供了廣闊的天地。

近兩三年來,美國壹些最著名的大學,如哈佛大學、普林斯頓大學、斯坦福大學和加州大學伯克利分校,都投入了幾千萬到壹億多美元,在生物、物理、數學等學科交叉的地方建立新的中心。諾獎得主朱棣文(Steven Chu)領導的斯坦福大學的中心也被命名為BIO-X,1999年6月3日,美國N IH的顧問團建議在生物計算領域設立壹個總額數億美元的重大研究基金,並設立5至20個計算中心來處理海量的基因組相關信息。

生物信息學的發展不僅導致生物學、物理學、數學、計算機科學等科學文化的融合,而且將造就壹批從事跨學科研究的新型科學工作者。科學家們普遍認為,本世紀頭幾年是人類基因組研究取得輝煌成就、創造巨大經濟和社會效益的時代。讓我們作為見證者來享受生物信息學的蓬勃發展吧!

  • 上一篇:怎麽做壹個景觀彩平面?
  • 下一篇:五行相生相克相乘相辱的規律
  • copyright 2024編程學習大全網