當前位置:編程學習大全網 - 人物素材 - 下列哪種生物信息學方法可以用來發現新基因?

下列哪種生物信息學方法可以用來發現新基因?

生物信息學方法可以用來發現新的基因。

1,序列比對。

序列比對的基本問題是比較兩個或多個符號序列的相似性或不相似性。從生物學的本意來說,這個問題包含以下含義:從重疊的序列片段中重建DNA的完整序列;從各種實驗條件下的探針數據確定物理和遺傳圖譜存儲,遍歷和比較數據庫中的DNA序列,比較兩個或兩個以上序列的相似性,在數據庫中搜索相關序列和子序列,找出核苷酸的連續生成模式,找出蛋白質和DNA序列中的信息成分,比較DNA序列的生物學特征,如局部插入、缺失(前兩者簡稱為indel)和置換。序列的目標函數獲得序列間變異集的最小距離加權和或最大相似和。對齊的方法包括全局對齊、局部對齊、代溝懲罰等。動態規劃算法常用於比較兩個序列,適用於序列長度較小的情況,但不適用於海量基因序列(如人類DNA序列高達109bp),甚至算法復雜度是線性的。因此,啟發式方法很難奏效。

2、蛋白質結構比較和預測。

基本問題是比較兩個或兩個以上蛋白質分子空間結構的相似性或相異性。蛋白質的結構和功能密切相關。壹般認為,功能相似的蛋白質,結構壹般是相似的。蛋白質是由氨基酸組成的長鏈,長度從50到1000~3000AA(氨基酸)不等。蛋白質有很多功能,如酶、物質的儲存和運輸、信號傳遞等。抗體等。氨基酸的序列內在地決定了蛋白質的三維結構。壹般認為蛋白質有四種不同的結構。研究蛋白質的結構和預測的原因是:在醫學上了解生物體的功能,尋找對接藥物的目標,在農業上獲得更好的農作物基因工程。酶促合成用於工業。直接比較蛋白質結構的原因是蛋白質的三維結構在進化中比壹級結構更穩定,也比AA序列包含更多的信息。蛋白質三維結構研究的前提是內部氨基酸序列與三維結構壹壹對應(不壹定成立)。物理學可以用最小能量來解釋。通過觀察和總結已知結構的蛋白質結構規律來預測未知蛋白質的結構。同源建模和線程化都屬於這壹類。同源性建模用於尋找相似度高的蛋白質結構(30%以上氨基酸相同),後者用於比較進化家族中不同的蛋白質結構。然而,蛋白質結構預測的研究現狀遠不能滿足實際需要。

3、基因識別,非編碼區分析。

基因識別的基本問題是正確識別基因在給定基因組序列中的範圍和確切位置。非編碼區由內含子組成,通常在蛋白質形成後被丟棄,但從實驗來看,如果去掉非編碼區,基因復制就無法完成。顯然,DNA序列作為壹種遺傳語言,不僅包含在編碼區,它還隱含在非編碼序列中。目前沒有分析非編碼區DNA序列的通用指導方法。在人類基因組中,並不是所有的序列都被編碼,也就是某種蛋白質模板,編碼的部分只占人類基因總序列的3-5%。顯然,人工搜索這麽大的基因序列是不可想象的。檢測密碼區的方法包括測量密碼區中密碼子的頻率。壹階和二階馬爾可夫鏈,ORF(開放閱讀框),啟動子識別,HMM(隱馬爾可夫模型)和GENSCAN,剪接比對等等。

4.分子進化和比較基因組學

分子進化是利用不同物種中相同基因序列的異同來研究生物的進化,構建進化樹。既可以利用DNA序列,也可以利用其編碼的氨基酸序列,甚至可以通過相關蛋白質的結構比較,在相似人種遺傳相似的前提下完成。通過對比,可以發現不同種族中哪些是相同的。有什麽區別?早期的研究方法通常使用外部因素,如大小、膚色和四肢數量,作為進化的基礎。近年來,隨著許多模式生物基因組測序任務的完成,人們可以從全基因組的角度研究分子進化。在匹配不同種族的基因時,壹般要處理三種情況:直向同源:功能相同的不同種族的基因;旁系同源:功能不同的同種族基因;異種基因:通過其他方式在生物之間傳播的基因,如病毒註射的基因。該領域常用的方法是構建系統發育樹,通過基於特征(即氨基酸堿基在DNA序列或蛋白質中的具體位置)和距離(比對得分)的方法以及壹些傳統的聚類方法(如UPGMA)來實現。

5、序列重疊群組裝

根據目前的測序技術,每次反應只能檢測500個或更多的堿基對。比如短槍法用於測量人類基因,需要大量的短序列全部形成重疊群。逐漸拼接它們以形成更長的重疊群直到獲得完整序列的過程被稱為重疊群組裝。從算法層面來看,序列的重疊群是壹個NP完全問題。

6、遺傳密碼的起源

壹般來說,對遺傳密碼的研究認為密碼子和氨基酸的關系是由生物進化史上的壹個偶然事件引起的,壹直固定在現代生物的同壹個祖先身上,直到現在。與這種“冷凍”理論不同的是,有人提出了三種解釋遺傳密碼的理論,即選擇優化、化學和歷史。隨著各種生物基因組測序任務的完成,為研究遺傳密碼的起源和檢驗上述理論的真實性提供了新的材料。

7、基於結構的藥物設計

人類基因工程的目的之壹是了解人體內約654.38+百萬種蛋白質的結構、功能、相互作用及其與人類各種疾病的關系,尋求包括藥物治療在內的各種治療和預防方法。基於生物大分子和小分子結構的藥物設計是生物信息學中壹個極其重要的研究領域。為了抑制某些酶或蛋白質的活性,基於已知的蛋白質三級結構,可以利用分子排列算法在計算機上設計抑制劑分子作為候選藥物。這個領域的目的是發現新的基因藥物,有很大的經濟效益。

8.生物系統的建模與仿真

隨著大規模實驗技術的發展和數據積累,從全局和系統層面研究和分析生物系統,揭示其發展規律,已成為後基因組時代的又壹研究熱點——系統生物學。目前其研究內容包括生物系統的模擬(Curr Opin Rheumatol,2007,463-70)、系統穩定性分析(非線性動力學心理生活Sci,2007,413-33)和系統魯棒性分析(Ernst Schering Res Found Workshop,2007,69-83)。以SBML為代表的建模語言(生物信息學,2007,1297-8)發展迅速,布爾網絡(PLoS Comput Biol,2007,e163)、微分方程(Mol Biol Cell,2004,3841-62)、隨機過程(Neural Comput,2007,3262-92)、離散動態事件系統(生物信息學,2007,336-43)已經出現許多模型是借鑒電路等物理系統的建模方法建立的,許多研究試圖從信息流、熵、能流等宏觀分析思路來解決系統的復雜性(Anal Quant Cytol Histol,2007,296-308)。當然,建立生物系統的理論模型還需要很長的時間。盡管實驗觀測數據在大量增加,但生物系統模型辨識所需的數據遠遠超過了當前數據的輸出能力。比如對於時間序列的芯片數據,采樣點數不足以使用傳統的時間序列建模方法,龐大的實驗成本是目前系統建模的主要難點。系統描述和建模方法也需要開拓性的開發。

9.生物信息學技術和方法研究

生物信息學不僅僅是生物學知識的簡單排列和數學、物理、信息科學等學科知識的簡單應用。海量的數據和復雜的背景導致機器學習、統壹的數據分析和系統描述在生物信息學背景下快速發展。巨大的計算量、復雜的噪聲模式和海量的時變數據給傳統的統計分析帶來了巨大的困難,這就需要更加靈活的數據分析技術,如非參數統計(BMC Bioinformatics,2007,339)和聚類分析(Qual Life Res,2007,1655-63)。高維數據的分析需要偏最小二乘(PLS)等特征空間的壓縮技術。在計算機算法的開發中,需要充分考慮算法的時間和空間復雜度,利用並行計算、網格計算等技術擴展算法的可實現性。

10,生物圖像

為什麽沒有血緣關系的人長得這麽像?

外貌是由點組成的。重疊的點越多,看起來就越像。為什麽這兩個不相關的點會重疊?

生物學基礎是什麽?基因相似嗎?不知道,希望專家解答。

11,其他

如基因表達譜分析和代謝網絡分析;基因芯片設計和蛋白質組學數據分析逐漸成為生物信息學中新的重要研究領域。在學科方面,由生物信息學衍生出來的學科,包括結構基因組學、功能基因組學、比較基因組學、蛋白質的研究、藥物基因組學、中藥基因組學、腫瘤組學、分子流行病學和環境基因組學,已經成為系統生物學的重要研究方法。從目前的發展不難看出,基因工程已經進入後基因組時代。對於如何應對與生物信息學密切相關的機器學習和數學中可能出現的誤導,我們也有了清晰的認識。

  • 上一篇:沙皇俄國的視頻資料
  • 下一篇:童心向黨的手抄報內容,急!
  • copyright 2024編程學習大全網