計(jì)算機(jī)在生物學(xué)中的應(yīng)用論文
計(jì)算機(jī)在生物學(xué)中的應(yīng)用論文
計(jì)算機(jī)在生物學(xué)研究中有著十分廣泛的應(yīng)用,已經(jīng)成為一門新興的交叉學(xué)科。下面是學(xué)習(xí)啦小編給大家推薦的計(jì)算機(jī)在生物學(xué)中的應(yīng)用論文,希望大家喜歡!
計(jì)算機(jī)在生物學(xué)中的應(yīng)用論文篇一
試談計(jì)算機(jī)在生物學(xué)研究中的應(yīng)用發(fā)展報告
【摘要】計(jì)算機(jī)在生物學(xué)研究中有著十分廣泛的應(yīng)用,已經(jīng)成為一門新興的交叉學(xué)科。本文對國內(nèi)特別是福建省“計(jì)算機(jī)在生物學(xué)研究中的應(yīng)用”學(xué)科發(fā)展情況進(jìn)行了簡介,并對這門新興學(xué)科的進(jìn)展進(jìn)行了簡述。
【關(guān)鍵詞】計(jì)算機(jī) 生物學(xué)研究 生物信息學(xué) 交叉學(xué)科
一 前言
什么是生物科學(xué)?在古時候,人們對生物學(xué)的認(rèn)識是很有局限性的:對生物學(xué)的認(rèn)識往往停留在觀察上,到了19世紀(jì),達(dá)爾文發(fā)表《物種起源》之后,生物學(xué)第一次總結(jié)出一個有重大哲學(xué)意義的普遍規(guī)律。此后,孟德爾發(fā)現(xiàn)了遺傳學(xué)的規(guī)律,沃森和克里克發(fā)現(xiàn)的DNA雙螺旋結(jié)構(gòu)以及核酸是生命本質(zhì)的一系列重大發(fā)現(xiàn),為生物學(xué)發(fā)展奠定了堅(jiān)實(shí)的基礎(chǔ),從而生物學(xué)正式擺脫了那種僅靠觀察,比較的方法,發(fā)展成為一門實(shí)驗(yàn)科學(xué)。
傳統(tǒng)的生物學(xué)是一門實(shí)驗(yàn)科學(xué),生物學(xué)的研究主要依靠的是對實(shí)驗(yàn)所得的數(shù)據(jù)進(jìn)行處理和分析。生物學(xué)還是一門發(fā)現(xiàn)科學(xué),通過對在實(shí)驗(yàn)中發(fā)現(xiàn)的新現(xiàn)象,新的生物規(guī)律進(jìn)行分析、歸納和總結(jié),提煉出新的生物學(xué)知識。進(jìn)入到20世紀(jì)以來,人類已經(jīng)進(jìn)入了信息化的社會。作為信息社會中最為重要的工具,計(jì)算機(jī)在人們生活中發(fā)揮著日益重要的作用。隨著網(wǎng)絡(luò)技術(shù)和通信技術(shù)以及半導(dǎo)體技術(shù)的發(fā)展,計(jì)算機(jī)的功能越來越強(qiáng)大。計(jì)算機(jī)科學(xué)是對社會各個層面影響最大,滲透力最強(qiáng)的高新技術(shù)。
回顧20世紀(jì)人類所取得的科學(xué)成就,以計(jì)算機(jī)技術(shù)為代表的信息技術(shù)得到高速的發(fā)展和應(yīng)用。在以計(jì)算機(jī)科學(xué)為代表的信息科學(xué)取得快速發(fā)展的同時,現(xiàn)代生物科學(xué)研究也取得了極大的成功。
二 進(jìn)展
計(jì)算機(jī)在生物學(xué)研究中的應(yīng)用并不是一個很新的話題,作為一門學(xué)科,它是新的,但實(shí)際上它的研究工作的開展已經(jīng)有了一段歷史。
(一)計(jì)算機(jī)在國內(nèi)生物學(xué)研究中應(yīng)用的情況
我國的科研人員在20世紀(jì)60-70年代就開始利用計(jì)算機(jī)在生物學(xué)研究中進(jìn)行數(shù)據(jù)的統(tǒng)計(jì)分析,但是應(yīng)用的層次低,多用于教學(xué)和實(shí)驗(yàn)數(shù)據(jù)分析處理。我國的生物信息工作是逐步發(fā)展起來的,20世紀(jì)80年代初僅在個別單位開展了一些計(jì)算分子生物學(xué)的工作,如核酸序列統(tǒng)計(jì)分析、生物大分子二級結(jié)構(gòu)預(yù)測、分子動力學(xué)等。雖然我國在1993年就在中國人類基因組計(jì)劃中加入了生物信息學(xué)的相關(guān)研究內(nèi)容,但是真正的開始是在1995年。目前,我國所用到的生物數(shù)據(jù)庫和生物系列軟件多半來自于國外,基礎(chǔ)力量還比較薄弱。
1997年,香山會議專題討論了我國生物信息學(xué)的發(fā)展。1999年,國家自然科學(xué)委員會生命科學(xué)部、信息科學(xué)部、數(shù)理科學(xué)部、材料科學(xué)部在北京召開了“生命科學(xué)中的信息科學(xué)問題”論壇,提出了建立國家生物醫(yī)學(xué)數(shù)據(jù)庫與服務(wù)系統(tǒng),同時開展基因組及功能基因組信息分析工作。2000年國家自然科學(xué)基金委員會主持召開的“生物信息學(xué)前沿方向”研討會上,與會專家提出了我國生物信息學(xué)發(fā)展的方向是:建立國家生物醫(yī)學(xué)數(shù)據(jù)庫與服務(wù)系統(tǒng)、人類基因組信息結(jié)構(gòu)分析、功能基因組相關(guān)信息分析和研究遺傳密碼起源與生物進(jìn)化(尤其是分子進(jìn)化)的過程與機(jī)制。
近幾年來,我國對生物學(xué)中的計(jì)算機(jī)應(yīng)用工作越來越重視,研究的層次也不斷提高。在“HGP1%的測序工作”、“中華民族基因組中若干位點(diǎn)基因結(jié)構(gòu)的研究”和“重大疾病相關(guān)基因的定位、克隆、結(jié)構(gòu)與功能研究”等項(xiàng)目中,計(jì)算機(jī)都起到了重要的作用。
北京大學(xué)于1997年3月成立了生物信息學(xué)中心,中科院上海生命科學(xué)研究院也于2000年3月成立了生物信息學(xué)中心,分別維護(hù)著國內(nèi)兩個專業(yè)水平相對較高的生物信息學(xué)網(wǎng)站。
2003年8月18日,“作為國內(nèi)服務(wù)器品牌三甲之一”的曙光信息產(chǎn)業(yè)(北京)有限公司(以下簡稱曙光公司)與國內(nèi)著名的基因組、生物信息研究中心華大基因聯(lián)合推出國內(nèi)第一款完全擁有自主知識產(chǎn)權(quán)的生物信息專用計(jì)算機(jī),采用先進(jìn)的基因數(shù)據(jù)庫架構(gòu)技術(shù)、數(shù)據(jù)定制可視化技術(shù)、數(shù)據(jù)密集技術(shù)、網(wǎng)格使能技術(shù)、在線擴(kuò)展技術(shù)及機(jī)群系統(tǒng)等技術(shù),為國內(nèi)用戶搭建了一套與國際生物信息研究主流趨勢相接軌的系統(tǒng)平臺。該系統(tǒng)是建立在華大基因和曙光公司在生物信息研究領(lǐng)域長期合作成果的基礎(chǔ)之上,通過運(yùn)用曙光公司每秒3萬億次浮點(diǎn)峰值運(yùn)算能力的Linux超級服務(wù)器,以支持?jǐn)?shù)據(jù)密集應(yīng)用為主,為國內(nèi)大量致力于基因組研究的科研工作者們提供方便、快捷的服務(wù)。“生物信息專用計(jì)算機(jī)”采用機(jī)群結(jié)構(gòu),系統(tǒng)中節(jié)點(diǎn)根據(jù)功能劃分為計(jì)算節(jié)點(diǎn)、數(shù)據(jù)庫節(jié)點(diǎn)、服務(wù)節(jié)點(diǎn)三種類型,為生物信息學(xué)研究提供了一個基于硬件、軟件和數(shù)據(jù)庫集成環(huán)境下的統(tǒng)一運(yùn)行平臺,為各個分析軟件、子數(shù)據(jù)庫模塊提供一致的運(yùn)行和管理環(huán)境。同時用戶可以根據(jù)需要選擇軟件和數(shù)據(jù)庫模塊,無縫集成到平臺上。平臺提供ORACLE數(shù)據(jù)庫和軟件的集成接口和管理工具。生物信息專用計(jì)算機(jī)以模塊化的方式提供大量基因組學(xué)、生物信息學(xué)研究的常用分析工具,并能實(shí)現(xiàn)分布式高性能計(jì)算。用戶也可以根據(jù)需要定制分析軟件,添加到該專用計(jì)算機(jī)應(yīng)用平臺中。
對于我國來說,生物信息學(xué)人才的培養(yǎng)是當(dāng)務(wù)之急。生物信息學(xué)是一個交叉學(xué)科研究領(lǐng)域,這對生物信息學(xué)研究人員在知識結(jié)構(gòu)上提出了非常高的要求,特別是對于來自數(shù)學(xué)或計(jì)算機(jī)專業(yè)的研究人員,不僅要掌握生物學(xué)的基礎(chǔ)知識,還要求深入了解生物學(xué)中的相關(guān)問題,這樣的人才不是單一學(xué)科能夠培養(yǎng)出來的,要求跨學(xué)科地培養(yǎng)生物學(xué)和信息科學(xué)的復(fù)合型人才。目前中國科學(xué)院和國內(nèi)一些著名大學(xué)已經(jīng)開始較大規(guī)模地培養(yǎng)生物信息學(xué)專業(yè)人才,這為我國今后生物信息學(xué)的發(fā)展奠定了良好的基礎(chǔ)??梢韵嘈?,我國未來計(jì)算機(jī)在生物學(xué)中的應(yīng)用一定會有著很大的進(jìn)步與發(fā)展。
(二)福建省“計(jì)算機(jī)在生物學(xué)研究中應(yīng)用”學(xué)科發(fā)展簡介
福建省計(jì)算機(jī)在生物學(xué)研究中的應(yīng)用雖然起步較早,但是發(fā)展一直相對較慢,目前還沒有形成較大的研究規(guī)模和較完整的研究體系。但是,福建省對計(jì)算機(jī)在生物學(xué)研究中的應(yīng)用十分重視,福建農(nóng)林大學(xué)、廈門大學(xué)等多所高校開辦了計(jì)算機(jī)在生物學(xué)研究中的相關(guān)專業(yè)或研究團(tuán)隊(duì)并舉辦了幾場相關(guān)的學(xué)術(shù)會議。
福建省的廈門大學(xué)生命科學(xué)學(xué)院和福建農(nóng)林大學(xué)的生命科學(xué)學(xué)院已經(jīng)開辦了生物信息學(xué)本科專業(yè),為我省培養(yǎng)生物信息科學(xué)人才提供了一個很好的平臺。該專業(yè)整合了生物和計(jì)算機(jī)的相關(guān)資源,有望為我省培養(yǎng)出更多的精通于計(jì)算機(jī)在生物學(xué)研究中的應(yīng)用人才。福建省的其它院校如福建醫(yī)科大學(xué)、福建師范大學(xué)、福建中醫(yī)學(xué)院、國立華僑大學(xué)、集美大學(xué)等多所高校也有不少的教學(xué)和科研工作者在這方面進(jìn)行了一定的研究工作,福建省農(nóng)科院也開展了一些生物信息學(xué)的研究工作。
例如:福建省廈門大學(xué)生命科學(xué)院的紀(jì)志梁博士主要從事生物信息學(xué)、功能基因組和蛋白組學(xué)、計(jì)算機(jī)輔助藥物設(shè)計(jì)、生物數(shù)據(jù)庫和生物信息軟件的開發(fā)及應(yīng)用、數(shù)據(jù)挖掘、分子進(jìn)化、生命起源與進(jìn)化等方面的研究,主持了生物信息輔助藥物不良反應(yīng)(ADRs)的分子機(jī)理研究及預(yù)測的國家自然科學(xué)基金項(xiàng)目。
福建農(nóng)林大學(xué)借助于其在生物學(xué)特別是農(nóng)林學(xué)科上的優(yōu)勢,聯(lián)合校內(nèi)的計(jì)算機(jī)與信息學(xué)院一起開辦生物信息學(xué)專業(yè),計(jì)算機(jī)與信息學(xué)院還成立了生物信息研究團(tuán)隊(duì),以期望借助于兩個學(xué)院的實(shí)力,更好地為我省培養(yǎng)相關(guān)的人才。
目前福建省在發(fā)展該學(xué)科時面臨的主要問題是相關(guān)人才的缺乏和研究硬件設(shè)備的不齊全。目前,福建省尚未能在“計(jì)算機(jī)在生物學(xué)研究”的學(xué)科發(fā)展中形成一個理想的研究梯隊(duì),從而導(dǎo)致了在相關(guān)的科研上以應(yīng)用研究為主,缺少理論上的創(chuàng)新性,而應(yīng)用的研究多集中于特定的領(lǐng)域:如福建農(nóng)林大學(xué)的相關(guān)研究主要在于農(nóng)業(yè)領(lǐng)域;華僑大學(xué)的方柏山教授所做的工作多集中于工業(yè)微生物的優(yōu)化控制等方面。全方位,多角度的研究格局還沒有形成。
從學(xué)科建設(shè)的硬件平臺來看,雖然有了較大的發(fā)展,但是距離科研的要求還有較大的距離。因?yàn)?ldquo;計(jì)算機(jī)在生物學(xué)研究中的應(yīng)用”學(xué)科是一門交叉學(xué)科,需要用到許多方面的儀器設(shè)備,而目前福建省內(nèi)的這方面的投入與科研所需要的設(shè)備還有一定的距離。
(三)計(jì)算機(jī)在生物科學(xué)研究中的學(xué)科現(xiàn)狀
自20世紀(jì)80年代,IBM公司制造出第一臺PC機(jī)以來,計(jì)算機(jī)迅速得到了普及。而且近二十年來,計(jì)算機(jī)與信息科學(xué)已經(jīng)成為發(fā)展最為迅速的學(xué)科領(lǐng)域,也為生物學(xué)的研究提供了更多的技術(shù)支持。在這個時期,生物學(xué)與計(jì)算機(jī)科學(xué)相結(jié)合的學(xué)科――生物信息學(xué)產(chǎn)生了,是當(dāng)今生命科學(xué)和自然科學(xué)的重大前沿領(lǐng)域之一,也是21世紀(jì)自然科學(xué)的核心領(lǐng)域之一。從國外近幾年的應(yīng)用情況來看,生物信息學(xué)在理論上促進(jìn)了生物學(xué)研究(特別是分子生物學(xué))研究的發(fā)展,使人類對生命本質(zhì)的認(rèn)識更加深刻。生物信息學(xué)已經(jīng)改變了傳統(tǒng)生物學(xué)的研究方法,提高了生物學(xué)實(shí)驗(yàn)的科學(xué)性和研究的效率。
在這個階段,計(jì)算機(jī)在生物學(xué)研究中的應(yīng)用更為廣泛與深遠(yuǎn),這一時期在生物學(xué)研究中用到的計(jì)算機(jī)技術(shù)大體有以下幾個方面:
(1)數(shù)據(jù)庫技術(shù)、數(shù)據(jù)挖掘技術(shù)與海量存儲技術(shù):生物信息數(shù)據(jù)庫具有數(shù)據(jù)結(jié)構(gòu)和組織方式復(fù)雜、數(shù)據(jù)量增長十分迅速等特點(diǎn)?!逗怂嵫芯俊?Nucleic Acids Research)雜志連續(xù)七年在其每年的第一期中詳細(xì)介紹最新版本的各種生物學(xué)數(shù)據(jù)庫。在2000年1月1日出版的28卷第一期中詳細(xì)地介紹了115種通用和專用數(shù)據(jù)庫,包括其詳盡描述和訪問網(wǎng)址。在DNA序列方面有GenBank、EMBL和DDBJ等。在蛋白質(zhì)一級結(jié)構(gòu)方面有SWISS-PROT、PIR和MIPS等。在蛋白質(zhì)和其它生物大分子的結(jié)構(gòu)方面有PDB等。在蛋白質(zhì)結(jié)構(gòu)分類方面有SCOP和CATH等。
很多數(shù)據(jù)庫涉及非結(jié)構(gòu)化的數(shù)據(jù),例如:PDB中的蛋白質(zhì)三級結(jié)構(gòu)等。利用傳統(tǒng)的關(guān)系數(shù)據(jù)庫對這些非結(jié)構(gòu)化的數(shù)據(jù)進(jìn)行管理就顯得有些力不從心了,所以,必須要采用面向?qū)ο蟮葦?shù)據(jù)庫新技術(shù)來處理復(fù)雜結(jié)構(gòu)的生物數(shù)據(jù)。生物信息數(shù)據(jù)庫具有種類繁多的特點(diǎn),目前各種生物信息數(shù)據(jù)庫大至有600種左右,分布在全球各個數(shù)據(jù)庫服務(wù)器中。
隨著數(shù)據(jù)庫技術(shù)、計(jì)算機(jī)網(wǎng)絡(luò)和人工智能等技術(shù)的發(fā)展,出現(xiàn)了一種新的信息管理技術(shù),即:數(shù)據(jù)倉庫技術(shù)(data warehouse)。隨著當(dāng)代生物學(xué)實(shí)驗(yàn)的手段不斷的進(jìn)步,所產(chǎn)生的實(shí)驗(yàn)數(shù)據(jù)的信息量是十分龐大的。如何在如此浩渺的信息海洋中發(fā)現(xiàn)潛在的規(guī)律呢?而數(shù)據(jù)倉庫技術(shù)中提供了一個解決方案,就是數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘技術(shù)一般分成四個基本步驟:數(shù)據(jù)選擇,數(shù)據(jù)轉(zhuǎn)換,數(shù)據(jù)挖掘和結(jié)果分析。數(shù)據(jù)挖掘與聚類分析的方法在蛋白質(zhì)的結(jié)構(gòu)預(yù)測中也有廣闊的應(yīng)用空間:數(shù)據(jù)挖掘可用于分析基因表達(dá)數(shù)據(jù)相似性度量,從中發(fā)現(xiàn)基因表達(dá)數(shù)據(jù)相似性和波動相似性類似,從而提出以波動相似性為依據(jù)的相似性度量函數(shù)。
(2)機(jī)器學(xué)習(xí)與模式識別技術(shù):機(jī)器學(xué)習(xí)算法(machine-learning methods),抽象的統(tǒng)稱,實(shí)質(zhì)是一種統(tǒng)計(jì)學(xué)的方法,它自動地從一個樣本的訓(xùn)練(train- ing)過程中獲得數(shù)據(jù)信息,這種方法適用于有大量數(shù)據(jù)但缺乏相應(yīng)理論的情況。如BRNNs(Bidirectional Recurrent Neural Networks,雙向重復(fù)神經(jīng)網(wǎng)絡(luò))算法即屬于機(jī)器學(xué)習(xí)算法,它的訓(xùn)練過程即通過對樣本進(jìn)行有效編碼,輸入網(wǎng)絡(luò),訓(xùn)練網(wǎng)絡(luò)各權(quán)值參數(shù)和閾值參數(shù),使網(wǎng)絡(luò)達(dá)到基本穩(wěn)定。目前機(jī)器學(xué)習(xí)方法包括:神經(jīng)網(wǎng)絡(luò)法、決策樹法、基于事例學(xué)習(xí)法、符號性知識優(yōu)化法及基于邏輯的歸納學(xué)習(xí)法。
數(shù)據(jù)是機(jī)器學(xué)習(xí)的基礎(chǔ),對于生物學(xué)實(shí)驗(yàn)數(shù)據(jù)也一樣。在大多數(shù)情況下,生物學(xué)中的知識和數(shù)據(jù)可以用序列的模式或序列的特征來概括。
隨著人工智能研究不斷取得進(jìn)展,人們逐漸發(fā)現(xiàn)研究人工智能的最好方法是向人類自身學(xué)習(xí)。因此引進(jìn)了一些模擬進(jìn)化的方法來解決復(fù)雜優(yōu)化問題。其中較有代表性的是:進(jìn)化主義思想和聯(lián)接主義思想。近年來,許多科學(xué)家致力于這兩種方法的研究。
模式識別是機(jī)器學(xué)習(xí)的一個主要任務(wù)。所謂模式,指的是對感興趣客體定量的或者結(jié)構(gòu)的描述,而模式識別就是利用計(jì)算機(jī)對客體進(jìn)行鑒別,將相同或者相似的客體歸入同種類別中。模式識別的關(guān)鍵是通過數(shù)據(jù)分析,提取分類對象的本質(zhì)特征,建立分類特征模型。在此基礎(chǔ)上設(shè)計(jì)模式分類規(guī)則和分類器,判別待識別模式的分類情況。分類特征模型描述各種目標(biāo)對象的特征,以便于工作于利用特征進(jìn)行識別。模式識別主要有兩種方法:一種是根據(jù)對象統(tǒng)計(jì)特征進(jìn)行識別,另一種是根據(jù)對象的結(jié)構(gòu)特征進(jìn)行識別。利用機(jī)器學(xué)習(xí)的方法可以應(yīng)用于蛋白質(zhì)結(jié)構(gòu)的預(yù)測,但現(xiàn)在的問題是從蛋白質(zhì)一級結(jié)構(gòu)序列預(yù)測蛋白質(zhì)二級結(jié)構(gòu)和三級結(jié)構(gòu)的準(zhǔn)確率低,還有許多現(xiàn)實(shí)的問題需要解決。
(3)人工心智和心腦科學(xué)在生物學(xué)中的應(yīng)用:了解腦及其全部功能是2l世紀(jì)重大挑戰(zhàn)之一,人類腦計(jì)劃開始于1993年,這項(xiàng)行動的主要目標(biāo):創(chuàng)立以web為基礎(chǔ)的神經(jīng)科學(xué)所有數(shù)據(jù)的數(shù)據(jù)庫,并提供數(shù)據(jù)分析、整合、合成、建模與模擬的先進(jìn)工具,有助于實(shí)現(xiàn)了解健康與有病神經(jīng)系統(tǒng)功能的最終目標(biāo)。腦是生物體內(nèi)結(jié)構(gòu)和功能最復(fù)雜的組織,人腦內(nèi)有上千億個神經(jīng)細(xì)胞,神經(jīng)突觸超過1014個,是生物體接受外界信號、產(chǎn)生感覺、形成意識、進(jìn)行邏輯思維、發(fā)出指令產(chǎn)生行為的指揮部,但它的功能目前還不為人們所了解。
在人類腦科學(xué)計(jì)劃提出后,產(chǎn)生了一門新的交叉學(xué)科――神經(jīng)信息學(xué)。神經(jīng)信息學(xué)產(chǎn)生的先進(jìn)的信息學(xué)解決方案,將加速對腦的了解,并能將基礎(chǔ)研究轉(zhuǎn)化為診斷、監(jiān)視、處理和預(yù)防腦疾病的更好手段。反過來,關(guān)于數(shù)據(jù)與信息的獲得、存儲、提取、分析、合成及可見的生物學(xué)機(jī)制的闡述,將更加清楚地解釋信息學(xué)技術(shù),以至隨著時間的推移,計(jì)算機(jī)將能超過人腦的工作。
人腦的結(jié)構(gòu)和功能極其復(fù)雜,需要從不同的層次對其進(jìn)行研究,包括:從DNA、RNA、蛋白、神經(jīng)元、神經(jīng)網(wǎng)絡(luò)到全腦。其中對神經(jīng)網(wǎng)絡(luò)和全腦功能的研究近年來發(fā)展很快,成為神經(jīng)信息學(xué)研究的重點(diǎn)。神經(jīng)信息學(xué)主要從信息和信息處理的觀點(diǎn)來研究人腦,研究神經(jīng)系統(tǒng)信息的載體形式,神經(jīng)信息的產(chǎn)生、傳輸與加工,以及神經(jīng)信息的編碼、存儲與提取機(jī)理等,并從系統(tǒng)和信息的觀點(diǎn)建立以生物學(xué)實(shí)際為基礎(chǔ)的神經(jīng)網(wǎng)絡(luò)模型。
(4)生物分子的計(jì)算機(jī)模擬技術(shù):傳統(tǒng)的生物分子研究主要是能過生物學(xué)實(shí)驗(yàn)來分析和表征生物分子,如利用測序技術(shù)確定DNA或RNA分子的序列;能過分子遺傳學(xué)方法確定基因的多態(tài)性;能過X射線衍射技術(shù)來確定蛋白質(zhì)等生物大分子的結(jié)構(gòu);通過生物化學(xué)實(shí)驗(yàn)來研究生物大分子之間的相互作用、藥物分子和靶分子的結(jié)合等。
現(xiàn)代對生物分子的研究也可有采用計(jì)算機(jī)模擬生物分子的技術(shù)。所謂生物分子的計(jì)算機(jī)模擬就是從分子或者原子水平上的相互作用出發(fā),建立分子體系的數(shù)學(xué)模型,利用計(jì)算機(jī)進(jìn)行模擬實(shí)驗(yàn),預(yù)測生物分子的結(jié)構(gòu)和功能??梢阅M生物大分子與大分子之間的相互作用、模擬生物大分子與具有活性的小分子之間的相互作用、研究分子之間的識別與及分子間的特異性結(jié)合。
(5)網(wǎng)絡(luò)技術(shù):隨著人類進(jìn)入了信息社會,網(wǎng)絡(luò)已成為社會的基礎(chǔ)設(shè)施,對人們的生活起著重要的影響。電子郵件和新聞組已經(jīng)成為生物學(xué)科研中的最要交流工具。而且網(wǎng)絡(luò)提供的各種服務(wù),如:FTP服務(wù),WEB服務(wù)等也為科研人員提供了重要的服務(wù)。
目前,Internet上有著巨大的生物學(xué)資源和生物學(xué)的相關(guān)數(shù)據(jù)庫與知識庫。使用者可以通過網(wǎng)絡(luò)查詢或搜索所需要的生物學(xué)信息,使用各個網(wǎng)絡(luò)站點(diǎn)提供的分析工具對生物實(shí)難進(jìn)行分析。生物信息的研究者能夠下載大量的數(shù)據(jù),但如何集成這些數(shù)據(jù)不是一件容易的事。
而Web Services技術(shù)由于使用標(biāo)準(zhǔn)的Web協(xié)議(http、SMTP等)和一系列標(biāo)準(zhǔn)協(xié)議(XML、SOAP、WSDL等)為生物信息集成提供了一種嶄新的方法。當(dāng)把Web Services應(yīng)用到生物數(shù)據(jù)庫中時,所有生物數(shù)據(jù)庫系統(tǒng)都成了一個松散結(jié)構(gòu)中的組件,系統(tǒng)接口、應(yīng)用通信、數(shù)據(jù)轉(zhuǎn)換和目錄信息都是建立在開放的、被廣為接受的標(biāo)準(zhǔn)之上,用戶能迅速地訪問到他們所需要的信息。
(6)高速計(jì)算能力與網(wǎng)格計(jì)算技術(shù):生物學(xué)研究需要對大量的樣本進(jìn)行分析計(jì)算或統(tǒng)計(jì),這就為為高性能計(jì)算提供了一個大的應(yīng)用領(lǐng)域。生物學(xué)研究中的計(jì)算面臨巨大的計(jì)算量與海量的數(shù)據(jù),如:利用分子動力學(xué)模擬一個蛋白質(zhì)的折疊就需要一個巨型機(jī)幾個星期的運(yùn)算。這給高性能計(jì)算、并行計(jì)算和網(wǎng)格計(jì)算提出了挑戰(zhàn)。
(7)專家系統(tǒng):專家系統(tǒng)(exepert system)是一種基于知識的智能系統(tǒng),它將領(lǐng)域?qū)<业闹R用知識表現(xiàn)的方法表示出來,并放入知識庫中,供推理機(jī)使用。專家系統(tǒng)利用知識和推理機(jī)解決那些需要特殊的、重要的人類專家知識才能解決的復(fù)雜問題。一般的專家系統(tǒng)是由六大部份:知識庫、數(shù)據(jù)庫、知識獲取部份、推理機(jī)、解釋機(jī)構(gòu)和使用界面組成的。知識庫中的知識也可以分成事實(shí)性知識和啟發(fā)性知識兩大類。生物學(xué)研究中已經(jīng)有了不少的專家系統(tǒng)。
(8)計(jì)算機(jī)圖形學(xué):眾所周知,DNA序列是兩條堿基互補(bǔ)的脫氧核糖核酸形成的雙螺旋結(jié)構(gòu)。一般認(rèn)為,它們可以用一條序列來進(jìn)行表示。根據(jù)文獻(xiàn)按照某種規(guī)則,人們可以把DNA序列轉(zhuǎn)換為一條z型曲線,該z曲線與所表示的DNA序列的關(guān)系是一一對應(yīng)的,即:一個特定的DNA序列,有唯一的一條z型曲線與它對應(yīng);反之,對任意一條給定的z曲線,可找到唯一的一個DNA序列與之對應(yīng)。也就是說,z曲線包含了DNA序列的全部信息。z曲線是與符號DNA等價的另一種表示形式。這樣就可將復(fù)雜的DNA序列轉(zhuǎn)換為一條空間中的曲線。對z曲線曲率和撓率的計(jì)算和分析,可用于識別DNA序列的不同的功能區(qū)等。DNA序列的幾何學(xué)研究是建立在計(jì)算機(jī)圖形學(xué)的基礎(chǔ)上的,對DNA序列幾何學(xué)的研究必將為計(jì)算機(jī)圖形學(xué)的研究提出一些新的課題。
三 計(jì)算機(jī)在生物學(xué)中的應(yīng)用研究展望
雖然計(jì)算機(jī)在生物學(xué)應(yīng)用中取得了不小的成果,但還有許多的問題擺在人們面前。目前計(jì)算機(jī)在生物學(xué)研究中的應(yīng)用面臨著許多的挑戰(zhàn):
(1)需要建立交互性好的生物學(xué)應(yīng)用軟件,生物學(xué)數(shù)據(jù)庫及相關(guān)的數(shù)據(jù)挖掘技術(shù)。現(xiàn)有的生物學(xué)軟件種類繁多,功能也不盡相同,但是,大部份軟件都要求用戶有較強(qiáng)的計(jì)算機(jī)基礎(chǔ),甚至還有一些軟件是基于linux或windws控制臺的,起特殊的命令語法不是一般的科研人員所能掌握的。而且,有些軟件的源代碼不是公開的,特定用戶就不能根據(jù)自己的需要對程序進(jìn)行修改,進(jìn)而適應(yīng)自己研究的需求。尋求一種好的方法來開發(fā)出交互性好、操作方便而功能強(qiáng)大的生物學(xué)研究軟件是今后一個重要的目標(biāo)。
(2)需要能提示大規(guī)模數(shù)據(jù)集合中不同組分之間關(guān)系的統(tǒng)計(jì)分析方法及優(yōu)化算法。在生物學(xué)研究中,獲取所得的實(shí)驗(yàn)數(shù)據(jù)往往可以根據(jù)其數(shù)據(jù)特征的不同分成若干組分,這些組分之間的關(guān)系是怎樣的?如何在實(shí)驗(yàn)數(shù)據(jù)中確定分組的標(biāo)準(zhǔn)?如何用更快的算法更有效率的確定數(shù)據(jù)的分組標(biāo)準(zhǔn)等等都讓科研人員十分困惑。例如:不同物種間可能包含了同源或非同源的數(shù)據(jù)基因,而不同基因可能在DNA或蛋白質(zhì)序列上具有較高的異質(zhì)性。因而,在基因組水平上比較不同物種或不同基因之間的相似性,有助于揭示整個基因組進(jìn)化與物種進(jìn)化的規(guī)律。
(3)需要開發(fā)適合于微陣列和基因芯片等新技術(shù)的數(shù)據(jù)分析工具。微點(diǎn)陣雜交中涉及上萬個寡核苷酸,并依雜交信號強(qiáng)弱、探針位置和序列確定靶DNA的表達(dá)及多態(tài)性等。目前,迫切需要提高檢測的自動化程度和數(shù)據(jù)的并行處理能力。
四 小結(jié)
綜上所述,盡管福建省的計(jì)算機(jī)在生物學(xué)研究的應(yīng)用學(xué)科目前發(fā)展還比較滯后,但只要能夠抓住計(jì)算機(jī)在生物學(xué)科發(fā)展的契機(jī),整合各方面的優(yōu)勢,進(jìn)行協(xié)作式的研究,就能夠更好地促進(jìn)該學(xué)科的發(fā)展。
參考文獻(xiàn)
[1]寧正元編著,計(jì)算機(jī)在生物科學(xué)研究中的應(yīng)用,廈門大學(xué)出版社,
2006.11.
[2]H.M.erman,J.Westbrook,Z.Feng,et al. The protein Data Bank[J]. Nucleic Acids Research,(28):235-242.
[3]D.R.Westhead,J.H.Prish,R.M.Twyman.Instant Notes in Bioinformatics[M].United Kingdom:Bios Scientific Pub Ltd,2002.
[4]SCRATCH servers.
[5]盧美律.蛋白質(zhì)結(jié)構(gòu)預(yù)測與機(jī)器學(xué)習(xí)[J],科學(xué),1996,46(5):22-27.
[6]沈均賢人類腦計(jì)劃與神經(jīng)信息學(xué)[J],生物物理學(xué)報,2001.12(17):607-612.
[7]Ligeng Ma,Jinming Li,LiJin qu,et al.Light control of Arabidopsis development entails coordinated regulation of genome expression and cellcular pathways[J].Plant Cell,2001,13912):2589-2607.
[8]生物信息學(xué)對計(jì)算機(jī)科學(xué)發(fā)展的機(jī)遇與挑戰(zhàn)[J],生物信息學(xué),2001 (3):37-41.
[9]BSML Organization.Bioinformatic Sequence Markup Language Version 3.1[EB/OL].
[10]Fenyo ,The biopolymer Markup Language[J],Bioinformatics,1999,(15):339-340.
[11]Lichun wang.XEMBL:distributing EMBL,data in XML format[J].Bioinformatics,2002,(18):1147-1148.
[12]郝柏林,劉寄星,理論物理與生命科學(xué)[M],上海:上??茖W(xué)技術(shù)出版社,1997.
[13]Hang C T,Pickover C A,et al.Viusalizing Biological Informatin[M].Singapore.World Science Pub co,1993.
[14]鐘揚(yáng),張亮等,簡明生物信息學(xué)[M],北京:高等教育出版社,2001.
[15]趙青,黃小兵,生物信息研究的加速劑[J],互聯(lián)網(wǎng)天地,76-77.
[16]廈門大學(xué)生命科學(xué)院.
[17]方柏山教授主頁.
[18]福建農(nóng)林大學(xué)生命科學(xué)院.