計算機技術(shù)和人類基因組計劃的發(fā)展,應運而生了一門新興的學科——生物信息學,該學科包含了兩個交叉領(lǐng)域的工作:用于建立現(xiàn)代生物學所需信息系統(tǒng)框架(支持生物學的信息管理系統(tǒng)、分析工具和通訊網(wǎng)絡(luò))的研究開發(fā)工作,即傳統(tǒng)意義上的生物信息學(bioinformatics);旨在理解基本生物學問題的基于計算的研究工作,即計算生物學(computational biology)。生物信息學和基因組研究(Bioinformatics and Genome Research)系列會議于1990年開始舉辦,1997年6月11~12日在美國加州舊金山舉辦了第六屆生物信息學和基因組研究年會,年會的主要議題包括正在出現(xiàn)的新技術(shù)、基因的功能分析、新的數(shù)據(jù)工具和制藥先導的基因和蛋白質(zhì)發(fā)現(xiàn)[1]?,F(xiàn)將有關(guān)內(nèi)容簡介如下: 一、正在出現(xiàn)的技術(shù) Klingler(Lncyte pharmaceuticals,PaloAlto,CA,USA)強調(diào)基因組學正推動制藥業(yè)進入信息時代。隨著不斷增加的序列、表達和作圖數(shù)據(jù)的產(chǎn)生,描述和開發(fā)這些數(shù)據(jù)的信息工具變得對實現(xiàn)基因組研究的任務(wù)至關(guān)重要。他談到了Incyte pharmaceuticals對大規(guī)?;蚪M數(shù)據(jù)和生物信息學的貢獻。 Lipshutz(Affymetrix,Santa clara,CA,USA)描述了一種利用DNA探針陣列進行基因組研究的方法,其原理是通過更有效有作圖、表達檢測和多態(tài)性篩選方法,可以實現(xiàn)對人類基因組的測序。光介導的化學合成法被應用于制造小型化的高密度寡核苷酸探針的陣列,這種通過軟件包件設(shè)計的寡核苷酸探針陣列可用于多態(tài)性篩查、基因分型和表達檢測。然后這些陣列就可以直接用于并行DNA雜交分析,以獲得序列、表達和基因分型信息。Milosavljevic(CuraGen, Branford, CT, USA)介紹了一種新的基于定量表達分析方法的基因表達檢測系統(tǒng),以及一種發(fā)現(xiàn)基因的系統(tǒng)GeneScape。為了有效地抽樣表達,特意制作片段模式以了解特定基因的子序列的發(fā)生和冗余程度。他在酵母差異基因表達的大規(guī)模研究中對該技術(shù)的性能進行了驗證,并論述了技術(shù)在基因的表達、生物學功能以及疾病的基礎(chǔ)研究中的應用。 二、基因的功能分析 Overton(University of Pennsylvania School of Medicine,Philadelphia,PA,USA)論述了人類基因組計劃的下一階段的任務(wù)——基因組水平的基因功能分析。這一階段產(chǎn)生的數(shù)據(jù)的分析、管理和可視性將毫無疑問地比*階段更為復雜。他介紹了一種用于脊椎動物造血系統(tǒng)紅系發(fā)生的功能分析的原型系統(tǒng)E-poDB,它包括了用于集成數(shù)據(jù)資源的Kleisli系統(tǒng)和建立internet或intranet上視覺化工具的bioWidget圖形用戶界面。EpoDB有可能指導實驗人員發(fā)現(xiàn)不可能用傳統(tǒng)實驗方法得到的紅系發(fā)育的新的藥物靶,制藥業(yè)所感興趣的是全新的藥物靶,EpoDB提供了這樣一個機會,這可能是它zui令人激動的地方。 Sali(Rockefeller university,New York,NY,USA)討論了同源蛋白質(zhì)結(jié)構(gòu)模建。比較蛋白質(zhì)模建(comparative protein modeling)也稱為同源模建(homology modeling),即利用實驗確定的蛋白質(zhì)結(jié)構(gòu)為模式(模型)來預測另一種具有相似氨基酸序列的蛋白質(zhì)(靶)的構(gòu)象。此方法現(xiàn)在已經(jīng)具有了足夠的性,并且被認為效果良好,因為蛋白質(zhì)序列的一個微小變化通常僅僅導致其三維結(jié)構(gòu)的細微改變。 Babbitt(University of California,San Francisco,CA,USA)討論了通過數(shù)據(jù)庫搜索來識別遠緣蛋白質(zhì)的方法。對蛋白質(zhì)超家族的結(jié)構(gòu)和功能的相互依賴性的理解,要求了解自然所塑造的一個特定結(jié)構(gòu)模板的隱含限制。蛋白質(zhì)結(jié)構(gòu)之間的zui有趣的關(guān)系經(jīng)常在分歧的序列中得以表現(xiàn),因而區(qū)分得分低(low-scoring)但生物學關(guān)系顯著的序列與得分高而生物學關(guān)系較不顯著的序列是重要的。Babbit證明了通過使用BLAST檢索,可以在數(shù)據(jù)庫搜索所得的低得分區(qū)識別遠緣關(guān)系(distant relationship)。Levitt(Stanford univeersity,Palo Alto,CA,USA)討論了蛋白質(zhì)結(jié)構(gòu)預測和一種僅從序列數(shù)據(jù)對功能自動模建的方法?;蚬δ苋Q于基因編碼的蛋白質(zhì)的三級結(jié)構(gòu),但數(shù)據(jù)庫中蛋白質(zhì)序列的數(shù)目每18個月翻一番。為了確定這些序列的功能,結(jié)構(gòu)必須確定。同源模建和從頭折疊(ab initio folding)方法是兩種現(xiàn)有的互為補充的蛋白質(zhì)結(jié)構(gòu)預測方法;同源模建是通過片段匹配(segment matching)來完成的,計算機程棄SegMod就是基于同源模建方法的。 三、新的數(shù)據(jù)工具 Letovsky(Johns hopkins University,Baltimore,MD,USA)介紹了GDB數(shù)據(jù)庫,它由每條人類染色體的許多不同圖譜組成,包括細胞遺傳學、遺傳學、放射雜交和序列標簽位點(STS)的內(nèi)容,以及由不同研究者用同種方法得到的圖譜。就位置查詢而言,如果不論其類型(type)和來源(source),或者是否它們正好包含用以批定感興趣的區(qū)域的標志(markers),能夠搜索所有圖譜是有用的。為此目的,該數(shù)據(jù)庫使用了一種公用坐標系統(tǒng)(common coordinate system)來排列這些圖譜。數(shù)據(jù)庫還提供了一張高分辨率的和與其他圖譜共享許多標志的圖譜作為標準。共享標志的標之間的對應性容許同等于所有其它圖譜的標準圖譜的分配。 Markowitz(Lawrence berkeley Laboratory,Berkeley,CA,USA)討論了分布式數(shù)據(jù)庫與局部管理的關(guān)系,以及用基于工具的方法開發(fā)分子生物學數(shù)據(jù)庫(MDBs)的問題。許多方案當前正在促進搜索多種不同來源MDBs的數(shù)據(jù),包括建立數(shù)據(jù)倉庫;這要求對各種MDBs的組合有一種全局觀,并從成員MDBs中裝填數(shù)據(jù)入中心數(shù)據(jù)庫。這些方案的主要問題是開發(fā)整體視圖(global views),構(gòu)建巨大的數(shù)據(jù)倉庫并使集成的數(shù)據(jù)庫與不斷發(fā)展中的成員MDBs同步化的復雜性。Markowitz還討論了對象協(xié)議模型(object protocol model,OPM),并介紹了支持以下用途的工具:建立用于文本文件或者關(guān)系MDBs的OPM視圖;將MDBs作成一個數(shù)據(jù)庫目錄,提供MDB名稱、定位、主題、獲取信息和MDB間鏈接等信息;說明、處理和解釋多數(shù)據(jù)庫查詢。Karp(SRI international,Menlo Park,CA,USA)解釋了Ocelot,一種能滿足管理生物學信息需求的面向?qū)ο笾R陳述系統(tǒng)(一種面向?qū)ο笙到y(tǒng)的人工智能版)。Ocelot支持略圖展開(schema evolution)并采用一種新的*化并行控制機制(同時進行多項訪問數(shù)據(jù)的過程),其略圖驅(qū)動圖形編輯器提供了交互式瀏覽和編輯功能,其注釋系統(tǒng)支持數(shù)據(jù)庫之間的結(jié)構(gòu)通訊。 Riley(Marine biological Laboratory,Woods Hole,MA,USA)在討論大腸桿菌蛋白質(zhì)的功能同時,特別提到了GPEC數(shù)據(jù)庫,它包括了由實驗確定的所有E.coli基因的功能的信息。該數(shù)據(jù)庫中zui大比例的蛋白質(zhì)是酶,其次則為轉(zhuǎn)運和調(diào)控蛋白。 Candlin(PE applied Biosystems,Foster City,CA,USA)介紹了一種新的存儲直接來自ABⅠPrism dNA測序儀的數(shù)據(jù)的關(guān)系數(shù)據(jù)庫系統(tǒng)BioLIMS。該系統(tǒng)可以與其它測序儀的數(shù)據(jù)集成,并可方便地與其它軟件包自動調(diào)用,為測序儀與序列數(shù)據(jù)的集成提供了一種開放的、可擴展的生物信息學平臺。 Glynais(NetGenics,Cleveland,OH,USA)認為生物信息學中zui關(guān)鍵的問題之一是軟件工具和數(shù)據(jù)庫缺乏靈活性。但是,軟件技術(shù)的發(fā)展已得到了其它領(lǐng)域如金融業(yè)和制造業(yè)的發(fā)展經(jīng)驗的借鑒,可以使來自不同軟件商的運行于各種硬件系統(tǒng)的軟件共同工作。這種系統(tǒng)的標準是CORBA,一種由250多個主要軟件和硬件公司共同合作開發(fā)的軟件體系。聯(lián)合使用CORBA和Java可以開發(fā)各種通過一個公用用戶界面訪問任何種類的數(shù)據(jù)或軟件工具的網(wǎng)絡(luò)應用軟件,也包括生物信息學應用軟件。Overton不同意Glynias的這種想法,他強調(diào)說CORBA僅對軟件集成有用,不兼容的數(shù)據(jù)庫軟件可能是計算生物學所面臨的zui困難問題,一些制藥公司和數(shù)據(jù)庫倉庫zui近資助了一項用OCRBA鏈接不同的數(shù)據(jù)庫的計劃[2,3]。 四、制藥先導的發(fā)現(xiàn) Burgess(Sturctural bioinformatics,San Diego,CA,USA)討論了填補基因組學和藥物設(shè)計之間鴻溝的蛋白質(zhì)結(jié)構(gòu)中的計算問題。在缺乏主要疾病基因或藥物靶的描述數(shù)據(jù)的情況下,藥物設(shè)計者們不得不采用大規(guī)模表達蛋白質(zhì)篩選方法;而結(jié)構(gòu)生物信息學則采用一種更為實用有效的計算方法直接從序列數(shù)據(jù)中確定靶蛋白質(zhì)的活性位點的精細結(jié)構(gòu)特征,它利用一種集成專家系統(tǒng)從現(xiàn)實的或虛擬的化學文庫中進行迅速的計算篩選,可以達到一個很大的規(guī)模。 Elliston(Gene logic,Columbia,MD,USA)討論了治療藥物開發(fā)中發(fā)現(xiàn)新的分子靶的過程,著重討論了基因發(fā)現(xiàn)方法。他認為,隨著日益臨近的人類基因組測序的完成,幾乎全部基因的特征將在序列水平得到揭示。但是,對基因的認識將有賴于更多的信息而不僅僅是序列,需要考慮的*類信息是轉(zhuǎn)錄表達水平信息,而Gene logic 公司的GeneExpress就是一個由mRNA表達譜、轉(zhuǎn)錄因子位點、新基因和表達序列標簽組成的數(shù)據(jù)庫。 Liebman(Vysis,Downess grove,IL,USA)介紹了Vysis公司開發(fā)的計算和實驗方法,這些主法不僅用于管理序列數(shù)據(jù),而且被用于以下用途:分析臨床數(shù)據(jù)庫和自然—突變數(shù)據(jù)庫;開發(fā)新的算法以建立功能同源性(區(qū)別于序列同源性)模擬生物學通路以進行風險評估;藥物設(shè)計的靶評估;復雜的通路特性以便識別副作用;開發(fā)疾病發(fā)展的定性模型并解釋臨床后果。 隨著發(fā)現(xiàn)的新基因的日益增多,這個問題顯得格外重要:基因的功能是什么?Escobedo(Chiron technologies,Emeryville,CA,USA)提出了這個問題的一種方法:將分泌蛋白質(zhì)的基因的功能克隆與篩選這些克隆(可能的藥物靶)結(jié)合起來。在這種方法中,在微粒體cDNA文庫池中進行體外翻譯避免了勞動密集的克隆、表達和純化步聚,對文庫池中的翻譯產(chǎn)物在細胞水平進行篩選,測試其在細胞增殖和分化中的作用。例如,在用這種方法識別的111個克隆中,56個屬于已知的分泌蛋白質(zhì),25個為膜相關(guān)蛋白,另外30個功能未知,可能是新的蛋白質(zhì)。一種相似的方法在轉(zhuǎn)移到小鼠模型系統(tǒng)中的基因傳導載體中構(gòu)建分泌蛋白質(zhì)的cDNA文庫來克隆特定的功能基因。 Ffuchs(Glaxo wellcome ,Research Triangle Park,NC,USA)討論了生物信息學更為廣義的影響:它不僅影響到新藥物靶基的發(fā)現(xiàn),還對改善藥物開發(fā)的臨床前期和臨床期的現(xiàn)狀重要性。*,涉汲數(shù)以千計病人的臨床試驗(可能是藥物開發(fā)zui為花錢的部分)的設(shè)計不論多么仔細,也不能為正確的藥物選擇正確的病人。而在基因組水平劃分病人群體的方法可以大大改善發(fā)現(xiàn)新藥的效率。Fuchs介紹了一種將病人的基因型和表型標志結(jié)合起來以改善臨床前期和臨床期藥物開發(fā)過程的系統(tǒng)Genetic information System.他強調(diào)將遺傳學和生物信息學數(shù)據(jù)同化學、生物化學、藥理學和醫(yī)學數(shù)據(jù)連接起來的集成信息管理和分析方法是極其重要的。 Green (Human Genome Sciences,Rockville,MD,USA)介紹了他的測序工作中采用的數(shù)據(jù)管理工具?;?span lang="EN-US">EST的測序方法所面臨的挑戰(zhàn)是,在對幾百個cDNA克降重復測序之后,產(chǎn)生的數(shù)據(jù)堆積如山。由于大多數(shù)人類基因都是用這種方法發(fā)現(xiàn)并在么有數(shù)據(jù)庫中分類編排的,面臨的識別開放讀框、重疊序列的重疊圖譜、組織特異表達和低豐度mRNA基因的任務(wù)是令人生畏的。Human genome Sciences公司開發(fā)了一些可用戶化數(shù)據(jù)庫工具,在同一個數(shù)據(jù)庫中可包括以下功能:WWW上訪問和檢索數(shù)據(jù),序列拼接,臨視潛在藥物靶基因的研究進展等。這些能夠管理多項任務(wù)——從注釋基因序列到成功開發(fā)基因產(chǎn)物進入藥物發(fā)現(xiàn)的流程——的軟件工具,極其可望從一種基于基因組知識的藥物發(fā)現(xiàn)方法中得到新的藥物靶。 Summer-Smith(Base4 bioinformatics,Mississauga,Ontario,Canada)描述了一種相關(guān)的策略。藥物發(fā)現(xiàn)階段中所要求的軟件工具的任務(wù)是多樣化的,要能注釋基因,并闡明它的生理和病理功能及其商業(yè)潛質(zhì)。對這樣多種來源的信息的集成與分析,在派生的、項目取向的數(shù)據(jù)庫(project-specific database,PSD)中可以很好完成。由于項目貫穿于發(fā)現(xiàn)到開發(fā)全過程,其間又不斷加入背景的成員,PSD在項目的管理與發(fā)展中成為一種關(guān)鍵性的資源。 按照Smith(Boston university,Boston,MA,USA)的觀點[2],我們并不需要更快捷的計算機或更多的計算機科學家,而是需要更的生物學家和生物化學家來解釋序列的功能。這對有些軟件或硬件專家來說是個打擊,但生物學系統(tǒng)的復雜性是令人生畏的,并且對基因功能的認識可能需要生物學方法和計算方法的結(jié)合。探索基因的功能很可能要花費生物學家們數(shù)十年的時間,本次會議表明沒有任何單一的方法可以得出一個答案;但是,將計算生物學同大規(guī)模篩先結(jié)合起來識別一種化學靶物(hit)是一種產(chǎn)生化學工具來探索基因功能的方法,這些化學工具接下來就可以用作理解基因功能的“探針”。這種方法在Butt(Gene Transcription Technologies, Philadelphia, PA, USA)的描述中,既是一種檢查基因功能的簡單方法,也是為潛在的藥物靶發(fā)現(xiàn)化學先導物的簡單方法,他描述了一種可以在酵母中重建人類基因功能的酵母大規(guī)模篩選系統(tǒng)。在此系統(tǒng)中,可以迅捷地在一個化學文庫中發(fā)現(xiàn)配基。這種技術(shù)的重要特征是它不僅僅是發(fā)現(xiàn)一種藥物靶的配基的篩板(screen),相反,由于該系統(tǒng)的高速度,它也是發(fā)現(xiàn)先導靶基因的一種篩板。過去,世界上的制藥公司通常在某一時間內(nèi)僅能對有限數(shù)目(約20多個)的藥物靶基因進行工作,鑒于此,我們需要根本不同的方法如基因組學來打開通向“新”生物學的通路。由于機器人和合成化學的進步,藥物發(fā)現(xiàn)中zui關(guān)鍵的問題不再是得到一種先導化合物(lead compound),而是得到導向靶基因。此次會議為從計算和實驗方法中發(fā)展出的新生物學邁出很好的一步。 |