生物信息學(xué)數(shù)據(jù)分析的作用主要包括:
①用于生物信息學(xué)數(shù)據(jù)分析的建立與查詢:包括基因和基因組數(shù)據(jù)庫(如Genbank、EMBL核酸序列數(shù)據(jù)庫、GDB等)、蛋白質(zhì)數(shù)據(jù)庫(如PIR、PSD、SWISS-PROT、PROSITE、PDB等)以及功能數(shù)據(jù)庫(如KEGG、TRRD、TRNSFAC等)。
?、谟糜谛蛄斜葘Γ杭吹鞍踪|(zhì)序列之間或核酸序列之間的比對。包括序列的兩兩比對和多序列比對。
?、酆怂崤c蛋白質(zhì)結(jié)構(gòu)和功能的預(yù)測分析。
?、芑蚪M序列信息分析。
?、莨δ芑蚪M相關(guān)信息分析:包括大規(guī)?;虮磉_譜分析、基因組水平蛋白質(zhì)功能綜合預(yù)測。
具體而言,生物信息學(xué)數(shù)據(jù)分析發(fā)現(xiàn)中應(yīng)用的數(shù)據(jù)挖掘技術(shù)包括:
?、贅?gòu)選基因數(shù)據(jù)庫或數(shù)據(jù)倉庫:由于廣泛多樣的DNA數(shù)據(jù)高度分數(shù),為了便于對DNA數(shù)據(jù)庫進行系統(tǒng)分析,需要利用數(shù)據(jù)挖掘中的數(shù)據(jù)清理和數(shù)據(jù)集成的方法來構(gòu)造集成式數(shù)據(jù)倉庫和開發(fā)分布式數(shù)據(jù)庫。
②序列模式分析:DNA序列間的相似搜索和比較是基因分析中重要的問題之一。由于基因數(shù)據(jù)是非數(shù)字的,所以數(shù)據(jù)挖掘中針對非數(shù)字的序列模式分析方法在基因序列比對中能起到非常重要的作用。
?、坳P(guān)聯(lián)分析:大部分疾病不是由一個基因引起的,而是由多個基因組合起來共同起作用的結(jié)果。因此采用數(shù)據(jù)挖掘中的關(guān)聯(lián)分析方法有助于發(fā)現(xiàn)基因組間的,進而揭示人類疾病背后的基因原因。
?、芸梢暬夯虻膹?fù)雜結(jié)構(gòu)和序列模式常常需要由各種可視化工具以圖、樹、鏈等形式來表現(xiàn)??梢暬ぞ哂兄谏镄畔⒌哪J嚼斫夂椭R發(fā)現(xiàn)。