- 上海那艾實驗儀器有限公司
- 網(wǎng)址:
首先是DNA的高通量測序,這其中涉及到了信息論的意義。DNA鏈條通常非常長,比如說由10的9次方個堿基組成(我不是生物專業(yè),所以我講述不準(zhǔn)確的地方請大家指出)。我們測序的時候一般會得到很多碎片,將這些碎片整合成原來的DNA。而信息論,可以簡單地看作在打電話時將聲音進行編碼變成數(shù)字信號,再通過無線傳輸送到另一端。另一端會進行解碼,最后恢復(fù)出音頻信息。理解這一信息論的問題,首先需要建模,把這個問題轉(zhuǎn)化成一個嚴謹?shù)臄?shù)學(xué)問題。1948年,信息論的鼻祖Claude Shannon在他的經(jīng)典文章中提到一個關(guān)于信息論的數(shù)學(xué)模型,主要闡述怎么用一種非常簡單的數(shù)學(xué)模型來建模小型噴霧干燥機一個復(fù)雜問題,并通過數(shù)學(xué)分析來給實際系統(tǒng)一些很好的指導(dǎo);跀(shù)學(xué)模型,信息論回答了兩個問題。首先涉及信息傳輸?shù)囊粋理論極限,即通信中所謂的信道容量,這個理論極限任何系統(tǒng)都不可能打破;第二個問題是傳輸方式的設(shè)計,如何通過精巧的編碼方式來接近信息傳輸?shù)睦碚摌O限。所以,信息論的意義就在于它能指導(dǎo)通信系統(tǒng)的設(shè)計,有了Shannon信息論的指導(dǎo),工程師們不再是盲人摸象,可以知道距離那個理論極限還有多遠,進而評價一種方法有多好。在得知理論極限后,我們怎么重構(gòu)一組DNA?最簡單的方法是運用貪心算法。貪心算法把短的片段都接起來,將重復(fù)的部分去掉之后得到期望中的DNA序列,這也是最直觀的方法,卻也有一些弊端。另一種算法叫de Bruijn圖算法,我們將每一段序列打碎成圖上的節(jié)點,然后將有連接關(guān)系的全聯(lián)起來得到一個有向圖,再通過圖的方式結(jié)合起來,此時DNA重構(gòu)的問題就變成了怎么樣在這個圖上找到一條最長的通路,這個圖的算法可以有一個唯一的歐拉通路,它能夠得到最長的可重構(gòu)的序列。這個算法已經(jīng)被證明性能要優(yōu)于貪婪算法,就是利用了一些圖的結(jié)構(gòu)。