Microarray 分析:如何找出 Tissue specific genes?

話從一個支援任務開始說起....
我們單位大老是傳說中的神眼人,就是有可以用肉眼執行資料庫搜尋及解二級結構的那種,不過,最近有一個數十萬筆資料要分析,數量實在太大了,為了避免神眼過勞熱當,所以受命幫忙分析,任務很簡單,要挑出數十筆資料中,那一些基因是只在某種組織表現的(tissue specific expressed)。
##ReadMore##這是一個看似很單純,但實作上又很模糊的問題,因為tissue specific expressed 必須要先定義,而目前並沒有一個具有公信力的資料庫來註解,所以我問了一下大老,他平常如何用神眼來看 tissue specific? 他說 UCSC genome browser 有說。
 
 
在UCSC genome browser中只要點選,Expression, 就有幾個可用的 source 來註解各種分類下的表現量。另外,在許多的 bioinformatics gateway site, (ex. GeneCard等等) 也有類似的功能。
圖中是Genecard中,由GNF (http://biogps.gnf.org/) 提供的microarray set的分析結果, eNorthern則是由 EST summary 的結果。

如果只是看一個或少數基因,這些網站可以提供你一些初步的分析,但這些圖像只能提供你平均值,你不知在同一組織間基因表現的是否一致,統計上是不是有義意,另外,你也無法用你自己的方法來分類樣品(ex. blood v.s. neuron),另外,如果我有一萬基因要分類,又沒有神眼的血繼限界一個一個查,再作一萬次決定,大腦也會熱當。 不過,GNF 是一個佛心來的單位,GNF data set 是公開的,所以可以從 Mouse atlas V3human atlas Affyx HG-U95, U133A, GNF 1M/H 下載到你要原始資料,用你自己喜歡的方法處理資料,分類樣品及作統計分析,這樣就可以彈指間作完上萬個基因的分類啦!如果處理 microarray 資料不是你的專長,那你可以下載處理好的資料。基本上UCSC 跟 GeneCard 的圖都是用這個 Matrix 畫出來的,如果你也想要大量篩選,用 Excel 作一個簡單的 t-test, 設一個p-value cut off 就可以了。
上圖是利用 GNF 資料作的相關性分析,你看不同類的組織因為基因的表現相近,所以會靠在一起,是不是可以拿來當分類器呢?!呵呵,相關的應用還很多,資料人家己經奉上了,大家就不要客氣了。

留言

  1. 版主您好,謝謝您的分享,讓我有一些新的啟發

    若要看Tissue specific genes可參考http://cgap.nci.nih.gov/
    資料還算完善,可惜他是用SAGE的方法。
    在下想請教一下,除了BIOGPS外,是否有其他平台是整合NCBI裡GEO所有microarray的data?
    謝謝您^^

    回覆刪除

張貼留言