最近手上一此 affymetrix Exon array 的資料要分析,每片晶片有高達 6,553,600 個 probes, 資料量大的驚人,實在是電腦運算的一大挑戰,如果用Affymetrix 出的 Exact 來分析,光是 Normalization 就要跑上個三四天,用實驗室4顆CPU的刀鋒伺服器,也要八個多小時!還是印度人厲害,Stretagen 出的 Arrayassist Exon 4.1(其實是之前的Strendlife Avadis 的增強版),居然可以縮短到2~4個小時內完成,記憶體 2 Gb 內就可以打死,終於可以在的NB上跑了,只是從此之後,NB的CPU load 整天都是 100%, 機器也爆熱,前兩天翻過來看了一下,底部版權貼紙居然給燒熔了,太了不起了!
##ReadMore##
##ReadMore##
我不是要吐槽
回覆刪除但是我記得有人號稱他跟J博士
用XX語言(忘了好像是R吧)發展了一個軟體
可以在十幾分鐘就把EXACT能做的事情處理好
為什麼你會搞到標籤燒掉阿
還是我又搞錯了
目前Normalization這一段,還是不太可能在一個小時內完成,目前找到最快的軟體就屬 Arrayassist 了,Dr.J的軟體應該是著力在後段的分析,標籤會燒掉是日積月累的,最近跑的東西多了,兇手是誰?
回覆刪除Lucas 妳好
回覆刪除我是從yam blog發現妳有在使用arrayassist這套軟體,剛好我最近也在使用這套軟體計算array data,但
是我在Primary Analysis這步中的Probe Level Analysis有問題,我不了解在何時要選用哪種計算方法
(rma ,gcrma ,mas5 ,liwong, and plier),不知妳可不可以給我點建議,謝謝。
抱歉最後再問妳一個問題,妳應該是陽明生資所博士班學生吧,我是藥理所碩士班學生,所以說如果我猜
的沒錯,妳應該是學姊吧!
學弟:giant
b323090058@tmu.edu.tw
hi, Giant.
回覆刪除錯了喔!我不是生資所的,而且也不是女生!
Arrayassist我現在已經很少用了,如果只是為了 Normalization and summarization 我會選擇 affymetrix 自己出的Expression console (免費的)。不用的原因是Arrayassist 把分析寫的太死了,變得你只能用他設計的pipline, 匯出匯入都得不方便。
至於有關 probe level analysis 的選項,每一個都有理論基礎,沒有辦法三言兩語解釋清楚。而究竟要用那一種,則還是要實驗的設計。我自己使用原則是
Mas5:
Affy 原本的分析方法,對noise, batch effect 比較敏感,所以錯誤率高,但是最能忠實反應 fold change 的方法之一,如果你只有兩片,MAS5 是不錯的選擇。
Li-wong:
以model base 的方法取代MAS5 (PM-MM), 來估算Expression level, 後來release 了dChip軟體 讓這個運算法聲名大噪,現在還是有許多的擁護者。據說在low signal 的正確率比RMA好。
RMA :
為目前最常用的方法,跟 Li-wong 一樣是model base 演算法,特別適合有多組重複,作為假設檢定統計分析的前處理(e.g. t-test...)
GC RMA :
是RMA的變形,只是加了probe gc content 的參數,據說可以提高正確率,但是問題是會壓縮fold change
Piler
Affy 摸仿RMA 推出的model base 的algorithmn, 才出來沒多久,目前還是無法撼動RMA的地位,我自己用也覺得沒有比較好。
我通常會把可以用的算法都算一遍,再去看幾個已知的基因,來測試那種方法比較好,這一點不能偷懶,因為等你分析到後面才想要換方法,那用之前數據作的分析全部都要重來,這是很痛苦的。
謝謝你的回答
回覆刪除有没有对现在的exon array各种分析工具或者算法的一个总结的文章,我等新手期待
回覆刪除我回的不是專業討論, XP授權貼紙上面的破洞是正常的喔
回覆刪除"機器也爆熱,前兩天翻過來看了一下,底部版權貼紙居然給燒熔了,太了不起了!"
回覆刪除那是微軟,為了怕不肖業著,將授權標籤撕下轉賣,故意設計的結果.
板主回覆:
回覆刪除Exon array 現在很少碰了, 所以相關的資訊沒什麼在更新, 不過,我同事他們發展了一個好用的分析工具 (http://www.ncbi.nlm.nih.gov/pubmed/18851762) 你可以參考一下, 他們文章中也大概說明了一下 Exon array 常用的分析方法,也許對你會有幫助.