這個週三參加了一個小小的產品說明會,說明會出席的不到十個人,不過多是有非常多實戰經驗的技術人員,而且說小也不小,想當年他們可是叱咤風雲的基因體主流技術(Affymetrix) 。當世界全都向NGS看齊時,這個昔日晶片界的巨人是不是氣數已盡,等著被死亡交叉了呢?其實本來我也是很悲觀的不抱希望,不過Lucas畢竟是跟著這個技術一起成長的人,聽說他們要來硬是擠出時間來看看這個老朋友吧!意外的是聽完之後,Lucas對NGS跟Array有了全新的想法,跟大家分享一下。
Array 的死亡交叉到了嗎?
當新技術與舊技術的執行成本相當,而新技術結果更優時,就有正當的理由汰換設備投資新技術平台,也就是舊技術要被淘汰的時間點。也就是之前Lucas 提到的『死亡交叉』,最近觀察RNA-seq 要取代 Expression Array 似乎已經是時機了,RNA-seq 要做到Array 的定量,其實是只要 2~30 millions reads ( 參見),成本來大概只要3-40,000 NTD,這跟Array 的成本很接近了,RNA-seq 號稱可以作定量,定性,Alternative splicing等等的分析,結果優於Array,那麼是不是該跟Array 說再見了?
我想還沒,先不說資料分的複雜度,就技術面而言,RNA-seq 要作到那些特異功能,其實是需要很深的定序深度才能達成的,並不是那個便宜的定序套餐可以作到的,從這角度來看NGS/Array的死亡交叉還沒到。如果你只是作基因表現的定量,其實我還是會推薦Array,畢竟那是一個已經千錘百鍊的成熟技術,分析的方法成熟,而且可以讓你用同樣的錢,上更多的samples,又不要到處求人幫你整理海量的NGS Data。如果你想找的序列的上的關鍵差異,NGS的確是唯一的方法,但你必須要有NGS Data 會給你上萬個位點的心理準備,離你的終點仍然很遠。
資料越多真得越好嗎?
對每個分析者而言,數據當然是越多越好,數據越多代表著他們可以觀察角度越多,越不可能遺漏關鍵的環節,這也是NGS受到注目的原因,不過,也許生物學家沒有料到,不斷追求觀察數據的週全程度,最後會導致他們需要電腦專家幫忙才能看懂他們自已的資料,Lucas最近才收到一批Exome-seq 的data 六個樣品,將近 300 Gb 的資料量(對!就是這種感覺)。但我們真得需要這麼多的資訊嗎?就許多研究最終的目的是要去找出某些基因表現量的差異,明明是一片晶片就可以作到的事情,郤要花好幾倍的成本做NGS,拿到Data後花好幾百倍的時間分析,最後其實表現量的變化就已經看不完了,根本沒有時間去看序列層次的變化,或者那個關鍵序列變化埋在百萬個背景變化中,根本撈不出來。
資訊太多這件事,作研究的只需要裝作沒看見就是了,做臨床的可就沒法裝作看不見了,如果你明明知道病人的基因有一個缺損,但又不知道這缺損會帶來什麼問題,你是否有權利不告訴病人?還是你要這樣跟病人這樣說:『我們發現你的基因出現了一些問題,但我也不知道這些缺損在未來會發生什麼事情,我只能勸你看開一點,還有要提醒你一下,即然你已經知道你健康上的疑慮了,我想你可能不能去保險了,以免被判詐保!』。
晶片巨人的逆襲
Affymetrix 年度獲利圖 (http://www.wikinvest.com/stock/Affymetrix_(AFFX)/Data/Revenue)
NGS技術的不成熟,其實這幾年觀察晶片主要廠商的業績就可以看到一些端倪,從NGS 開始普及的2008到2011這段時間,晶片的業績的確受到了NGS的排擠,一直在下滑,本來以為等著被割喉割到斷,但是神奇時從2012開始晶片的業績又重新反彈了,這個現象也出現在服務供應商的接單情況上,這些回頭的客戶不乏已經使用過NGS技術的研究者。而回頭的原因最主要的是花了大錢,結果拿到了一堆無法消化的資料,缺乏分析的方法及人才,最後夢碎只能回頭用 Array來結案。
Lucas 一點也不否認 NGS 會是明日最主要的技術,Array 終究有可能會被取代,但是我想時間不會那麼快,如同傳統的核型分析(karyotyping)到現在依然是主流,沒有被 aCGH, SNP chip, NGS 等技術取代,更何況晶片大廠內人才濟濟,也不會坐著等人割喉,最起碼這個產品說明會中拿出的壓箱寶,的確讓人眼晴為之一亮,容我在後續的文章中,再幫大家開箱介紹,本是想寫開箱文的,不過,說明會後我說來兩片試試吧!結果想也知道,並沒有拿到Free samples (謎之音:幾萬塊的東西你以為買西瓜,還可以試吃的啊,也不看看自已是什麼咖!), 所以只有介紹文了啦。
學長您好,蠻同意您說的看法,就算資料的精準度提升了,但是電腦硬體跟不上,也是殘念。想請問學長一個問題,就是我分析microarray或是seq的資料,找出DE gene or miRNA,想要做功能性註解,通常就是用DAVID,再自己寫程式去爬GO tree看是level幾。
回覆刪除最近暑假修實作課,教到GSEA,看到網路上這段學長的影片:https://www.youtube.com/watch?feature=player_embedded&v=0qEqICa39U8,想問的問題就是選擇用DAVID或是用GSEA做enrichment analysis的抉擇點在哪邊? 因為我實際上就可能是用Limma或SAM 找出最顯著up-regulated or down-regulated gene,這樣子做註解是不是只適合用DAVID做功能性註解?? 抱歉打擾了...
Hi,學弟
回覆刪除DAVID 有個惱人的Bias 就是會因你選的Gene list 不同,結果有所不同, 而且如果你要看的基因的變化量不強, 無法進 top list, 就看不到, GSEA 為參考所有的基因表現,在某部份修正了這個問題.
GSEA也支援自訂統計方法的功能,你可以把 Limma or SAM 作出來的結果倒進去算(by Rank),實際的用法視軟體不同,你可以參考一下軟體說明.
謝謝學長的解惑^^,我再去鑽研一下這軟體。
回覆刪除