我的第一篇Paper - eGSA



歷經了一整年的奮鬥,我的第一篇Paper終於正式發表了。我們注意到現今Microarray分析有一個盲點...

##ReadMore##基因分析的盲點
過去的分析策略,大多以基因為基礎,先去找在某種疾病中有那些基因經常性的增加或減少表現 ,再由這些基因的功能去推測細胞內發生的功能變化。這個策略有一個前提是所有這種疾病的取樣品都要有相同基因表現變化 ,否則就不符合經常性的原則。換言之,傳統方法僅能偵測單一致病機制的疾病。在真實世界,這個假設與我們認知的疾病不同,我們通常是以功能變化作為疾病的定義 ,例如細胞不正常增生 ,稱為腫瘤 ,細胞增生可能有十種方法,每個方法有十個關鍵調控基因 ,這樣每個癌細胞就有一百種可能來產生異常增生。如果你只分析了十個樣品 ,你可能連一個共通性的基因都找不到 ,更別提由基因去推測功能的異常。


以功能會分析單位

所以我們認為應該反過來 ,先問癌症會發生什麼功能上的變化。然後再分析是由什麼基因變化引發。換言之 ,我們的分析基礎是一個一個生物功能。要實作這個構想,我們將所有跟某一功能相關的基因視為一個集合 ,例如 細胞增生的 十個方法的所有一百個基因,然後觀測所有十個樣品裡這一百基因發生的所有變化(10 sample x 10 pathways x 10 key genes) ,每一個觀測到的基因表現增減,稱為一個事件。因為我們觀察了每一個樣品(沒有經常性的問題),以及所有已知的基因(不必要單一的調控機制),所以無論細胞用那一招,都會被抓到 ,並且讓我們更確定細胞增生這個功能真的在這個疾病發生的變化。非常簡單的概念,計算上也不複雜 ,不過統計方法及計算的細節 ,就不再這裡詳述 ,歡迎您點閱原文。雖是一個簡單的概念,但還沒有被人實作出來,而由這個概念還可以延伸出一連串的應用,我稱之為功能導向的分析策略。這部份我沒有在paper 著墨太多,一方面是科學文章嚴謹拘束,不容許太浪漫的描述,另外自己輸在英文上,耍嘴皮我並不善長,還是等有結果時再來寫一篇吧。這些對這個方法的前瞻,比較適合寫在這裡及我的論文中。

我認為功能才是研究生物現象的核心概念,基因表現變化及其他的機制只是構成功能的一種手段,如果把眼光鎖在基因上,很難看清系統的全貎。所以分析一種疾病的第一件事,應是建立這種疾病的功能模型,而不是先去找致病基因。而傳統上對功能模型的探討,我們只能用非常有限的分析實驗,一個又一個的去猜生病的細胞怎麼了,事實上,我們也沒有辦法一次把所有的實驗都作完 (真正有cellomics 實力的實驗室,在台灣可以用一隻手數的出來吧!),所以大家都只能看到有限的變化。不過隨著基因體時代的來臨,我們終於可以一次分析細胞所有的功能變化。像GSA或我們開發的eGSA 這類方法,正是功能導向分析策略的第一步。當每種疾病有了功能圖譜時,我們就能夠理解致病的原因,然後偵對功能異常提出修正的辦法。


由eGSA 分析出來的各期肝癌的功能模型。


功能導向的分析策略
eGSA只是這一系列方法的第一步,我們還有許多以事件為基礎的方法正在發展中。你可以想像,當我們深刻的瞭解疾病必須發生什麼功能的變化時,我們就很清 楚的知道要怎麼修理這些異常,當我們發現早期癌症必須要增加分解蛋白質的功能時,我們就很容易可以想到要用蛋白質分解的抑制藥物來治療,不用直接去猜每個 病患是那一個基因壞了,用廣效的藥物就可以發揮作用了,因為那是功能層次的問題。回到基因層次,如果我們確認了分解蛋白質的功能是每一個癌症細胞都需要增 強的,那麼,我們就可以反過來問,為什麼這個病患個有這個功能的異常,到底是那些基因壞掉了,這樣我們就可以為每一個病患設計出客製化的療程,這就是對付 高個體歧異度的疾病,例如的癌症的方法。後半部的分析,我們正在努力中,也有一些初步的結果,還需要一些時間的來改進,希望很快就能有我的第二篇,呵呵呵!



由事件去分析功能變異的調節途徑。


留言

  1. 看得一知半解的
    重點是恭喜你啦
    希望第二篇也快快生出來!

    回覆刪除
  2. 您好,想請問你要怎麼做gene ontology 的biological function分析呢?

    回覆刪除
  3. 原來你也是陽明的博士生阿, 我也是 :)

    恭喜你發表論文成功!!

    "由eGSA 分析出來的各期肝癌的功能模型" 好漂亮, 怎麼畫的阿?

    另外, Microarray的盲點不只一個, 聽說有三個以上

    http://suicyte.wordpress.com/2008/12/16/microarrays_problems/

    回覆刪除
  4. 加油, 等著使用你發表的軟體, 感覺會很不錯:)

    回覆刪除
  5. 閣下應該是microarry 分析的高手,想跟您請教一個問題:
    我們的array是有control vs. treatment ...然後 有兩種strains: wild-type vs. mutant..
    用limma 做2x2 factorial分析後,可以拿到各種pair的DEGs,但是似乎沒有看到最想知道的分析結果:

    我們想知道:
    1.在wildtype 裡 treatment/control的DEGs (假設是2-fold cutoff好了)...

    2.想知道wildtype的這些DEGs在mutant裡,哪些是這個mutant dependent 的..i.e.
    想知道那些wildtype 的DEGs在mutant是否從up-regulated 變成沒有regulated甚或down-regulated.....最難的例如有些DEGs在wildtype被up-regulated 100倍,在mutant裡變成3倍(attenuated...但顯然也算是mutant dependent),若只比較各pair的DEGs顯然此例會漏掉,因為這個gene在兩組都是超過2倍 up-regulated。


    1.是基本分析,用SAM或limma都可以,但不知道"2"應該如何做?有建議嗎?

    多謝!

    回覆刪除
  6. 板主回覆:
    呵,我也希望,不過,還在考慮要打短打還是長打!

    回覆刪除
  7. 板主回覆:
    呵,說不定我們還在校園內擦身而過!

    eGSA 只是計算差異的方法, 是那個模型圖的基礎,畫法仍是不傳之祕,呵呵,正在寫軟體,所以演算法要暫是保密一下了。

    Microarray 的缺點還真不少,所以我們最近流行一句話,Microarray 已到了盡頭了,Next Generation Sequencing 才是後浪。

    回覆刪除
  8. 板主回覆:
    這是一個很大的問題,一時不知如何回覆,基本上,主要以 functional annotation enrichment analysis, gene set analysis 為主,細節你可以參考我paper introduction cite 的幾篇 review. 軟體最常用的就是 DAVID 了,Google一下,還容易找到的。

    回覆刪除
  9. 板主回覆:
    看起來你們的實驗有兩個變量, 1. treatment, 2. mutant, 你們可能要有一定量的重複,才能用統計的方法來找DEGs. 我個人非常不相信 fold change 的結果, 因為 Array 的fold change 很多是來自 probe 的效率而非target conc., 除此之外對生物而言, oncogene 的 2 fold change, 威力跟beta-actin 的 2 fold change是不同的.

    你會提到 2 的問題, 就是因為fold change issues, 因為沒有人可以告訴你幾倍的變化是真正有義意的,因為每一個基因每個都不一樣(你要看的那個基因,用2 切有問題, 但用3切就沒問題了,不是嗎?), 在這樣的狀況下,我們會觀察重複實驗值的分布是否有差異,以你的例子,我會用 2 way- ANOVA, 或是 pair-t test 來算 p-值, 這樣你就不必去想cut-off 的問題了.

    回覆刪除

張貼留言