最近研究計劃終於從寫程式漸漸回到科學層面了,所以最近的工作是忙著把收集資料,作為 OOD程式的材料。開始為常用的 microarray 找好註解檔,這樣才能從訊號轉化為生物的知識,首先從最常用的Affymetrix chip 下手,不過開始就踢到鐵板了,因為一些技術問題,所以不太容易直接下載 affymetrix 官網的晶片註解檔,有點傷腦筋。不過危機即是轉機,反正 Affymetrix 的註解風評一直不是很好。而且那個平扁化的註解,使用上也很沒有效率,現在OOD已經能用吸星大法同步幾個重要的 生資資料庫了,就興起了自己來作註解檔的念頭,我想效率會更好。
要如何用關聯資料庫註解 Microrray 呢?答案就在 UCSC genome中,這是一個以前幫某為重量級的長官救火時發現的資料庫,UCSC 一直負責維護 human genome project 的資料,並從這個定序結果 (golden path)為主幹 ,他們提供了已知的 gene, mRNA, protein, snp, .... 等等註解,更棒的是他們也是幾個主流的 array 註解來源,例如Affymetric, Agilent, illumnia...., 所以透過他們的資料連結,就想任意門一樣自由的轉換資料的模式,很夢幻吧!
不過,要擁有任意門的代價不小,hg18 版本總共 250 Gb ,是巨型的 database,這也是我為什麼花大本建 raid 硬碟陣列的原因。不過硬碟安全是沒有的,今天上午,OOD試車時,不小心毀了MySQL, 結果上次下載的 hg18一起共赴黃泉了,所以再強的防護還是檔不了內部的破壞(所謂內賊難防,不是嗎?!)。下午想說再來下載一次時,發現隔了三年,hg19終於現世了,而且結構似乎跟 hg18 不太一樣說!官方的說法是 hg19 的註解資料還沒完成,所以大家用hg18 先,可是我現在就要分析 database schema 來組裝 array annotation。我要等遙遙無期的 hg19, 還是先做 hg18 然後被突然現世的hg19 重重的打擊呢!痛苦啊!
##ReadMore##
留言
張貼留言