Page 12 - 2017 Brochure
P. 12
究群

生物資訊學實驗室

本實驗室的研究是以資訊技術應用在生物和醫學研究為主, 已 協 助 找 出 罕 見 疾 病 之 致 病 融 合 基 因、 建 構 高 品 質 之 非
針對不同生物體學(omics)上的生物學和生物醫學進行解 模式物種資料庫與找出限制 HCV 病毒複製的機制 (PNAS,
析,主要研究可分成基因體和轉譯體研究,蛋白體及代謝 2017) 等。在複雜網路關鍵因子分析上,過去整合十一種拓
體研究兩大部份,分別詳述如下。 樸分析之程式 cytohubba (http://apps.cytoscape.org/apps/
cytohubba),自 2011 年以來,已有超過 9,000 次的下載,
(1) 基因體和轉譯體研究 近 180 次的文獻引用,而 2017 年一月上線的新版,至三月
底,已有超過四百次的下載。此外,所發展之多維體相關
處理巨量定序資料的方法論開發:新世代定序技術已成為 演算法已開始轉換到 Galaxy 平台介面,將以 DOCKER 或
基因體和轉錄體研究的主要工具。然而定序的資料量相當 是 VM 影像檔方式散佈,以期讓生物學家、臨床研究人員
龐大,定序的序列也常有錯誤,因此在資料處理時,常造 和生物資訊學家可以輕易地獲得與整合這些工具,加速整
成記憶體不足和計算時間冗長等困擾,亟待解決。因此, 體的研究流程。
近年來我們致力於發展新的方法和開發新的工具來解決一
連串計算的問題。在次世代 read mapping 上,我們發展了 轉錄因子和 DNA 結構的調控關係:轉錄因子結合的預測由
一個極為快速的演算法 Kart。Kart 將一個 read 分解成更小 DNA 序列與染色質通透性所決定,而後者通常受到染色質
的碎片,並將其個別匹配到基因序列。實驗結果證實 Kart 狀態與 DNA 結構特性所影響。藉由同時考慮這些特徵,我
比一般 mappers 快三到十倍之多,而且錯誤容忍度及準確 們提出的隨機森林分類器在預測轉錄分子結合有顯著的改
度均極高。同樣的方法也可以應用在 RNA-seq 上,效果也 善。接下來我們將進一步針對對於任何已定序之物種,單
甚佳。在基因體組裝方面,我們設計一套以延伸為基礎的 就其 DNA 序列來正確預測轉錄因子結合的可能區域。在染
組裝程式(稱為 JR-Assembler)利用整個短序做延伸,加 色體的研究方面, 我們發現非 B 型 DNA 結構在人類與老
快執行速度。另外利用跨過小於序列長度的重複片段等方 鼠中與選擇性剪接高度關聯,顯見結構妨礙在轉錄 - 剪接中
式來大幅降低記憶體的需求和執行時間,同時也考慮組裝 扮演重要角色。更進一步發現與 DNA 迴路有關的增強子,
的品質。和其他程式比較,JR-Assembler 的記憶體使用率 在老鼠中附近轉錄的 eRNA 極可能參與調控該增強子之目
和執行時間更有效率,而且保持良好的組裝品質,特別對 標基因。
於序長度等於及大於 150 bp 的基因組資料。
(2) 蛋白體及代謝體研究
處 理 巨 量 定 序 資 料 的 工 具 和 資 訊 整 合 平 台 開 發: 我 們 發
展 Mapreduce 平 台 的 前 組 合 和 後 組 合 分 析 技 術, 以 預 蛋白體質譜實驗大數據分析:質譜儀已成研究蛋白體學重
測 序 列 片 段 的 重 複 性 和 定 序 錯 誤, 來 優 化 新 穎 基 因 體 組 要的實驗技術,質譜實驗有由下而上和由上而下兩類,前
合 技 術 的 正 確 性 和 效 率 (https://github.com/moneycat/ 者是較常用的方式;我們針對此種實驗方式發展了計算方
QReadSelector)。此外,我們也正在發展嶄新的雲端系統 法和工具進行蛋白體定性及定量分析。大規模帶醣的醣蛋
架構與演算法,將結合次世代與第三代單分子定序技術所 白 鑑 定 分 析 極 具 挑 戰, 故 目 前 少 有 具 此 功 能 的 工 具。 為
產出之巨量資料,進一步加速新穎基因體組合器的執行效 此,我們提出計算方法,並發展名為 MAGIC 的系統。我們
率與運用範疇。在基因體組裝完成後,透過我們所建構基 亦建構 MAGIC-web 的平台,處理大規模及標靶醣蛋白的
因結構解析註解流程、線上即時分析與呈現平台 (http:// 鑑定。在蛋白體定量方面,我們正將前已發表的定量工具
molas.iis.sinica.edu.tw),已能整合基因體、轉錄體、蛋白 Multi-Q,重新開發,以處理目前盛行的 TMT 10-plex 定量
質體與甲基化 (http://tea.iis.sincia.edu.tw) 等多維體資料, 實驗。由上而下的質譜實驗方式,能完整偵測蛋白質上的
協同研究團隊以網頁介面,透過不同的角度來詮釋複雜生 修飾,故逐漸受到重視;唯其資料分析複雜,主要難在決
命 現 象 的 核 心 課 題, 如 癌 症 臨 床 樣 本、 非 模 式 生 物( 如 定蛋白質的訊號群及其電荷。我們提出一計算方法,名之
龍 膽 石 斑 (http://molas.iis.sinica.edu.tw/grouper2016)、 日 為 DYAMOND, 並以此開發名為 iTop-Q 的分析軟體。
本 鰻 (http://molas.iis.sinica.edu.tw/jpeel2016) 與 雞 肉 絲 菇
等)、環境微生物與人類病毒 (Enterovirus, HCV) 研究等, 醣合成及代謝體之自動分析:醣的合成技術雖然已臻成熟,

10 研究群 Research Laboratories
   7   8   9   10   11   12   13   14   15   16   17