GTX-FPGA 介紹
GTX-FPGA產品是由未來實驗室 GTX-Laboratory開發的全基因組分析加速工具,采用CPU和FPGA協同工作的異構加速技術,利用各自的特性進行基因數據的高性能計算??梢詫?0X的全基因組數據分析時間從30小時縮短至30分鐘;將100X全外顯子數據分析時間從6小時縮短至5分鐘完成。
GTX-FPGA 分析主要包括:index(構建索引)、align(基因組對比)、 vc(突變檢測)、wgs(整合,將align 和 vc 整合到一起,下文中的 GTX one也是指該步驟)等步驟。
本文主要介紹如果通過阿里云批量計算直接使用 GTX-FPGA 產品,實現全基因組數據分析、全外顯子數據分析作業一鍵式運行。
使用約束
GTX-FPGA 產品目前只支持阿里云 F3 型 ECS 實例類型。同時每個實例類型需要配置一定容量的 SSD 數據盤,容量大小和fasta大小有關;其中 align 需要的磁盤大小是 2 個 fastq 文件大小的和再乘以 2(例如:需要計算的 fastq1 是 40G,fastq2 是 42G, 需要的數據盤空間大小是 164G);wgs需要的計算空間,以30x的WGS為例,100G的原始數據加上150G的計算結果,則需要的數據盤大小是 250G。針對人類基因組數據盤大小可以采用下文中 demo 示例的設置默認值。
GTX-FPGA 產品目前只支持 北京 區域測試。
GTX-FPGA 產品目前處于公測階段,公測階段 GTX-FPGA 產品不收取費用,只收取作業所需要的實例以及相關存儲費用。
前置條件
登錄阿里云,并確保賬號有足夠的余額,以便體驗完整分析流程。
開通批量計算服務,用于執行分析任務。
開通OSS對象存儲, 用于上傳用戶自己的測序數據,保存分析結果。創建bucket,例如 gtx-wgs-demo
查看或者創建AccessKey, 如果您使用的是子賬號,請確認具有以上批量計算和OSS的產品使用權限,參考快速開始文檔。復制AccessKey ID(如LTAI8xxxxx), Access Key Secret(如vVGZVE8qUNjxxxxxxxx)備用。
使用說明
GTX-FPGA 支持WDL模式運行以及DAG作業模式運行。
1 GTX 命令格式
2 WDL模式運行
如何使用WDL 模式請參考WDL 模式使用方式。
3 DAG作業模式
3.1 示例腳本
下載 DAG 作業示例代碼。
其中:
genGtxIndexCmd 則是對應 GTX 的建索引命令;命令使用方法可以參考代碼中幫助信息。genGtxWgsCmd 則是對應 GTX one的命令;命令使用方法可以參考代碼中幫助信息。genGtxAlignCmd 則是對應 GTX 基因組對比命令;命令使用方法可以參考代碼中幫助信息。genGtxVcCmd 則是對應 GTX 突變檢測命令;命令使用方法可以參考代碼中幫助信息。
可以自定義以上步驟中每項 GTX 參數,也可以按默認值來執行。
建索引操作是非必選項目,本 demo 示例默認索引構建完成;若需要構建索引在執行腳本時需要增加參數(isNeedIndex)描述。
read_group_header 可以通過命令行傳入也可以使用默認值。
示例代碼默認運行 GTX one流程,一次性執行對比以及變異檢測流程;若需要按分步驟執行則需要設置對應參數。
使用 "pip install —upgrade batchcompute" 更新批量計算 python SDK 到最新版本。
3.2 執行命令
python test.py --reference oss://xxx/ref/hg19.fa --fastq1 oss://xxx/input/human30x_10m_1.fastq --fastq2 oss://xxxx/_input/human30x_10m_2.fastq --output oss://xxx/testoutput/
3.3 執行結果