本文介紹基因分析平臺的版本變更信息,包括發布時間、版本變更內容、核心功能特性等信息。
問:是否有用戶需要的分析應用能夠直接使用?
答:基因分析平臺通過應用倉庫為用戶提供開箱即用的公共應用,用戶只需安裝到工作空間即可使用。這部分內容由我們的合作伙伴以及開源社區提供,目標是覆蓋行業內主流的分析應用場景。目前主要覆蓋了全基因分析、全外顯子分析、腫瘤分析等內容。如果不在用戶的業務或者興趣范圍內,也可聯系我們來評估建設。
問:除WDL外,是否支持其他流程語言標準?
答:基因數據的生信信息分析流程,目前還不存在一個唯一的流程語言標準,多數用戶可能沒有使用WDL或者是使用了其他流程語言標準,如Nextflow、CWL、Snakemake等。阿里云基因分析平臺旨在遵循行業標準,以減少用戶學習和應用遷移的成本,并且以統一的方式來圍繞開源社區和生信開發者,來建立應用開放生態。WDL是國際基因組學聯盟(GA4GH)支持的流程語言標準之一,能夠同時提供完整的本地和云端執行解決方案,能夠滿足用戶開發、測試和分析需求,是目前產品的首選項和長期支持計劃。其他如CWL、Nextflow的支持在產品研發計劃之中,歡迎聯系反饋。
問:如何幫助平臺用戶進行基因數據的分析加速?
答:基因分析平臺提供多種計算分析加速手段,包括:1)計算緩存加速,提供輸入文件流式加載訪問、公共參考文件計算側緩存加速等節省大數據量文件訪問I/O優化。2)大規模并行計算,不受限本地計算資源規模,支持Scatter-Gather的模式,對生信流程進行并行計算優化。3)加速硬件和算法,提供Sentieon軟件、FPGA、GPU等多種加速手段,針對長耗時的計算步驟進行優化,并可以和用戶腳本自由組合。
問:基因分析平臺能否跨賬號訪問OSS資源?
答:可以。基因分析平臺允許客戶跨賬號訪問OSS資源,但需要資源擁有者授權資源訪問者相應權限。具體授權步驟如下:
對其他賬號的授權策略為:arn:sts::123456789:assumed-role/aliyuneasygenedefaultrole/*,其中,123456789為授予可訪問該bucket資源的第三方賬號。
問:基因分析平臺任務出錯常見原因排查方案?
答:基因分析平臺任務出錯原因建議按如下步驟排查:
查看任務頁面報錯提示,根據提示定位報錯位置及原因
如果頁面報錯提示無法定位原因,則查看任務的stdout、stderr以及任務重定向的輸出文件中是否包含錯誤提示
如果stdout及stderr中報錯原因不明確,則查看性能監控頁面的內存及磁盤使用率,如果任務結束前的內存或磁盤使用率接近100%或者快速攀升(由于性能監控存在時間間隔,因此即便任務因資源耗盡失敗也可能在性能監控中無法達到100%),則建議增加計算資源重試任務
如果上述步驟依然未能定位原因,則可聯系產品團隊或提工單
建議在任務執行過程中適當添加日志信息,便于任務出錯時定位原因
問:如何提高大量任務并發執行效率?
答:基因分析平臺將為單個task準備機器資源、拉取docker鏡像等,因此高并發時同步準備機器資源或拉取docker鏡像可能會成為并發調度瓶頸,從而導致并發效率降低,增加任務分析成本,建議從以下方面優化任務并發性能:
適當合并運行時間短的task,保證單個task的執行時間在20分鐘以上。由于資源準備以及拉取docker鏡像等需要一定時間,因此大量提交短的task將導致平臺反復準備及釋放資源,從而導致調度性能顯著降低,因此強烈建議合并運行時間低于10分鐘的task,提高并發效率,降低分析成本。注意合并task時需同步重新構建相關任務的docker鏡像。
間隔提交任務,避免同步提交大量任務。由于基因測序數據下機存在批次性,因此在投遞分析時也存在明顯的批次性,但同步提交大量任務時由于資源需求急速增加將導致任務并發調度性能降低,因此強烈建議客戶在上傳數據的同時分批提交分析任務,避免大量數據全部上傳完成之后再統一提交分析,從而縮短結果交付周期。
數據邊上傳邊提交分析建議采用如下方法:1)測序數據下機拆分完成后,本地使用OSS SDK按樣本上傳,上傳完立即使用基因分析平臺SDK提交分析任務,此種方式可自動化上傳數據及分析,調度性能最高,可獲得最短的結果交付周期;2)測序數據下機拆分完成后,分批次通過ossutil等方式上傳,每批次上傳完成后通過基因分析平臺SDK或實體方式提交分析任務,每批次建議不超過100個樣本。
如果通過上述方式優化后并發性能依然不夠理想,或者存在短期大量分析任務需求時,建議提交任務前聯系產品團隊或提工單。