本文介紹基因分析平臺中的實體概念,以及如何通過表格管理基因數據文件和元數據信息。
基因實體表格介紹
基因數據除測序文件(如FASTQ,BAM等)外,還需要包括臨床、樣本、實驗等相關元數據信息,這些組合在一起,才能形成生物醫學多組學的大數據。
除使用阿里云對象存儲OSS為基因數據文件提供安全、可靠、無限的存儲空間外,基因分析平臺設計了符合生物樣本數據(如患者、樣本、組織等)管理需要的實體概念。實體(Entity)通過csv表格的形式,來定義包含的數據屬性,并支持不同實體之間相互引用,以組織復雜的多組學數據。
平臺中的實體表格完全由用戶自定義,支持添加、編輯以及下載實體表格,并且可以選擇實體表格數據啟動批量分析任務。
添加實體表格
步驟一:用戶可以通過上傳csv文件,在工作空間中添加新的實體表格。平臺提供“新建空白模板”功能,編輯名稱和屬性列后,可以下載csv模板。
實體名稱:工作空間下唯一,由數字、字母、下劃線、連接符組成,長度不超過64個字符,且不能以數字或者連接符開頭。
首列名:ID列,無需輸入,必須符合“<實體名稱>_id”規則。
新增列:支持新增任意多列來描述實體屬性。
列名稱:合法變量名稱,實體內列名稱不能重復。
列類型:默認為字符值,即單元格內容為文本。同時支持下拉選擇其他“實體引用”,即單元格內容為引用實體的首列ID
步驟二:點擊確定后,瀏覽器會自動下載該實體的csv模板到本地,用戶可以通過Excel軟件或者其他文本編輯器,批量編輯內容后保存。
用戶也可以按照規則,直接在本地準備實體表格的csv文件,編輯保存數據后上傳。csv文件首行為表格的定義,其中首列必須為<entity>_id。如上圖中的sample_id, sample為待添加的實體名稱。
步驟三:然后通過“上傳表格文件”, 將包含數據的csv文件上傳平臺。
點擊確定,上傳成功后,即可在工作空間內查看實體數據表格。
默認情況下,單次上傳的實體文件大小不能超過2Mb,如需上傳更大實體文件,請拆分成多個文件上傳或聯系產品團隊或提工單申請。
更新實體表格
對基因分析平臺中已經添加成功的實體,用戶有兩種方式可以進行數據的更新。
編輯實體表格對應的csv文件,保存后再次上傳,即可更新數據。
可新增任意列和任意行數據,上傳成功后,將增量更新表格內容。
如果列名和首列ID一致,則csv中的內容,將會覆蓋更新表格內容。
用戶可以在基因分析平臺中,按行選中需要編輯的表格內容,下載csv文件到本地后進行編輯。
直接在網頁中進行編輯
鼠標移動到單元格的內容上,會出現編輯圖標,點擊后即可編輯表格內容。
刪除實體表格
用戶可以按行選中實體表格內容,對“已選中的數據”進行刪除操作。實體表格中所有行被刪除后,實體表格自動被刪除。
啟動批量分析
如用戶已使用該實體創建應用模板,則可以按行選中實體表格內容,對“已選中的數據”進行“啟動分析”。平臺展示與當前實體類型相匹配的分析模板,幫助用戶快速批量提交運行任務。詳細說明請參考最佳實踐。