LVM-圖像文本描述生成(DLC)
圖像文本描述生成算法是一種結(jié)合計(jì)算機(jī)視覺(jué)和自然語(yǔ)言處理的模型,旨在為輸入圖像生成自然語(yǔ)言描述。它在輔助視障人士、社交媒體內(nèi)容創(chuàng)作、圖像搜索、電商展示和新聞發(fā)布等領(lǐng)域有著廣泛應(yīng)用,顯著提升了信息的可訪問(wèn)性和用戶體驗(yàn)。
支持的計(jì)算資源
算法說(shuō)明
由BLIP模型生成圖像文本。
輸入/輸出
輸入樁
通過(guò)讀OSS數(shù)據(jù)組件,讀取訓(xùn)練數(shù)據(jù)所在的OSS路徑。
配置此算法參數(shù)圖像數(shù)據(jù)OSS路徑,選擇圖像數(shù)據(jù)所在的OSS目錄,或圖像元數(shù)據(jù)文件。詳情請(qǐng)參見(jiàn)下文中的參數(shù)說(shuō)明。
使用任意圖像預(yù)處理組件作為輸入。
輸出樁
輸出結(jié)果。詳情請(qǐng)參見(jiàn)下文中的參數(shù)說(shuō)明。
配置組件
在Designer工作流頁(yè)面添加LVM-圖像文本描述生成(DLC)組件,并在界面右側(cè)配置相關(guān)參數(shù):
參數(shù)類型 | 參數(shù) | 是否必選 | 描述 | 默認(rèn)值 | |
字段設(shè)置 | 圖像數(shù)據(jù)OSS路徑 | 否 | 首次運(yùn)行時(shí),若無(wú)上游組件,需手動(dòng)選擇圖像數(shù)據(jù)所在的OSS目錄。運(yùn)行時(shí)會(huì)在該目錄的上一級(jí)目錄下生成圖像元數(shù)據(jù)文件meta.jsonl。后續(xù)處理此圖像數(shù)據(jù)時(shí),也可以直接選擇之前生成的meta.jsonl文件。 | 無(wú) | |
輸出文件的OSS路徑 | 是 | 生成結(jié)果的存儲(chǔ)目錄。包含以下文件:
| 無(wú) | ||
輸出的文件名 | 是 | 生成結(jié)果的文件名。 | result.jsonl | ||
參數(shù)設(shè)置 | 生成候選文本數(shù)目 | 是 | 生成的候選文本數(shù)。 | 1 | |
執(zhí)行調(diào)優(yōu) | 選擇資源組 | 公共資源組 | 否 | 選擇節(jié)點(diǎn)規(guī)格(CPU或GPU實(shí)例規(guī)格)、專有網(wǎng)絡(luò)。該算法需使用GPU規(guī)格實(shí)例。 | 無(wú) |
專有資源組 | 否 | 選擇CPU核數(shù)、內(nèi)存、共享內(nèi)存、GPU卡數(shù)。 | 無(wú) | ||
最大運(yùn)行時(shí)長(zhǎng) | 否 | 組件最大運(yùn)行時(shí)長(zhǎng),超過(guò)這個(gè)時(shí)間,作業(yè)會(huì)被終止。 | 無(wú) |