LVM-圖像文本匹配度過濾(DLC)
LVM-圖像文本匹配度過濾(DLC)組件主要用于過濾文本-圖像匹配度過低的圖像數(shù)據(jù)。
支持的計算資源
算法說明
通過計算圖像的描述和訓練數(shù)據(jù)中的描述文本(訓練數(shù)據(jù)示例文件中<__dj__video>
字段后面的內(nèi)容)的匹配度(基于blip-itm-base-coco計算),從而過濾匹配度過低的圖像來保證圖像的質(zhì)量,常用于后續(xù)圖像生成模型的訓練。訓練數(shù)據(jù)文件格式說明:
輸入數(shù)據(jù)格式為jsonl格式文件;其中文本字段中的"<__dj__image>"和"<|__dj__eoc|>"分別對應圖像描述文本的起始和終止標志。
images字段,為圖像的OSS路徑。
text字段,即上述算法說明中的描述文本。
輸入/輸出
輸入樁
通過讀OSS數(shù)據(jù)組件,讀取訓練數(shù)據(jù)文件所在的OSS路徑。
配置此算法參數(shù)圖像數(shù)據(jù)OSS路徑,選擇訓練數(shù)據(jù)文件。
關(guān)于訓練數(shù)據(jù)文件,詳情請參見算法說明。
輸出樁
過濾結(jié)果。詳情請參見下文中的參數(shù)說明。
配置組件
在Designer工作流頁面添加LVM-圖像文本匹配度過濾(DLC)組件,并在界面右側(cè)配置相關(guān)參數(shù):
參數(shù)類型 | 參數(shù) | 是否必選 | 描述 | 默認值 | |
字段設(shè)置 | 圖像數(shù)據(jù)OSS路徑 | 否 | 訓練數(shù)據(jù)文件,詳情請參見算法說明。 | 無 | |
輸出文件的OSS路徑 | 是 | 過濾結(jié)果的存儲目錄。過濾結(jié)果包含以下文件:
| 無 | ||
輸出的文件名 | 是 | 過濾結(jié)果的文件名。 | result.jsonl | ||
參數(shù)設(shè)置 | 最小文本-圖像匹配度 | 是 | 需要保留的最小文本-圖像匹配度。 | 0.1 | |
最大文本-圖像匹配度 | 是 | 需要保留的最大文本-圖像匹配度,一般設(shè)置為1。 | 1 | ||
執(zhí)行調(diào)優(yōu) | 選擇資源組 | 公共資源組 | 否 | 選擇節(jié)點規(guī)格(CPU或GPU實例規(guī)格)、專有網(wǎng)絡(luò)。該算法需使用GPU規(guī)格實例。 | 無 |
專有資源組 | 否 | 選擇CPU核數(shù)、內(nèi)存、共享內(nèi)存、GPU卡數(shù)。 | 無 | ||
最大運行時長 | 否 | 組件最大運行時長,超過這個時間,作業(yè)會被終止。 | 無 |