智能媒資檢索
相對于通過標(biāo)題或元數(shù)據(jù)匹配和過濾的傳統(tǒng)媒資搜索,智能媒資檢索能夠利用AI算法對音視頻內(nèi)容進(jìn)行智能分析,從而可以從視覺語義、人臉相似度等維度進(jìn)行更有力的檢索。
功能說明
智能媒資檢索,簡稱智能檢索,又稱為多模檢索。通過AI算法對媒資內(nèi)容的分析,無需人工對音視頻內(nèi)容打標(biāo),即可直接搜索音視頻中出現(xiàn)的內(nèi)容。
阿里云智能媒體服務(wù)智能媒資檢索功能使用或問題咨詢等,請搜索釘釘群(30415005038)加入智能媒體服務(wù)多模檢索客戶答疑群聯(lián)系我們。
阿里云智能媒體服務(wù)的智能檢索能力如下:
視頻跨模態(tài)搜索,支持從視覺、音頻、文本多個模態(tài)搜索
支持的媒資形式:視頻、音頻、圖片
支持的搜索形式:關(guān)鍵詞搜索、自然語言搜索、圖片搜索
可支持高達(dá)數(shù)十萬小時視頻,搜索結(jié)果秒級響應(yīng)
模態(tài) | 特征 | 能力說明 |
圖像 | 人臉 | 支持超過50萬名人、政治人物、敏感人物的識別 支持用人臉圖片搜索人物 |
Logo | 支持識別500多個央視及各衛(wèi)視電視臺臺標(biāo); 支持識別200多個主流中英文車標(biāo); 支持識別常見交通標(biāo)識; 支持識別20多萬個品牌標(biāo)識; | |
字幕 | 支持識別中英文 支持動態(tài)字幕 | |
畫面語義 | 基于多模態(tài)表征大模型的視覺語義提取與搜索 | |
音頻 | 語音 | 支持從ASR的結(jié)果中搜索 |
文本 | 標(biāo)題、描述 | 支持從標(biāo)題和描述中搜索 |
智能檢索目前有3種搜索能力,對應(yīng)的使用場景、成本和費(fèi)用均有區(qū)別。
搜索能力 | Query形式 | 原理 | 使用場景 | 費(fèi)用 |
全量搜索 | 關(guān)鍵詞 | 使用AI算法自動對媒資內(nèi)容提取標(biāo)簽、關(guān)鍵詞等文本信息,然后用于搜索。可搜索的內(nèi)容包括媒資中出現(xiàn)的人名、字幕等等。 | 視頻網(wǎng)站內(nèi)容檢索 視頻素材檢索 | 按存儲的媒資個數(shù)和搜索次數(shù)計費(fèi) |
大模型搜索 | 自然語言 | 使用AIGC大模型自動對媒資內(nèi)容進(jìn)行向量化語義分析,找到最接近Query語句語義的內(nèi)容。 | 視頻網(wǎng)站內(nèi)容檢索 個人網(wǎng)盤查找 視頻素材檢索 | 按存儲的媒資時長和搜索次數(shù)計費(fèi) |
相似人臉?biāo)阉?/b> | 人臉圖片 | 自動提取媒資中出現(xiàn)的所有人臉特征,比對和查找與給定人臉圖片相似的人臉,返回對應(yīng)的媒資,以及出現(xiàn)的片段。 | 個人網(wǎng)盤查找 人臉翻庫 人物搜尋 | 按存儲的人臉特征數(shù)量和搜索次數(shù)計費(fèi) |
概念介紹
要使用智能檢索,您需要了解以下概念:
概念 | 解釋 | 備注 |
媒資 | 具體的媒體記錄 | 當(dāng)前只支持兩種類型:音視頻、圖片。 |
媒資庫 | 存儲媒資的數(shù)據(jù)庫 | 當(dāng)前IMS每個客戶默認(rèn)有且只有1個媒資庫,通過控制臺上傳的視頻都在此媒資庫中。 |
搜索庫 | 專用于搜索的媒資庫 |
|
搜索索引 | 搜索庫的搜索能力 | 用于管理和組織搜索庫中的媒資數(shù)據(jù)。開啟相關(guān)索引,才具備相關(guān)的查詢能力:
|
用戶使用邏輯如下圖所示:
基于控制臺的使用流程
準(zhǔn)備工作:開啟媒資智能分析
登錄智能媒體服務(wù)控制臺,從左側(cè)導(dǎo)航欄進(jìn)入智能檢索頁面。
點(diǎn)擊右上角的智能檢索配置按鈕,打開配置頁面:
如果您想使用全量檢索,請開啟媒資自動分析
如果您想使用大模型檢索,請開啟大模型自動分析
上傳媒資
登錄智能媒體服務(wù)控制臺,從左側(cè)導(dǎo)航欄進(jìn)入媒資庫-音/視頻頁面。
點(diǎn)擊上傳音/視頻按鈕,上傳媒資。具體的上傳操作說明,詳見控制臺上傳。
上傳完成后,媒資會進(jìn)行自動分析。分析完成后即可進(jìn)行搜索。如果想確認(rèn)自動分析是否完成,可點(diǎn)擊媒資列表中的管理標(biāo)簽,進(jìn)入詳情頁面,查看媒資的內(nèi)容搜索入庫狀態(tài)。
搜索媒資
登錄智能媒體服務(wù)控制臺,從左側(cè)導(dǎo)航欄進(jìn)入智能檢索頁面。
切換下拉框,選擇全量檢索或是大模型檢索:
如果是全量檢索,建議query內(nèi)容為詞語或詞組,如人名、地名、關(guān)鍵詞等
如果是大模型檢索,建議query內(nèi)容為自然語言,例如“海邊日出”、“大街上車來車往”
點(diǎn)擊結(jié)構(gòu)表頭中的媒體類型篩選圖標(biāo),可選擇檢索音視頻媒資還是圖片媒資。
基于自建搜索庫的使用流程
在控制臺上使用,只能搜索智能媒體服務(wù)的默認(rèn)媒資庫。如果您的媒資庫不在智能媒體服務(wù)中,又想使用智能檢索,可以通過OpenAPI自建搜索庫解決。
整體的使用流程:創(chuàng)建搜索庫 - 創(chuàng)建搜索索引 - 插入媒資到搜索庫 - 搜索
創(chuàng)建索引后僅針對后續(xù)插入搜索庫的媒資生效,當(dāng)前尚不支持對存量媒資生效。
插入的媒資是否建立索引成功,可通過QueryMediaIndexJob - 查詢媒資索引任務(wù)接口查詢。
只有建立索引成功的媒資才能被檢索到。
下面是具體的使用方式。
全量搜索
創(chuàng)建一個指定名字的搜索庫,接口說明詳見CreateSearchLib - 創(chuàng)建搜索庫。
在這個搜索庫中創(chuàng)建索引,接口詳見CreateSearchIndex - 創(chuàng)建搜索索引。對于全量搜索,接口中的IndexType字段需填寫
aiLabel
。使用InsertMediaToSearchLib - 插入媒資到搜索庫接口將媒資信息添加到搜索庫中。
使用SearchMediaByAILabel - 智能標(biāo)簽文本搜索接口搜索媒資,分為兩個階段:
第一次調(diào)用,選擇粗搜模式,結(jié)果返回匹配的媒資列表。
第二次調(diào)用,選擇精搜模式,結(jié)果返回具體某個媒資中,匹配的片段列表。
大模型搜索
創(chuàng)建一個指定名字的搜索庫,接口說明詳見CreateSearchLib - 創(chuàng)建搜索庫。
在這個搜索庫中創(chuàng)建索引,接口詳見CreateSearchIndex - 創(chuàng)建搜索索引。對于大模型搜索,接口中的IndexType字段需填寫
mm
。使用InsertMediaToSearchLib - 插入媒資到搜索庫接口將媒資信息添加到搜索庫中。
使用SearchMediaByMultimodal - 大模型搜索接口搜索媒資,結(jié)果返回匹配的媒資列表,以及每個媒資中匹配的片段。
相似人臉?biāo)阉?/b>
創(chuàng)建一個指定名字的搜索庫,接口說明詳見CreateSearchLib - 創(chuàng)建搜索庫。
在這個搜索庫中創(chuàng)建索引,接口詳見CreateSearchIndex - 創(chuàng)建搜索索引。對于相似人臉?biāo)阉鳎涌谥械?b>IndexType字段需填寫
face
。使用InsertMediaToSearchLib - 插入媒資到搜索庫接口將媒資信息添加到搜索庫中。
使用SearchMediaByFace - 人臉圖片搜媒資接口搜索媒資,結(jié)果返回匹配的媒資列表。
使用SearchMediaClipByFace - 人臉圖片搜媒資片段接口進(jìn)一步搜索某一個匹配媒資中,對應(yīng)人臉出現(xiàn)的片段。結(jié)果會返回片段列表,以及人臉相關(guān)信息。