通過OSS向量檢索,您可以基于語義內容、OSS元數據、多媒體元數據、對象ETag及標簽和自定義元數據等條件,快速定位海量Object中的目標文件,優化檢索效率。
使用場景
個人及企業辦公場景
向量檢索可以通過特定語義內容直接對辦公文件進行搜索,例如直接搜索“ERP 系統使用方式”、“IT 維修流程”、“2024 年經營情況分析”等關鍵詞,以實現文件搜索方式的便捷化,從而提升辦公效率。
多媒體社交場景
在多媒體社交場景中,您可以利用檢索能力,為您的用戶提供特定內容和多媒體數據檢索功能。例如,在某款社交應用程序中,用戶上傳了大量圖片數據。通過語義檢索,用戶可以直接根據內容進行圖片搜索,比如直接搜索內容為“郊外春游”、“春節團聚”、“我見過的大海”等照片,從而為應用程序增加實用性和趣味性。
網盤場景
在網盤場景中,目前大多數提供基于標量檢索的文件搜索功能,例如按文件名稱、創建時間或文件后綴進行搜索。網盤通常應用于個人或企業場景,用戶可以利用向量檢索功能,對網盤中的特定內容進行搜索,比如相關文檔或相冊中的相關圖片。
視頻監控場景
針對視頻監控存儲的數據,企業可以利用向量檢索能力對監控數據中的部分文件進行搜索。比如輸入“雪天戶外監控”、“晴天中的果園”等關鍵詞,即可對相應文件進行檢索。
注意事項
地域限制
華南3(廣州)地域的Bucket支持使用向量檢索功能。
Bucket限制
向量檢索支持文件數量最多100億的Bucket。對于文件數量不超過1億的Bucket,您可以直接啟用此功能;而當文件數量超過1億時,請聯系技術支持申請開通。
費用說明
向量檢索目前是公測階段。使用向量檢索功能會產生Object的元數據管理費用以及檢索次數費用,但公測期間暫不收費。關于向量檢索計費項的更多信息,請參見數據索引費用。
除向量檢索計費項外,使用向量檢索還會產生API請求費用,按照API調用次數收費。涉及的API請求如下:
行為
API
次數
為Bucket中的文件構建索引
HeadObject和GetObject
每個文件調用1次
Bucket中文件存在Tag
GetObjectTag
每個攜帶Tag的文件調用1次
Bucket中文件攜帶自定義Meta
GetObjectMeta
每個攜帶自定義Meta的文件調用1次
Bucket中存在軟鏈接文件
GetSymlink
每個攜帶軟鏈接的文件調用1次
掃描Bucket中的文件
ListObjects
每掃描1000個文件調用1次
關于OSS API的請求費用,請參見請求費用。
建立索引所需時間
開啟向量檢索功能時,建立索引所需時間與Bucket內存量的文件數量成正比。文件數量越多,建立索引的時間越長。 一般來說,1000萬個文件初次建立索引的時間約為1小時,10億個文件初次建立索引的時間約為1天,100億個文件初次建立索引的時間約為2~3天,該時間僅供參考。
分片上傳
對于通過分片上傳生成的Object,查詢結果中只顯示已通過CompleteMultipartUpload操作將碎片(Part)合成的完整Object,不顯示已初始化但未完成(Complete)或者未中止(Abort)的碎片。
操作步驟
使用OSS控制臺
以查詢內容為“發光的建筑”、格式為JPG、圖片寬高在800*1200內的文件為例進行演示,期望檢索結果為下圖“江邊的夜景.jpg”。
登錄OSS管理控制臺。
單擊Bucket 列表,然后單擊目標Bucket名稱。
在左側導航欄, 選擇 。
在數據索引頁面,單擊立即開啟。
選擇向量檢索,單擊確認開啟。
說明構建元數據索引需要等待一定的時間,具體等待時長取決于Bucket中Object的數量。若開啟時間過久可通過刷新來查看開啟狀態。
設置檢索條件,其他參數保留默認設置。
在語義內容區域填寫對該圖片的描述,例如:發光的建筑。
多媒體類型選擇圖片。
圖片格式選擇 JPG/JPEG。
圖片寬度設置小于800px。
圖片高度設置小于1200px。
單擊立即查詢。查詢結果符合預期,按照特征描述成功查詢到該文件。
如需了解完整的檢索條件和輸出設置,請參見檢索條件和輸出設置。
使用REST API
如果您的程序自定義要求較高,您可以直接發起REST API請求。直接發起REST API請求需要手動編寫代碼計算簽名。更多信息,請參見DoMetaQuery。
檢索條件和輸出設置
檢索條件設置
以下是完整的檢索條件,您可以根據需要設置單個或多個檢索條件。
檢索條件 | 說明 |
存儲類型 | 您可以按需選擇希望在查詢結果中顯示的Object存儲類型。
|
讀寫權限 | 默認選中OSS支持的四種讀寫權限ACL,即繼承Bucket、私有、公共讀以及公共讀寫。您可以按需選擇希望在查詢結果中顯示的Object讀寫權限。 |
文件名 | 支持模糊匹配和等于。如果您希望在查詢結果中顯示某個文件名,例如exampleobject.txt。您可以通過以下兩種方式匹配目標文件:
|
上傳類型 | 默認選中OSS支持的四種Object類型,您可以按需選擇希望在查詢結果中顯示的Object類型。Object類型說明如下:
|
最后修改時間 | 指定Object被最后修改的起始日期和結束日期,時間精確到秒。 |
文件大小 | 支持等于、大于、大于等于、小于和小于等于五種篩選條件,文件大小單位為KB。 |
對象版本 | 僅支持查詢當前版本Object。 |
如需根據對象Etag及標簽進行過濾查找,可輸入您希望在查詢結果中顯示的Object對應的ETag或標簽信息。
ETag僅支持精確匹配。ETag必須帶引號,示例值為"5B3C1A2E0563E1B002CC607C6689"。可輸入多個ETag,每行一個。
以鍵值對(Key-Value)的形式指定對象標簽。對象標簽的Key和Value均區分大小寫。關于標簽規則的更多信息,請參見對象標簽。
您可以通過圖片、文檔、音頻、視頻的特定屬性來過濾得到您期望的結果。
檢索條件 | 說明 |
圖片 |
|
文檔 |
|
視頻 |
|
音頻 |
|
您可以通過輸入內容語義,快速檢索獲取其相關的圖片、文檔、視頻或音頻資源。
自定義搜索相關內容的文件,長度限制:40字符。如搜索“雪中故宮照片”、“無線打印機的使用方式”等。
語義內容檢索使用限制。
不支持設置對象排列和數據聚合輸出方式。
必須勾選一組并且只能勾選一組多媒體元數據檢索條件。
不支持查找使用KMS自帶密鑰BYOK加密的Object。
您可以通過輸入元數據的鍵值對,利用自定義元數據精確檢索結果。
以鍵值對(Key-Value)的形式指定對象元數據。關于自定義元數據的更多信息,請參見管理文件元數據。
支持添加多選(Key,Value 都必填),最多自定義20個。
結果輸出設置
您可對輸出結果進行排序和簡單統計。
對象排序方式:支持根據最后修改時間、文件名和文件大小進行升序、降序及默認排序。您可以按需選擇并排序檢索結果,便于快速找到所需文件。
數據聚合:支持多種輸出類型,您可以對檢索結果進行去重統計、分組計數、最大值、最小值、平均值和求和等計算,便于高效分析和管理數據。
常見問題
為什么文件上傳后,無法立即檢索到?
文件上傳后,對應文件的索引生成需要一定時間,所以查詢結果會有一定程度的延遲,可能無法立即得到查詢結果,等待片刻后重試即可。