向量分析
AnalyticDB PostgreSQL版向量分析可以通過AI算法提取非結構化數據的特征,并利用特征向量作為非結構化數據的唯一標識,幫您快速且低成本地實現對非結構化數據檢索和對結構化數據關聯分析。
向量數據庫簡介
在現實世界中,絕大多數的數據都是以非結構化數據的形式存在的,如圖片,音頻,視頻,文本等。這些非結構化數據隨著智慧城市、短視頻、商品個性化推薦、視覺商品搜索等應用的出現而爆發式增長。為了能夠處理這些非結構化數據,通常會使用人工智能技術提取這些非結構化數據的特征,并將其轉化為特征向量,再對這些特征向量進行分析和檢索以實現對非結構化數據的處理。因此,將能存儲、分析和檢索特征向量的數據庫稱之為向量數據庫。
向量數據庫使用向量索引技術來實現對特征向量的快速檢索。向量索引通常屬于近似最近鄰搜索(Approximate Nearest Neighbors Search,ANNS)范疇。其核心思想是不僅僅返回最精確的結果項,而是只搜索可能是近鄰的數據項,以提高檢索效率。通過在可接受范圍內犧牲一定的精確度,實現了向量數據庫與傳統數據庫的顯著區別。
為了將ANNS向量索引更加方便地應用到實際的生產環境中,目前業界主要有兩種實踐方式。
一種是單獨將ANNS向量索引服務化,以提供向量索引創建和檢索的能力,從而形成一種專有的向量數據庫。
另一種是將ANNS向量索引融合到傳統結構化數據庫中,形成一種具有向量檢索功能的DBMS。
云原生數據倉庫AnalyticDB PostgreSQL版的向量數據庫是集成自研向量檢索引擎FastANN的DBMS,在包含向量檢索功能的同時,還具備一站式的數據庫能力,如易用性(直接使用SQL的方式處理向量)、事務、高可用性、高可擴展性等等。
功能說明
向量數據庫實現向量分析的原理是通過AI算法提取非結構化數據的特征,然后利用特征向量作為非結構化數據的唯一標識,向量間的距離用于衡量非結構化數據之間的相似度。AnalyticDB PostgreSQL版向量檢索分析基于MPP查詢架構構建,幫助您實現基于SQL接口進行非結構化數據檢索,并支持同結構化數據的關聯分析。
典型應用場景
通過AnalyticDB PostgreSQL版向量分析,您可以非常容易地搭建各種智能化應用。
以圖搜圖服務,即通過圖片檢索圖片的應用服務。
視頻檢索服務,即通過視頻中的某些幀圖片進行視頻圖片檢索,來實現視頻檢索。
聲紋檢索服務,即通過音頻匹配音頻的應用服務。
推薦系統服務,即通過用戶特征匹配實現推薦匹配的功能。
基于語義的文本檢索和推薦,通過文本檢索近似文本。
問答機器人,通過與大模型結合搭建高效的問答機器人服務。
文件去重,通過文件指紋特征來去除重復文件。
優勢
云原生數據倉庫AnalyticDB PostgreSQL版向量數據庫通過自研向量引擎FastANN提供的向量分析能力目前已經在諸多業務中得到了廣泛應用,包括阿里巴巴數據中臺,阿里巴巴電商新零售業務,阿里云城市大腦,通義千問大模型搭建的問答服務等。
與其他向量數據庫對比,主要有以下優點:
結構化與非結構化數據的混合分析。
云原生數據倉庫AnalyticDB PostgreSQL版向量數據庫通過結合本身傳統數據庫的能力可以實現非結構化數據和結構化、半結構化數據的混合分析,并且能充分利用結構化和半結構化的索引能力。
向量檢索與全文檢索的雙路召回。
云原生數據倉庫AnalyticDB PostgreSQL版向量數據庫本身既支持向量索引也支持全文索引,因此它可以通過向量檢索與全文檢索實現雙路召回,極大地提高向量數據的召回準確性。
數據實時更新和實時查詢。
云原生數據倉庫AnalyticDB PostgreSQL版向量數據庫實現了向量數據的流式導入與實時構建。
易用性。
云原生數據倉庫AnalyticDB PostgreSQL版向量數據庫申請即可使用,并且支持標準SQL語法,使用非常簡單,可以極大簡化開發流程。
低成本。
云原生數據倉庫AnalyticDB PostgreSQL版向量數據庫支持將FP32壓縮成FP16,降低一半存儲成本。另一方面,云原生數據倉庫AnalyticDB PostgreSQL版向量數據庫的向量索引構建在段頁式存儲上,可以充分利用PostgreSQL的shared_buffer進行緩存換入換出的機制,因此云原生數據倉庫AnalyticDB PostgreSQL版的向量索引可以支持超過內存大小的向量存儲。