OpenSearch-LLM智能問答版支持導入結構化數據、非結構化數據、網頁、表格等多種形式的數據,本文將介紹如何在控制臺進行數據配置。
數據結構介紹
主表數據結構暫時為固定模板,有score、id、title、category、url、content、timestamp 7個字段。
字段 | 類型 | 描述 |
score | FLOAT | 文檔的分數 |
id | LITERAL | 文檔ID,唯一不重復 |
title | TEXT | 文檔標題 |
category | LITERAL_ARRAY | 文檔類目 |
url | LITERAL | 文檔url鏈接 |
content | TEXT | 文檔內容 |
timestamp | INT | 時間戳,代表文檔時間新鮮度 |
準備工作
選擇目標地域,切換到OpenSearch-LLM智能問答版。
在實例列表單擊目標實例右側的管理,在左側導航欄選擇配置中心->數據配置,可以根據業務情況選擇數據導入方式。
上傳文件導入
單擊文件導入進入文件導入頁面。
上傳非結構化數據,支持格式為doc、docx、pdf、html、txt、ppt、pptx格式的文件,單個文件大小不能超過128MB,支持一次性上傳多個文件。
說明如果word格式文件內的圖片比較多,建議轉為pdf格式再上傳,速度會比較快。
上傳結構化數據,支持格式為 JSON、EXCEL,編碼為 UTF-8 的文件,單個文件大小不能超過128MB,支持一次性上傳多個文件。數據格式請下載樣例數據進行參考。
說明表名配置規則是英文字母、數據或者下劃線,表名不要超過20個字符。
字段名稱,命名規則是英文字母或下劃線,不能以下劃線開頭,每個字段名不要超過30個字符。
每個excel最多支持30個字段的數據寫入和查詢,超出的部分會被忽略。
網頁鏈接導入
單擊網頁鏈接導入按鈕,選擇網頁導入并輸入網址鏈接,每個網址占一行,然后點擊導入按鈕,即可完成網頁導入。
網站導入
單擊網頁鏈接導入按鈕,選擇網站導入,單擊新建任務,輸入網站鏈接以及category類目名稱,可根據需求設置URL過濾、Xpath選擇器及CSS選擇器。
說明網站鏈接:需要傳入的網站鏈接。
category:查傳入鏈接的類目名稱。
URL過濾:默認的URL過濾規則是以URL開頭的網站地址。比如,網站URL為http://www.abc.com/,則默認正則表達式為:http://www\.abc\.com/.*。
Xpath選擇器:比如要精確獲取div標簽下的內容,該項設為://div。
CSS選擇器:比如要精確獲取div標簽下class為content的內容,<div class="content">網頁內容</div>,該項設為:div.content。
暫不支持以.png/.jpg/.jpeg結尾的URL。
運行完成后可查看網頁爬取條數,單擊確定按鈕即可完成網站導入。
表格導入
具體請參見:表格問答。
數據查詢
文檔上傳成功后可以查看文檔總數,也可以通過問答測試頁面進行問答效果測試。支持通過主鍵查看已經推送成功的數據,并支持通過主鍵刪除對應的數據。
查看數據
在id后的輸入框中輸入已經推送成功數據的主鍵ID,單擊搜索即可查看推送的數據詳情。
刪除數據
在id后的輸入框中輸入想要刪除數據的主鍵ID,單擊刪除->確定即可刪除該文檔。
編輯數據
LLM智能問答版支持在控制臺直接編輯數據,可在id后的輸入框里面填入需修改的數據主鍵ID,單擊編輯按鈕, 可以對可編輯字段進行修改。
注意事項
主鍵id是唯一鍵,如有重復后者數據會覆蓋前者。
結構化數據單次上傳最大為2M。
非結構化數據單個文件大小最大不能超過128M。
數據上傳成功后可正常查詢時間取決于當時整體的數據更新量 。