為了使檢測結果更貼合您的實際業務,內容安全支持自定義文本庫。自定義文本庫適用于圖片審核(圖文違規識別)、文本反垃圾、文件反垃圾、語音反垃圾場景。您可以使用自定義文本庫來管理需要針對性地攔截、放行(忽略)、人工審核的文本,應對突發的管控需求。
背景信息
建議您在使用自定義文本庫前,仔細閱讀本文檔,了解文本庫使用方式。避免因關鍵詞添加不當導致誤抓,影響檢測效果。
自定義文本庫包括系統回流文本庫和用戶創建文本庫。
系統回流文本庫由您的自助審核記錄自動生成,默認應用于所有同類場景的檢測。您可以管理系統回流文本庫中的文本,但是不可以對系統回流文本庫進行停用或刪除操作。關于自助審核,請參見自助審核。
用戶創建文本庫由您自行添加,可用于某次檢測或某類檢測場景。您可以管理用戶創建文本庫中的文本,也可以操作用戶創建文本庫。
您可以創建10個自定義文本庫(不含系統回流文本庫)。
下文介紹了在內容安全控制臺管理內容檢測API自定義文本庫的操作方法。除了控制臺操作,您還可以通過API接口或SDK完成相關操作,具體請參見以下文檔:
文本類型
自定義文本庫的文本類型包括關鍵詞和相似文本。
關鍵詞
關鍵詞是針對短小詞語進行防控的一種方式。您可以將其理解為:一句話或者一段文本里面是否包含某個既定詞語,當包含該詞語時,則表明命中該關鍵詞。不同的業務場景支持配置不同的關鍵詞。
在內容安全的識別中,關鍵詞技術可以被應用到圖文違規、文本反垃圾、語音反垃圾場景中,具體配置見對應場景中的使用描述(配置參數可能略有出入)。
中文關鍵詞支持“與(&)”、“非(~)”的邏輯判斷屬性。示例:
定義“A&B”,則只有在句子中同時出現“A”和“B”時,才會命中。
定義“A~B”,則只有在句子中只出現“A”且不出現“B”時才會命中,同時出現“A”和“B”則不會命中。
說明與(&)必須在非(~)之前。例如,您可以設置“A&B~C”作為關鍵詞,但不能設置“A~C&B”作為關鍵詞。
相似文本
相似文本是針對句子或者段落式文本進行相似性判斷的一種方式。您可以將其理解為:兩句話或者兩段文本,從句意上具有非常強的相似性,但又不是百分百一樣,局部可能有變化,整體上卻具有相同的意思或者在描述同一件事情。通過既定或者參照的文本樣本,可以判斷要識別的文本是否與樣本具有強相似性。當相似性的概率在一定程度上時,則表明命中樣本。
相似文本文本庫適用于文本反垃圾的檢測場景。通過定義自己業務的相似文本庫黑名單、白名單、疑似名單(疑似名單是指業務上需要識別出來,且需要人工審核),并在相似文本庫里面維護與您業務相關的文本樣本,從而指導文本反垃圾識別去過濾命中相似文本樣本的內容。
使用限制
類型 | 項目 | 限制 |
文本庫 | 庫個數 | 不超過10個(不含系統回流文本庫)。 |
文本庫 | 庫名長度 | 不超過20個字符。 |
關鍵詞 | 關鍵詞類型 |
|
關鍵詞 | 單個文本庫中關鍵詞個數 | 不超過10000個。 |
關鍵詞 | 關鍵詞最大長度 | 50個字符(包括符號)。 |
關鍵詞 | 中文關鍵詞編碼類型 | UTF-8。 |
關鍵詞 | 關鍵詞格式 | 不允許包含以下特殊字符(包括全角): @ # $ % ^ * ( ) < > / ?, . ; _ + - = ‘ “ 空格 tab鍵 |
相似文本 | 相似文本長度 | 20~4000個字符。 說明 如果添加的文本過長,容易引起文本誤抓。建議文本長度不要超過200個字符。 |
相似文本 | 單個文本庫中相似文本個數 | 不超過10000個。 |
相似文本 | 文本編碼格式 | UTF-8。 |
相似文本 | 相似文本內容 | 文本樣本需要包含明確的可提取的中文語義特征。如果經過引擎分析特征數太少,該文本樣本將不會生效,引擎將其直接忽略。 說明 如果一段樣本都是無意義的字母數字,或各種表情符等,則可能被忽略。 |
操作步驟
登錄內容安全控制臺。
在左側導航欄,選擇 。
在自定義文本庫頁簽單擊創建文本庫。
在創建自定義文本庫對話框,請參考創建自定義文本庫參數說明表完成文本庫配置,并單擊確定。
表 1. 創建自定義文本庫參數說明表
參數
說明
名稱
為文本庫命名。文本庫名稱允許重復,但建議您在業務中將其設置為唯一。
使用場景
選擇文本庫的使用場景。取值:
文本類型
選擇文本庫的文本類型。取值:
關鍵詞:使用關鍵詞匹配,只要包含關鍵詞就會命中,覆蓋面大。
相似文本:使用文本相似度匹配,只有整段文本相似才會命中,精確度高。
說明只在使用場景為文本反垃圾時支持。
匹配方式
文本類型為關鍵詞時,選擇文本庫的匹配方式。取值:
精確匹配:待檢測文本中包括與庫中的詞完全一樣的內容時才命中。
先轉換再匹配:待檢測文本以及關鍵詞都會經過預處理,預處理后進行匹配。預處理的邏輯如下:
大寫字母統一轉換為小寫字母。例如,輸入檢測文本“bitCoin”,會命中關鍵詞“bitcoin”。
繁體中文統一轉換為簡體。例如,輸入檢測文本“中國”,會命中關鍵詞“中國”。
相似字轉換。例如,輸入檢測文本“②”,會命中關鍵詞“2”。
說明相似文本類型的文本庫默認使用先轉換再匹配。
識別結果
選擇文本庫的用途。
文本類型為關鍵詞時,取值:
風險名單:若命中文本庫中樣本,則機審結果返回違規(suggestion=block)。
疑似名單:若命中文本庫中樣本,則機審結果返回疑似(suggestion=review)。
忽略名單:不檢測文本庫中樣本,但是會檢測除了樣本庫以外的其他內容。
文本類型為相似文本時,取值:
風險名單:若命中文本庫中樣本,則機審結果返回違規(suggestion=block)。
疑似名單:若命中文本庫中樣本,則機審結果返回疑似(suggestion=review)。
可信名單:若命中文本庫中樣本,則機審結果返回正常(suggestion=pass)。
BizType
BizType允許您根據不同的業務需求配置并應用不同的文本庫,例如使用BizType指定在某次檢測中應用文本庫。BizType生效邏輯如下:
文本庫設置BizType為“A”,且API檢測請求中傳遞了BizType為“A”,則檢測文本只會使用BizType為“A”的文本庫(前提是文本庫已開啟)。
其他情況下,檢測文本均會使用所有已開啟的文本庫。
成功創建文本庫后,您可以在文本庫列表中查看新建的文本庫。
管理文本庫中的文本(關鍵詞、相似文本)。
自定義文本庫列表顯示所有自定義文本庫,其中系統回流文本庫的名稱前有系統標識,且按照“使用場景_FEEDBACK_WHITE/BLACK”命名。例如,ANTISPAM_FEEDBACK_BLACK是由系統回流生成的用于文本反垃圾場景的黑名單文本庫。
定位到要操作的關鍵詞文本庫,單擊其操作列下的管理。
在文本庫管理頁面,維護文本庫內的關鍵詞。
文本庫管理頁面展示了所有已添加的關鍵詞信息和最近7天命中次數(不包括當天的命中數據)。
說明在文本庫新增、刪除關鍵詞,大約需要15分鐘生效。
單擊新增關鍵詞或導入,按照頁面提示在文本庫中增加關鍵詞。
選中不需要的關鍵詞,單擊批量刪除,刪除關鍵詞。您也可以單擊不需要的關鍵詞下的刪除,單獨將其刪除。
相關操作
對于自定義文本庫(非系統回流文本庫),您可通過自定義文本庫頁面中操作列的刪除、修改和停用對目標文本庫進行操作。