日本熟妇hd丰满老熟妇,中文字幕一区二区三区在线不卡 ,亚洲成片在线观看,免费女同在线一区二区

自定義文本庫

為了使檢測結果更貼合您的實際業務,內容安全支持自定義文本庫。自定義文本庫適用于圖片審核(圖文違規識別)、文本反垃圾、文件反垃圾、語音反垃圾場景。您可以使用自定義文本庫來管理需要針對性地攔截、放行(忽略)、人工審核的文本,應對突發的管控需求。

背景信息

重要

建議您在使用自定義文本庫前,仔細閱讀本文檔,了解文本庫使用方式。避免因關鍵詞添加不當導致誤抓,影響檢測效果。

自定義文本庫包括系統回流文本庫和用戶創建文本庫。

  • 系統回流文本庫由您的自助審核記錄自動生成,默認應用于所有同類場景的檢測。您可以管理系統回流文本庫中的文本,但是不可以對系統回流文本庫進行停用或刪除操作。關于自助審核,請參見自助審核

  • 用戶創建文本庫由您自行添加,可用于某次檢測或某類檢測場景。您可以管理用戶創建文本庫中的文本,也可以操作用戶創建文本庫。

說明

您可以創建10個自定義文本庫(不含系統回流文本庫)。

下文介紹了在內容安全控制臺管理內容檢測API自定義文本庫的操作方法。除了控制臺操作,您還可以通過API接口或SDK完成相關操作,具體請參見以下文檔:

文本類型

自定義文本庫的文本類型包括關鍵詞和相似文本。

  • 關鍵詞

    關鍵詞是針對短小詞語進行防控的一種方式。您可以將其理解為:一句話或者一段文本里面是否包含某個既定詞語,當包含該詞語時,則表明命中該關鍵詞。不同的業務場景支持配置不同的關鍵詞。

    在內容安全的識別中,關鍵詞技術可以被應用到圖文違規、文本反垃圾、語音反垃圾場景中,具體配置見對應場景中的使用描述(配置參數可能略有出入)。

    中文關鍵詞支持“與(&)”、“非(~)”的邏輯判斷屬性。示例:

    • 定義“A&B”,則只有在句子中同時出現“A”和“B”時,才會命中。

    • 定義“A~B”,則只有在句子中只出現“A”且不出現“B”時才會命中,同時出現“A”和“B”則不會命中。

    說明

    與(&)必須在非(~)之前。例如,您可以設置“A&B~C”作為關鍵詞,但不能設置“A~C&B”作為關鍵詞。

  • 相似文本

    相似文本是針對句子或者段落式文本進行相似性判斷的一種方式。您可以將其理解為:兩句話或者兩段文本,從句意上具有非常強的相似性,但又不是百分百一樣,局部可能有變化,整體上卻具有相同的意思或者在描述同一件事情。通過既定或者參照的文本樣本,可以判斷要識別的文本是否與樣本具有強相似性。當相似性的概率在一定程度上時,則表明命中樣本。

    相似文本文本庫適用于文本反垃圾的檢測場景。通過定義自己業務的相似文本庫黑名單、白名單、疑似名單(疑似名單是指業務上需要識別出來,且需要人工審核),并在相似文本庫里面維護與您業務相關的文本樣本,從而指導文本反垃圾識別去過濾命中相似文本樣本的內容。

使用限制

類型

項目

限制

文本庫

庫個數

不超過10個(不含系統回流文本庫)。

文本庫

庫名長度

不超過20個字符。

關鍵詞

關鍵詞類型

  • 支持中文關鍵詞。

  • 支持用字母和數字作為關鍵詞。

    說明

    檢測時字母和數字會被當作整體進行分詞。

  • 暫不支持英文關鍵詞。

關鍵詞

單個文本庫中關鍵詞個數

不超過10000個。

關鍵詞

關鍵詞最大長度

50個字符(包括符號)。

關鍵詞

中文關鍵詞編碼類型

UTF-8。

關鍵詞

關鍵詞格式

不允許包含以下特殊字符(包括全角):

@ # $ % ^ * ( ) < > / ?, . ; _ + - = ‘ “ 空格 tab鍵

相似文本

相似文本長度

20~4000個字符。

說明

如果添加的文本過長,容易引起文本誤抓。建議文本長度不要超過200個字符。

相似文本

單個文本庫中相似文本個數

不超過10000個。

相似文本

文本編碼格式

UTF-8。

相似文本

相似文本內容

文本樣本需要包含明確的可提取的中文語義特征。如果經過引擎分析特征數太少,該文本樣本將不會生效,引擎將其直接忽略。

說明

如果一段樣本都是無意義的字母數字,或各種表情符等,則可能被忽略。

操作步驟

  1. 登錄內容安全控制臺

  2. 在左側導航欄,選擇機器審核V1.0 > 風險庫管理

  3. 自定義文本庫頁簽單擊創建文本庫

  4. 創建自定義文本庫對話框,請參考創建自定義文本庫參數說明表完成文本庫配置,并單擊確定

    表 1. 創建自定義文本庫參數說明表

    參數

    說明

    名稱

    為文本庫命名。文本庫名稱允許重復,但建議您在業務中將其設置為唯一。

    使用場景

    選擇文本庫的使用場景。取值:

    文本類型

    選擇文本庫的文本類型。取值:

    • 關鍵詞:使用關鍵詞匹配,只要包含關鍵詞就會命中,覆蓋面大。

    • 相似文本:使用文本相似度匹配,只有整段文本相似才會命中,精確度高。

      說明

      只在使用場景文本反垃圾時支持。

    匹配方式

    文本類型關鍵詞時,選擇文本庫的匹配方式。取值:

    • 精確匹配:待檢測文本中包括與庫中的詞完全一樣的內容時才命中。

    • 先轉換再匹配:待檢測文本以及關鍵詞都會經過預處理,預處理后進行匹配。預處理的邏輯如下:

      • 大寫字母統一轉換為小寫字母。例如,輸入檢測文本“bitCoin”,會命中關鍵詞“bitcoin”。

      • 繁體中文統一轉換為簡體。例如,輸入檢測文本“中國”,會命中關鍵詞“中國”。

      • 相似字轉換。例如,輸入檢測文本“②”,會命中關鍵詞“2”。

      說明

      相似文本類型的文本庫默認使用先轉換再匹配。

    識別結果

    選擇文本庫的用途。

    • 文本類型關鍵詞時,取值:

      • 風險名單:若命中文本庫中樣本,則機審結果返回違規(suggestion=block)。

      • 疑似名單:若命中文本庫中樣本,則機審結果返回疑似(suggestion=review)。

      • 忽略名單:不檢測文本庫中樣本,但是會檢測除了樣本庫以外的其他內容。

    • 文本類型相似文本時,取值:

      • 風險名單:若命中文本庫中樣本,則機審結果返回違規(suggestion=block)。

      • 疑似名單:若命中文本庫中樣本,則機審結果返回疑似(suggestion=review)。

      • 可信名單:若命中文本庫中樣本,則機審結果返回正常(suggestion=pass)。

    BizType

    BizType允許您根據不同的業務需求配置并應用不同的文本庫,例如使用BizType指定在某次檢測中應用文本庫。BizType生效邏輯如下:

    • 文本庫設置BizType為“A”,且API檢測請求中傳遞了BizType為“A”,則檢測文本只會使用BizType為“A”的文本庫(前提是文本庫已開啟)。

    • 其他情況下,檢測文本均會使用所有已開啟的文本庫。

    成功創建文本庫后,您可以在文本庫列表中查看新建的文本庫。

  5. 管理文本庫中的文本(關鍵詞、相似文本)。

    自定義文本庫列表顯示所有自定義文本庫,其中系統回流文本庫的名稱前有系統標識,且按照“使用場景_FEEDBACK_WHITE/BLACK”命名。例如,ANTISPAM_FEEDBACK_BLACK是由系統回流生成的用于文本反垃圾場景的黑名單文本庫。

    1. 定位到要操作的關鍵詞文本庫,單擊其操作列下的管理

    2. 文本庫管理頁面,維護文本庫內的關鍵詞。

      文本庫管理頁面展示了所有已添加的關鍵詞信息和最近7天命中次數(不包括當天的命中數據)。

      說明

      在文本庫新增、刪除關鍵詞,大約需要15分鐘生效。

      • 單擊新增關鍵詞導入,按照頁面提示在文本庫中增加關鍵詞。

      • 選中不需要的關鍵詞,單擊批量刪除,刪除關鍵詞。您也可以單擊不需要的關鍵詞下的刪除,單獨將其刪除。

相關操作

對于自定義文本庫(非系統回流文本庫),您可通過自定義文本庫頁面中操作列的刪除修改停用對目標文本庫進行操作。