爬蟲威脅情報功能提供撥號池IP、IDC機房IP、惡意掃描工具IP以及云端實時模型生成的惡意爬蟲庫等多種維度的爬蟲威脅情報規(guī)則,方便您在全域名或指定路徑下設(shè)置阻斷惡意爬蟲的訪問請求。

前提條件

  • 已開通Web應(yīng)用防火墻實例,且實例滿足以下要求:
    • 包年包月實例:已開啟Bot管理模塊。
    • 按量計費實例:已在賬單與套餐中心開啟Bot管理模塊下威脅情報功能。更多信息,請參見賬單與套餐中心(按量2.0版本)
  • 已完成網(wǎng)站接入。具體操作,請參見使用教程

背景信息

爬蟲威脅情報規(guī)則基于阿里云爬蟲情報庫,幫助您阻斷來自威脅情報庫的爬蟲請求。阿里云爬蟲情報庫基于阿里云全網(wǎng)流量和威脅情報計算得出并實時更新,可有效檢測惡意爬蟲IP,并提供惡意訪問請求來源的特征信息,目前已掌握超過700種已知Bot類型及對應(yīng)特征。
說明 阿里云爬蟲情報庫覆蓋公有云和線下IDC網(wǎng)絡(luò)。

您可以設(shè)置威脅情報規(guī)則,針對不同類型的威脅情報庫選擇不同的處置動作(例如直接攔截、進行JavaScript校驗、彈出滑塊驗證或觀察),也可以為某些關(guān)鍵接口配置針對特定類型威脅情報庫的防護,以避免正常業(yè)務(wù)受到影響。

操作步驟

  1. 登錄Web應(yīng)用防火墻控制臺
  2. 在頂部菜單欄,選擇Web應(yīng)用防火墻實例的資源組和地域(中國內(nèi)地非中國內(nèi)地)。
  3. 在左側(cè)導(dǎo)航欄,選擇防護配置 > 網(wǎng)站防護
  4. 網(wǎng)站防護頁面上方,切換到要設(shè)置的域名。切換域名
  5. 單擊Bot管理頁簽,定位到爬蟲威脅情報區(qū)域,開啟狀態(tài)開關(guān)并單擊前去配置
    說明 爬蟲威脅情報開啟后,所有網(wǎng)站請求默認都會經(jīng)過爬蟲威脅情報規(guī)則的檢測。您可以通過設(shè)置Bot管理白名單,讓滿足條件的請求忽略爬蟲威脅情報規(guī)則的檢測。更多信息,請參見設(shè)置Bot管理白名單
  6. 爬蟲威脅情報規(guī)則列表中,根據(jù)情報名稱選擇要使用的威脅情報庫,并在啟用狀態(tài)列,開啟啟用狀態(tài)開關(guān)。
    下表描述了支持的爬蟲威脅情報庫。
    情報庫 描述
    掃描器惡意指紋庫通過流量分析,識別到的數(shù)萬掃描器特征庫。
    惡意掃描IP情報庫基于阿里云全網(wǎng)實時檢測到的惡意掃描行為攻擊源IP進行分析,得到的動態(tài)IP情報庫。
    撞庫IP情報庫基于阿里云全網(wǎng)實時檢測到的撞庫、暴力破解行為攻擊源IP進行分析,得到的數(shù)十萬動態(tài)IP情報庫。
    偽造蜘蛛情報庫識別爬蟲程序偽造合法搜索引擎的user-agent(如BaiduSpider)來逃避檢測的行為。
    重要 開啟該威脅情報庫之前,請確保已經(jīng)放行合法爬蟲白名單,否則可能導(dǎo)致誤攔截。更多信息,請參見設(shè)置合法爬蟲規(guī)則
    惡意爬蟲情報庫基于阿里云全網(wǎng)實時檢測到的爬蟲行為攻擊源IP進行分析,得出的數(shù)百萬動態(tài)IP情報庫。該IP情報有低級、中級、高級三個等級。級別越高,對應(yīng)的情報庫內(nèi)IP數(shù)量越多,相應(yīng)的誤判概率更大。
    說明 建議您對高級情報庫規(guī)則中風(fēng)險等級為高級的規(guī)則(誤報較多)設(shè)置二次校驗(即使用滑塊驗證、JS校驗等處置動作),避免誤報。

    對二次校驗不適用的場景(規(guī)則風(fēng)險等級為低級),建議配置低級別的情報庫規(guī)則。

    IDC情報庫相關(guān)公有云和IDC機房的IP庫,包括:阿里云、騰訊云、美團云、世紀互聯(lián)、其他。這些IP段經(jīng)常被爬蟲用于部署爬蟲程序或用作代理,而不會被正常用戶使用。
    開啟默認規(guī)則后,當目標情報庫內(nèi)的來源IP向域名下任意路徑發(fā)起訪問請求時,一律觸發(fā)觀察處置,即放行請求同時進行記錄。

    如果您希望進一步調(diào)整默認規(guī)則(例如指定要防護的關(guān)鍵路徑或者修改處置動作),請參照步驟7自定義威脅情報規(guī)則。

  7. 可選:自定義威脅情報規(guī)則。
    1. 定位到要調(diào)整的默認規(guī)則,單擊其操作列下的編輯
    2. 編輯情報對話框,完成威脅情報規(guī)則的配置。
      配置項說明
      防護路徑填寫要防護的具體URL(例如“/abc”、“/login/abc”,“/”表示所有路徑),并選擇對應(yīng)的匹配方式。可選值:
      • 精確匹配:訪問地址與防護路徑完全匹配時,會命中威脅情報規(guī)則。
      • 前綴匹配:訪問地址與防護路徑的前綴相同時,會命中威脅情報規(guī)則。
      • 正則匹配:訪問地址滿足防護路徑的正則表達時,會命中威脅情報規(guī)則。

      單擊新增防護路徑可以添加最多10個路徑。

      處置動作指定命中規(guī)則后的操作。可選值:
      • 觀察:放行請求并進行記錄。
      • 阻斷:直接阻斷訪問請求。
      • JS驗證:通過JavaScript校驗請求數(shù)據(jù),驗證通過后放行請求。
      • 滑塊:在客戶端跳出滑塊驗證頁面,客戶端完成驗證后放行請求。
        說明 滑塊驗證僅支持同步請求,如有異步請求(如AJAX)防護需求請聯(lián)系阿里云安全團隊。如果不確定您防護的接口能否正常使用滑塊驗證,建議您先在自定義防護策略(ACL訪問控制)中配置針對測試IPURL的規(guī)則來驗證和調(diào)試。更多信息,請參見設(shè)置自定義防護策略
      • 嚴格滑塊:在客戶端跳出滑塊驗證頁面,客戶端完成驗證后放行請求。滑塊驗證的通過標準更嚴格。
    3. 單擊確定