合法爬蟲功能提供合法搜索引擎白名單(例如Google、Bing、百度、搜狗、Yandex等),為域名放行合法爬蟲的訪問請求。

前提條件

  • 已開通Web應用防火墻實例,且實例滿足以下要求:
    • 包年包月實例:已開啟Bot管理模塊。
    • 按量計費實例:已在賬單與套餐中心開啟Bot管理模塊下合法爬蟲功能。更多信息,請參見賬單與套餐中心(按量2.0版本)
  • 已完成網站接入。具體操作,請參見使用教程

背景信息

合法爬蟲規則依據阿里云爬蟲情報庫,幫助您直接放行合法爬蟲請求。阿里云爬蟲情報庫基于阿里云全網流量計算得出并可實時更新,涵蓋合法爬蟲訪問請求來源的特征信息。合法爬蟲支持主流搜索引擎的爬蟲IP信息,可動態更新,目前包含Google、百度、搜狗、Bing、Yandex。

啟用合法爬蟲規則后,來自相關搜索引擎的合法爬蟲IP將被直接放行,不經過Bot管理模塊的防護檢測。
說明 在Bot管理模塊外,您還可以使用訪問控制/限流規則進一步過濾來自于合法爬蟲白名單IP的請求。更多信息,請參見設置自定義防護策略

操作步驟

  1. 登錄Web應用防火墻控制臺
  2. 在頂部菜單欄,選擇Web應用防火墻實例的資源組和地域(中國內地非中國內地)。
  3. 在左側導航欄,選擇防護配置 > 網站防護
  4. 網站防護頁面上方,切換到要設置的域名。切換域名
  5. 單擊Bot管理頁簽,定位到合法爬蟲區域,開啟狀態開關并單擊前去配置合法爬蟲
  6. 合法爬蟲規則列表,根據情報名稱選擇要放行的合法爬蟲,開啟對應的啟用狀態開關。合法爬蟲規則
    默認規則支持單獨設置放行來自以下搜索引擎的爬蟲請求:Google、Bing、百度、搜狗、Yandex。您也可以只開啟合法搜索引擎白名單規則,放行所有支持的搜索引擎白名單。