爬蟲威脅情報功能提供撥號池IP、IDC機房IP、惡意掃描工具IP以及云端實時模型生成的惡意爬蟲庫等多種維度的爬蟲威脅情報規(guī)則,方便您在全域名或指定路徑下設(shè)置阻斷惡意爬蟲的訪問請求。
前提條件
- 已開通Web應(yīng)用防火墻實例,且實例滿足以下要求:
- 包年包月實例:已開啟Bot管理模塊。
- 按量計費實例:已在賬單與套餐中心開啟Bot管理模塊下威脅情報功能。更多信息,請參見賬單與套餐中心(按量2.0版本)。
- 已完成網(wǎng)站接入。具體操作,請參見使用教程。
背景信息
爬蟲威脅情報規(guī)則基于阿里云爬蟲情報庫,幫助您阻斷來自威脅情報庫的爬蟲請求。阿里云爬蟲情報庫基于阿里云全網(wǎng)流量和威脅情報計算得出并實時更新,可有效檢測惡意爬蟲IP,并提供惡意訪問請求來源的特征信息,目前已掌握超過700種已知Bot類型及對應(yīng)特征。
說明 阿里云爬蟲情報庫覆蓋公有云和線下IDC網(wǎng)絡(luò)。
您可以設(shè)置威脅情報規(guī)則,針對不同類型的威脅情報庫選擇不同的處置動作(例如直接攔截、進行JavaScript校驗、彈出滑塊驗證或觀察),也可以為某些關(guān)鍵接口配置針對特定類型威脅情報庫的防護,以避免正常業(yè)務(wù)受到影響。
操作步驟
- 登錄Web應(yīng)用防火墻控制臺。
- 在頂部菜單欄,選擇Web應(yīng)用防火墻實例的資源組和地域(中國內(nèi)地、非中國內(nèi)地)。
- 在左側(cè)導(dǎo)航欄,選擇 。
- 在網(wǎng)站防護頁面上方,切換到要設(shè)置的域名。
- 單擊Bot管理頁簽,定位到爬蟲威脅情報區(qū)域,開啟狀態(tài)開關(guān)并單擊前去配置。說明 爬蟲威脅情報開啟后,所有網(wǎng)站請求默認都會經(jīng)過爬蟲威脅情報規(guī)則的檢測。您可以通過設(shè)置Bot管理白名單,讓滿足條件的請求忽略爬蟲威脅情報規(guī)則的檢測。更多信息,請參見設(shè)置Bot管理白名單。
- 在爬蟲威脅情報規(guī)則列表中,根據(jù)情報名稱選擇要使用的威脅情報庫,并在啟用狀態(tài)列,開啟啟用狀態(tài)開關(guān)。下表描述了支持的爬蟲威脅情報庫。
情報庫 描述 掃描器惡意指紋庫 通過流量分析,識別到的數(shù)萬掃描器特征庫。 惡意掃描IP情報庫 基于阿里云全網(wǎng)實時檢測到的惡意掃描行為攻擊源IP進行分析,得到的動態(tài)IP情報庫。 撞庫IP情報庫 基于阿里云全網(wǎng)實時檢測到的撞庫、暴力破解行為攻擊源IP進行分析,得到的數(shù)十萬動態(tài)IP情報庫。 偽造蜘蛛情報庫 識別爬蟲程序偽造合法搜索引擎的user-agent(如BaiduSpider)來逃避檢測的行為。 重要 開啟該威脅情報庫之前,請確保已經(jīng)放行合法爬蟲白名單,否則可能導(dǎo)致誤攔截。更多信息,請參見設(shè)置合法爬蟲規(guī)則。惡意爬蟲情報庫 基于阿里云全網(wǎng)實時檢測到的爬蟲行為攻擊源IP進行分析,得出的數(shù)百萬動態(tài)IP情報庫。該IP情報有低級、中級、高級三個等級。級別越高,對應(yīng)的情報庫內(nèi)IP數(shù)量越多,相應(yīng)的誤判概率更大。 說明 建議您對高級情報庫規(guī)則中風(fēng)險等級為高級的規(guī)則(誤報較多)設(shè)置二次校驗(即使用滑塊驗證、JS校驗等處置動作),避免誤報。對二次校驗不適用的場景(規(guī)則風(fēng)險等級為低級),建議配置低級別的情報庫規(guī)則。
IDC情報庫 相關(guān)公有云和IDC機房的IP庫,包括:阿里云、騰訊云、美團云、世紀互聯(lián)、其他。這些IP段經(jīng)常被爬蟲用于部署爬蟲程序或用作代理,而不會被正常用戶使用。 - 可選:自定義威脅情報規(guī)則。