Web應(yīng)用防火墻(Web Application Firewall,簡稱WAF)針對Bot管理模塊升級,提供防爬場景化配置功能。您可以基于實(shí)際業(yè)務(wù)場景對防爬規(guī)則進(jìn)行自定義,從而更有針對性地對業(yè)務(wù)進(jìn)行爬蟲風(fēng)險防護(hù)。

背景信息

當(dāng)今互聯(lián)網(wǎng)爬蟲種類繁多,專業(yè)的爬蟲會不斷變換爬取手段,繞過網(wǎng)站管理員的防爬策略。因此,很難達(dá)成依靠固定的規(guī)則來實(shí)現(xiàn)一勞永逸的完美防護(hù)的目標(biāo)。并且,爬蟲風(fēng)險管理與業(yè)務(wù)自身特性強(qiáng)相關(guān),需要專業(yè)的安全團(tuán)隊進(jìn)行對抗才能取得較好的效果。

如果您對防爬效果有較高的要求,或者缺乏專業(yè)的安全團(tuán)隊來配置相應(yīng)的安全策略,您可以使用WAF提供的防爬場景化功能,有效防護(hù)惡意爬蟲風(fēng)險。

WAF基于阿里云對全網(wǎng)威脅情報實(shí)時計算得到的惡意爬蟲IP情報庫、動態(tài)更新的各大公有云或IDC機(jī)房IP庫等情報信息,根據(jù)配置的場景化規(guī)則,幫助您直接放行合法爬蟲請求,并對來自威脅情報庫的惡意請求進(jìn)行防護(hù)處置。

惡意爬蟲的特征和危害

正常爬蟲請求的user-agent字段中通常包含xxspider標(biāo)識,并且爬取的請求量不大,爬取的URL和時間段都比較分散。如果對合法的爬蟲IP執(zhí)行反向nslookuptracert,一般都可以看到爬蟲的來源地址。例如,對百度的爬蟲IP執(zhí)行反向nslookup,可查詢到其來源地址信息。查看源站信息

惡意爬蟲則可能會在某個時間段大量請求某個域名的特定地址或接口,這種情況很可能是偽裝成爬蟲的CC攻擊,或是經(jīng)第三方偽裝后針對性爬取敏感信息的請求。當(dāng)惡意爬蟲請求量大到一定程度后,會造成服務(wù)器的CPU飆升,帶來網(wǎng)站無法訪問等業(yè)務(wù)中斷問題。

適用版本

  • 如果是包年包月實(shí)例:已開通高級版、企業(yè)版、旗艦版的Bot管理增值服務(wù)。
  • 如果是按量計費(fèi)實(shí)例:已在賬單與套餐中心,開啟Bot管理模塊下場景化配置功能。
    說明 使用按量計費(fèi)WAF實(shí)例的防爬場景化配置功能時,阿里云將根據(jù)您已設(shè)置的場景個數(shù)來計費(fèi)。相關(guān)內(nèi)容,請參見計費(fèi)說明

使用限制

每個域名最多可添加50場景化配置規(guī)則。

相關(guān)視頻

觀看以下視頻,快速了解如何使用防爬場景化配置方案,實(shí)現(xiàn)精細(xì)化爬蟲防護(hù),滿足個性化的業(yè)務(wù)防護(hù)需求。

相關(guān)文檔

配置瀏覽器訪問網(wǎng)頁的防爬場景化規(guī)則

配置App防爬場景化規(guī)則

防爬場景化配置示例