绕过 Cloudflare 保护进行全站爬取——使用 Cyotek WebCopy + Fiddler

前言

Cloudflare作为一个CDN服务商,它最有存在感的时候(也是最令人反感的时候)就是浏览网站时蹦出它的DDoS保护页面了。一般情况下倒还好,顶多像下图中的页面一样,留人片刻。在某些特殊网络环境中,或进行一些特殊操作(比如本文中,我们准备搞的爬虫)时,Cloudflare会强制用户输入图形验证码,而且最近还从谷歌的reCaptcha切换到了自家的hCaptcha[1],原因是嫌reCaptcha要钱。更新之后,一些开源的Cloudflare反反爬虫方案[2][3][4]也全都凉了,其中NodeJS库[3:1]的作者直接表示弃更,把项目的Github仓库设置为归档模式了。

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×