根据反爬虫策略问题具体分析

By xiongjingjing

2020-09-21

　　有一些用户反馈在使用了优质稳定ip代理、控制了访问速度和次数，爬虫工作还是会碰到不那么的顺利进行，不能高效的爬取到大量数据，每天的工作任务又不能拖，都要准时完成。遇到这种情况我们要怎么处理呢?

　　每一个网站反爬虫策略都不相同，需要根据具体问题进行分析。

　　第一，使用高质量的ip代理。

　　第二，设定好header信息，不仅仅是UserAgent、Referer这两个，以及许多其他的header值，都可以在浏览器中打开开发者模式（按F12）并浏览网址查看；

　　第三，处理好Cookie，把Cookies信息储存出来，之后再下次请求时带上Cookie；

　　第四，假如根据header和cookie还不能爬到数据，那么可以考虑模拟浏览器采集，常见的技术是PhantomJS；

　　再结合使用动态ip海ip代理爬虫爬取数据就容易的多了。