Python 爬虫返回403错误解决方法
问题
抓取数据时,通常调试信息是:
DEBUG: Crawled (200) <get></get> (referer: None)
如果出现
DEBUG: Crawled (403) <get></get> (referer: None)
表示网站采用了防爬技术anti-web-crawling technique(Amazon所用),比较简单即会检查用户代理(User Agent)信息。
解决方法
在请求头部构造一个User Agent,如下所示:
def start_requests(self): yield Request("http://www.php.cn/", headers={'User-Agent': "your agent string"})
文章推荐
-
Python程序员常用的6个库
在编程时,小挫折可能与大难题一样令人痛苦。没人希望在费劲心思之后,只是做到弹出消息窗口或是快速写入数据库。因此,程序员都...
Python
30秒前 0 -
学习python好的网站和博客
推荐Full Stack Python 有各种python资源汇总,从基础入门到各种框架web应用开发和部署,再到高级的...
Python
1分钟前 1 -
创业公司都在使用的3款Python库
Instavest上发表了一篇博文,文章分享了深受创业公司喜爱的3款Python库,该文章在Hacker News 上引...
Python
3分钟前 1 -
Python 并发编程之线程池/进程池
引言python标准库为我们提供了threading和multiprocessing模块编写相应的多线程/多进程代码,但...
Python
3分钟前 1 -
Python中的正则表达式高级用法
对于python来说,学习正则就要学习模块re的使用方法。本文将展示一些大家都应该掌握的高级技巧。编译正则对象re.co...
Python
4分钟前 1
最新文章
- Python程序员常用的6个库 30秒前
- 学习python好的网站和博客 1分钟前
- 创业公司都在使用的3款Python库 3分钟前
- Python 并发编程之线程池/进程池 3分钟前
- Python中的正则表达式高级用法 4分钟前
- python中使用正则表达式提取字符串的方法 5分钟前
- Python常用库介绍 6分钟前
- python 线程的暂停, 恢复, 退出详解及实例 7分钟前
- python实现删除文件或文件夹 8分钟前
- python如何查看微信好友是否删除自己 9分钟前