Python 爬虫返回403错误解决方法

百变鹏仔 4个月前 (02-07) #Python

文章标签爬虫

问题

抓取数据时，通常调试信息是：

DEBUG: Crawled (200) <get></get> (referer: None)

如果出现

DEBUG: Crawled (403) <get></get> (referer: None)

表示网站采用了防爬技术anti-web-crawling technique（Amazon所用），比较简单即会检查用户代理（User Agent）信息。

解决方法

在请求头部构造一个User Agent，如下所示：

def start_requests(self):      yield Request("http://www.php.cn/",                    headers={'User-Agent': "your agent string"})

文章推荐

Python实现字典的key和values的交换

有些时候我们不得已要利用values来反向查询key，有没有简单的方法呢？下面我给大家列举一些方法，方便大家使用pyth...

Python

4个月前 (02-11) 287
使用Python脚本来获取Cisco设备信息的示例

今天发现一个使用python写的管理cisco设备的小框架tratto，可以用来批量执行命令。下载后主要有3个文件：Sy...

Python

4个月前 (02-11) 177
Python的Django中django-userena组件的简单使用教程

利用twitter/bootstrap，项目的基础模板算是顺利搞定。接下来开始处理用户中心。用户中心主要包括用户登陆、注...

Python

4个月前 (02-11) 156
零基础写python爬虫之神器正则表达式

接下来准备用糗百做一个爬虫的小例子。但是在这之前，先详细的整理一下Python中的正则表达式的相关内容。正则表达式在Py...

Python

4个月前 (02-11) 187
零基础写python爬虫之抓取百度贴吧代码分享

这里就不给大家废话了，直接上代码，代码的解释都在注释里面，看不懂的也别来问我，好好学学基础知识去！代码如下:# -*-...

Python

4个月前 (02-11) 158