Scrapy CrawlSpider 中 deny 设置为何无效？

百变鹏仔 3个月前 (01-14) #Python

文章标签 Scrapy

scrapy crawlspider 中的 deny 设置为何无效

问题中提到的 deny 设置无效是因为 deny 参数的值没有采用正则表达式。

在 scrapy 的 crawlspider 中，deny 参数用于指定不应被爬取的 url 模式。如果 deny 参数没有使用正则表达式，那么它只能够匹配完全相等的 url。

因此，如果希望 deny 参数能够匹配包含特定字符串的 url，就需要使用正则表达式。例如，如果要拒绝包含 "guba" 字符串的 url，可以将 deny 参数设置为以下正则表达式：

deny=(r'.*guba.*',)

文章推荐

Python实现字典的key和values的交换

有些时候我们不得已要利用values来反向查询key，有没有简单的方法呢？下面我给大家列举一些方法，方便大家使用pyth...

Python

3个月前 (02-11) 245
使用Python脚本来获取Cisco设备信息的示例

今天发现一个使用python写的管理cisco设备的小框架tratto，可以用来批量执行命令。下载后主要有3个文件：Sy...

Python

3个月前 (02-11) 132
Python的Django中django-userena组件的简单使用教程

利用twitter/bootstrap，项目的基础模板算是顺利搞定。接下来开始处理用户中心。用户中心主要包括用户登陆、注...

Python

3个月前 (02-11) 121
零基础写python爬虫之神器正则表达式

接下来准备用糗百做一个爬虫的小例子。但是在这之前，先详细的整理一下Python中的正则表达式的相关内容。正则表达式在Py...

Python

3个月前 (02-11) 136
零基础写python爬虫之抓取百度贴吧代码分享

这里就不给大家废话了，直接上代码，代码的解释都在注释里面，看不懂的也别来问我，好好学学基础知识去！代码如下:# -*-...

Python

3个月前 (02-11) 123