CrawlSpider 中 Deny 设置不起作用?
scrapy crawlspider 中 deny 设置不起作用?
在 crawlspider 中,deny 设置可用于阻止爬取特定 url 链接。然而,根据提供的代码片段,deny 设置似乎没有正常工作,仍然爬取了包含 "guba" 的链接。
此问题可能是由于以下原因造成的:
deny 参数不是正则表达式
deny 参数必须是正则表达式,否则只有 url 完全匹配才可以被阻止。代码片段中使用的字符串不是正则表达式,因此它将只阻止完全匹配这些字符串的 url。
为了解决这个问题,需要将 deny 参数中的字符串修改为正则表达式。例如:
deny=(r'guba', r'data', r'fund.*.eastmoney.com/d+.html', r'.*so.eastmoney.*', r'/gonggao/')
这样一来,代码将阻止包含 "guba"、"data"、符合正则表达式 "fund..eastmoney.com/d+.html"、符合正则表达式 ".so.eastmoney.*" 和 "/gonggao/" 的链接。
文章推荐
-
深入探索Python在金融领域的人工智能应用
深入探索Python在金融领域的人工智能应用引言:随着金融市场的全球化和数据量的爆发式增长,金融机构越来越需要利用人工智...
Python
11秒前 0 -
如何在Python字符串中间添加短语?
字符串是 Python 中的基本数据类型,操作它们是许多编程场景中的常见任务。您可能遇到的一个特定要求是需要在现有字符串...
Python
51秒前 0 -
如何利用Python构建智能虚拟助手
如何利用Python构建智能虚拟助手引言:在现代科技的发展中,虚拟助手已经成为人们生活中的重要角色。它能够通过语音或文本...
Python
2分钟前 0 -
如何在Python中求逆矩阵或nArray?
在本文中,我们将向您展示如何使用 Python 中的 NumPy 库计算矩阵或 ndArray 的逆。什么是矩阵的逆矩阵...
Python
2分钟前 0 -
探寻Python在无人驾驶领域的关键角色
探寻Python在无人驾驶领域的关键角色随着科技的不断进步和发展,无人驾驶技术已经逐渐成为汽车行业和智能交通领域的热门话...
Python
3分钟前 0
最新文章
- 深入探索Python在金融领域的人工智能应用 11秒前
- 如何在Python字符串中间添加短语? 51秒前
- 如何利用Python构建智能虚拟助手 2分钟前
- 如何在Python中求逆矩阵或nArray? 2分钟前
- 探寻Python在无人驾驶领域的关键角色 3分钟前
- 揭秘Python在智能化农业中的突破性进展 4分钟前
- 了解Python编程领域中最好的就业选择 4分钟前
- 揭示Python编程行业中最赚钱的就业方向 5分钟前
- Python在机器人导航领域的成功案例研究 6分钟前
- 揭秘Python在人工智能开发中的成功故事 7分钟前