爬虫无法下载附件，如何解决附件 URL 处理问题？

百变鹏仔 5个月前 (01-14) #Python

文章标签爬虫

爬虫附件下载问题解答

在给定的代码片段中，无法下载附件的原因可能是缺少对附件 url 的正确处理。代码中使用 download 函数下载附件，但未正确提取附件 url。

为了解决此问题，需要修改代码中的以下部分：

if '<a' in contents:  # 判断附件    fileUrls = re.findall(r'href="(.*?)"', contents, 0)    for fileUrl in fileUrls:        fileUrl = 'http://www.liyang.gov.cn/' + fileUrl        print(fileUrl)        download(fileUrl.split('/' + '[-1], fileUrl, path)  # 下载附件

修改后，代码可以正确提取附件 url 并完成下载附件操作。

文章推荐

Python实现字典的key和values的交换

有些时候我们不得已要利用values来反向查询key，有没有简单的方法呢？下面我给大家列举一些方法，方便大家使用pyth...

Python

4个月前 (02-11) 287
使用Python脚本来获取Cisco设备信息的示例

今天发现一个使用python写的管理cisco设备的小框架tratto，可以用来批量执行命令。下载后主要有3个文件：Sy...

Python

4个月前 (02-11) 177
Python的Django中django-userena组件的简单使用教程

利用twitter/bootstrap，项目的基础模板算是顺利搞定。接下来开始处理用户中心。用户中心主要包括用户登陆、注...

Python

4个月前 (02-11) 156
零基础写python爬虫之神器正则表达式

接下来准备用糗百做一个爬虫的小例子。但是在这之前，先详细的整理一下Python中的正则表达式的相关内容。正则表达式在Py...

Python

4个月前 (02-11) 188
零基础写python爬虫之抓取百度贴吧代码分享

这里就不给大家废话了，直接上代码，代码的解释都在注释里面，看不懂的也别来问我，好好学学基础知识去！代码如下:# -*-...

Python

4个月前 (02-11) 158

爬虫无法下载附件，如何解决附件 URL 处理问题？

Python实现字典的key和values的交换

使用Python脚本来获取Cisco设备信息的示例

Python的Django中django-userena组件的简单使用教程

零基础写python爬虫之神器正则表达式

零基础写python爬虫之抓取百度贴吧代码分享