Python 爬虫：如何使用 requests 库获取网页中的 JSON 文件？

百变鹏仔 5个月前 (01-14) #Python

文章标签爬虫

python 爬虫：如何获取网页的 json 文件

简介：

获取网页中的 json 文件在爬取动态数据时至关重要，而使用 python 爬虫可以轻松实现这一目标。本文将讲解如何使用 requests 库来从网页中获取 json 文件。

代码问题：

立即学习“Python免费学习笔记（深入）”；

提供的代码中，获取 json 文件时遇到了问题。

解决方案：

问题可能在于你未能模拟浏览器，从而导致网站认为你的请求是机器发出的，触发了防御机制。解决方法是使用 requests 库提供的方法来模拟浏览器行为。

修改后的代码如下：

import requestsfrom bs4 import BeautifulSoup# 模拟浏览器headers = {    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'}# 获取 HTML 源码url = 'https://example.com/api/market/goods/sell_order'params = {    'game': 'csgo',    'goods_id': '769258',    'page_num': '1',    'sort_by': 'price.asc',    'mode': '',    'allow_tradable_cooldown': '1',    'min_paintwear': '0.15',    'max_paintwear': '0.18',    '_': '1617168547790'}response = requests.get(url, headers=headers, params=params)

通过使用 requests 库的 headers 和 params 参数，现在你模拟了一次普通的浏览器请求，可以从网页中获取所需的 json 文件。

文章推荐

Python 爬虫：如何使用 requests 库获取网页中的 JSON 文件？

Python实现字典的key和values的交换

使用Python脚本来获取Cisco设备信息的示例

Python的Django中django-userena组件的简单使用教程

零基础写python爬虫之神器正则表达式

零基础写python爬虫之抓取百度贴吧代码分享