使用Python获取最新的政府工作信息
由于提供工作稳定性、可观的薪水和其他几项优势,政府工作在全球范围内需求量很高。然而,找到并管理这些通知可能是一个困难的过程。本文将教你如何使用Python来爬取最新的政府就业公告。
安装和语法
在开始之前,我们需要安装所需的 Python 包。我们将使用的两个包是 requests 和 BeautifulSoup。我们可以使用 pip 安装这些包。
这是安装它们的命令:
pip install requestspip install beautifulsoup4
一旦我们安装了所需的包,我们就可以开始将它们导入到我们的 Python 代码中:
立即学习“Python免费学习笔记(深入)”;
import requestsfrom bs4 import BeautifulSoup
算法
首先,我们需要找到列出政府工作通知的网站。
然后,我们将使用Python中的requests包向网站发送请求。
接下来,我们将使用响应对象的content属性提取网站的HTML内容。
我们将使用BeautifulSoup包解析HTML内容。
最后,我们将从解析的HTML内容中提取相关的工作通知细节。
示例
现在让我们通过从印度政府网站(https://www.sarkariresult.com/latestjob)上爬取职位公告的信息来使用上述算法。
import requestsfrom bs4 import BeautifulSoup# Define the URL to scrapeurl = "https://www.sarkariresult.com/latestjob.php"# Function to get the HTML content of the websitedef get_html(url): response = requests.get(url) return response.text# Get the HTML content of the websitehtml_data = get_html(url)# Parse the HTML content using BeautifulSoupsoup = BeautifulSoup(html_data, 'html.parser')# Find the job notification detailsjob_details = soup.find_all("div", id="post")# to store the scraped datajob_notifications = []# Loop through each job notification and extract the detailsfor job in job_details: job_notification = job.get_text() job_notifications.append(job_notification)# Print the job notificationsfor notification in job_notifications: print(notification)
输出
UKPSC Jail Warden Online Form 2022 Last Date : 18/01/2023NTA UGC NET December 2022 Online Form Last Date : 17/01/2023Central Silk Board Various Post Online Form 2023 Last Date : 16/01/2023MPESB High School TET Online Form 2023 Last Date : 27/01/2023DSSSB PGT Economics Online Form 2023 Last Date : 01/02/2023CRPF HC Ministerial and ASI Steno Online Form 2023 Last Date : 25/01/2023AAI Junior Executives Online Form 2022 Last Date : 21/01/2023
说明
导入 requests 模块以向给定 URL 发出 HTTP 请求。
导入BeautifulSoup模块来解析网页的HTML内容。
要爬取的网站的URL被定义为https://www.sarkariresult.com/latestjob.php。
通过使用requests.get()方法发送HTTP请求并将结果作为文本发送,开发了get html函数来获取网站的HTML内容。
调用get html方法时以URL作为输入,即可获取网站的HTML内容。
使用 BeautifulSoup 和指定的解析器 html.parser 来解析 HTML 内容。
通过查找所有 id="post" 的 div 标签来获取职位通知详细信息。
初始化一个空列表 job_notifications 以存储抓取的数据。
循环用于通过在每个 div 标记上调用 get_text() 方法并将其附加到 job_notifications 列表来从每个作业通知中提取文本。
最后,通过循环遍历job_notifications列表并打印每个通知来打印工作通知。
应用程序
它还可以进一步扩展,从其他政府职位门户网站上获取工作通知。此外,抓取的数据可以存储在数据库或CSV文件中,以供将来参考或通过添加经纪费来将聚合数据制作成职位门户网站并实现盈利。
结论
在本教程中,我们学习了如何使用 Python 从网络上抓取政府工作通知。我们首先安装了必要的软件包,然后详细介绍了算法。然后,我们通过从印度政府的求职门户网站抓取职位通知详细信息,将算法付诸实践。我们还讨论了代码的可能应用。