使用Python爬取51job招聘网的数据

最新推荐文章于 2024-04-29 17:09:44 发布

KelvinChunggg

最新推荐文章于 2024-04-29 17:09:44 发布

阅读量4.2k

点赞数 5

分类专栏：爬虫 python web 文章标签： python html xpath

本文链接： https://blog.csdn.net/KelvinChunggg/article/details/107844115

版权

使用Python爬取51job招聘网的数据

- 进行网站分析

进行网站分析

进入 https://www.51job.com/这个网站

我在这就以python为例搜索职位跳转到这个页面

按F12进行查看每个职位的信息在哪个包中

我们点进这个包中搜索

发现这组数据在Script标签中，类似于json数据，同时发现其链接的URL的键值为job_href我们可以写一个正则表达式来获取这些url方便后续获取信息，同时我们也发现这些url其实是被简单修改过的，我们需要用re.sub处理一下

real_url=[]
url = re.findall('"job_href":"(.*?)"',page_text,re.S)#职位详情URL
for each in url: #把url里的'\\/'改为'/'，此时为真正的URL
    real_url.append(re.sub(r'\\/','/',each))

获取职位信息

我们已经找到了每一个职位对应的URL,于是我们遍历这个URL列表，爬取每一个职位对应的信息。

我们需要把公司名称，招聘职位，岗位信息，地址和公司简介爬取到

对页面里的HTML源码进行xpath解析，可以获取到上文的信息，要使用try…except…对异常数据进行处理

存储信息

我们可以使用pandas模块对爬到的数据进行存储，同时我们发现换页的时候只是其中一个参数发生过改变，我们也可以写一个循环来爬取多页

最终代码

import requests
import lxml.etree
import os
import time
import re
import pandas as

最低0.47元/天解锁文章

KelvinChunggg

关注关注

5
点赞
踩
36

收藏

觉得还不错? 一键收藏
3
评论
使用Python爬取51job招聘网的数据

使用Python爬取51job招聘网的数据进行网站分析获取职位信息存储信息最终代码进行网站分析进入https://www.51job.com/这个网站我在这就以python为例搜索职位跳转到这个页面按F12进行查看每个职位的信息在哪个包中我们点进这个包中搜索发现这组数据在Script标签中，类似于json数据，同时发现其链接的URL的键值为job_href我们可以写一个正则表达式来获取这些url方便后续获取信息，同时我们也发现这些url其实是被简单修改过的，我们需要用re.sub处理一下
复制链接

扫一扫