使用Python爬取51job招聘网的数据
使用Python爬取51job招聘网的数据
-
- 进行网站分析
- 获取职位信息
- 存储信息
- 最终代码
进行网站分析
进入 https://www.51job.com/这个网站
我在这就以python为例搜索职位跳转到这个页面
按F12进行查看每个职位的信息在哪个包中
我们点进这个包中搜索
发现这组数据在Script标签中,类似于json数据,同时发现其链接的URL的键值为job_href我们可以写一个正则表达式来获取这些url方便后续获取信息,同时我们也发现这些url其实是被简单修改过的,我们需要用re.sub处理一下
real_url=[]
url = re.findall('"job_href":"(.*?)"',page_text,re.S)#职位详情URL
for each in url: #把url里的'\\/'改为'/',此时为真正的URL
real_url.append(re.sub(r'\\/','/',each))
获取职位信息
我们已经找到了每一个职位对应的URL,于是我们遍历这个URL列表,爬取每一个职位对应的信息。
我们需要把公司名称,招聘职位,岗位信息,地址和公司简介爬取到
对页面里的HTML源码进行xpath解析,可以获取到上文的信息,要使用try…except…对异常数据进行处理
存储信息
我们可以使用pandas模块对爬到的数据进行存储,同时我们发现换页的时候只是其中一个参数发生过改变,我们也可以写一个循环来爬取多页
最终代码
import requests
import lxml.etree
import os
import time
import re
import pandas as
程序小白kevin: 我也是,请问你解决了吗
Freya_17: 我也是这样,你找到原因了吗?
huachuah: 为什么只有表头数据啊 爬不到数据
� XY: 有没有出现答题数据缺失的情况,楼主
qq_33414838: 请问大佬这个可以把收藏的题一次性导出吗,我没有爬虫基础,最近想把我华图的收藏题导出到ipad做,可发现要图币要好几百