python爬取去哪儿网酒店信息

3 篇文章 1 订阅
订阅专栏

python爬取去哪儿网酒店信息

利用selenium+python爬取去哪儿网酒店信息,获取酒店名称、酒店地址、第一条评论、评论数、最低价格等信息,写入excel表。

1、观察网页结构

浏览器地址栏输入 https://hotel.qunar.com/city/xiamen/#fromDate=2020-01-01&cityurl=xiamen&toDate=2020-01-02&from=qunarHotel进入去哪儿网主页面,如下图:
去哪儿网界面
右键点击网页查看源代码,观察结构,发现所要获取信息并未直接写在网页源码中,而是以Json的形式进行动态交互的,所需要信息封装在class='b_hlistPanel~之中。
在这插入图片描述

2、爬取信息

# -*- coding:utf-8 -*-
import time
import pandas as pd
from selenium import webdriver
from bs4 import BeautifulSoup

# 创建EXCEL文件地址
EXCEL_PATH = '酒店信息.xlsx'
all_lists = []
number = 1

path = r'C:\chromedriver'
driver = webdriver.Chrome(executable_path=path)
url = "https://hotel.qunar.com/city/xiamen/#fromDate=2020-01-01&cityurl=xiamen&toDate=2020-01-02&from=qunarHotel"
driver.get(url)
time.sleep(5)

for z in range(0, 10): # 爬取页数设置
    for i in range(5):
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);") # 自动下拉网页
    time.sleep(3)

    page = driver.page_source
    html = BeautifulSoup(page, 'html.parser') # 从网页提取数据
    lists = html.find('div', class_='b_hlistPanel')

    for list in lists:
        name = list.find('a', class_='e_title js_list_name').get_text()
        address = list.find('span', class_='area_contair').get_text()
        comment = list.find('p', class_='review first_review').get_text()
        grade = list.find('p', class_='score').find('b').get_text()
        amount = list.find('p', class_='user_comment').find('cite').get_text()
        lowestprice = list.find('p', class_='item_price js_hasprice').find('b').get_text()
        goods = {'序号': number,
             '酒店名称':name,
             '地址':address,
             '评价':comment,
             '点评数':amount,
             '价格':lowestprice}
        number += 1
        all_lists.append(goods)

df = pd.DataFrame(all_lists)
writer = pd.ExcelWriter(EXCEL_PATH)
df.to_excel(excel_writer=writer, columns=['序号', '酒店名称', '地址', '评价', '点评数', '价格'], index=False,
                    encoding='utf-8', sheet_name='Sheet')
writer.save()
writer.close()
~

3、结果如下图

在这里插入图片描述
欢迎查看我的其他博客 点击这里

使用Python爬取在线旅游平台的酒店价格与评价
2201_76125393的博客
07-02 802
在计划旅行时,选择合适的住宿是非常重要的一环。通过对比不同酒店的价格和评价,我们可以找到符合预算和期望的理想住处。在本篇博客中,我们将学习如何使用Python爬虫,从在线旅游平台获取酒店价格和评价信息。在开始之前,确保您已经安装了以下Python库:requests,bs4和pandas。
python爬虫:案例三:去哪儿酒店价格信息
热门推荐
阿友的专栏
05-24 1万+
#coding=utf-8 import sys reload(sys) sys.setdefaultencoding( "utf-8" ) import urllib from selenium import webdriver import time from bs4 import BeautifulSoup import requests import os from selenium.we
Python3 实现大众点评酒店信息酒店评论的爬虫
10-30
内容: 根据已有的的"大众点评"酒店主页的URL地址,自动抓取所需要的酒店的名称、图片、经纬度、酒店价格、用户评论数量以及用户评论的用户ID、用户名字、评分、评论时间等,并且将爬取成功的内容存放到.txt文档中。 平台:Python 3.5.3;Eclipse for Pydev 主程序:DianpingSpider.py 注意:设置了时间,模拟器等,较为有效地防止大众点评的反爬虫结束检测到同一个IP访问频繁而屏蔽爬取,但是未能实现IP代理。
基于python爬虫技术的酒店信息采集系统的设计与实现(Django框架)_酒店管理软后台接口数据爬虫
m0_57077948的博客
04-20 631
随着互联技术的不断发展,酒店预订平台如雨后春笋般涌现,为用户提供了丰富的酒店信息和便捷的预订服务。因此,本研究旨在通过Python爬虫技术,从各大酒店预订平台抓取酒店信息,并利用Django框架开发一个酒店信息采集系统,为用户提供酒店信息的查询、分析和可视化展示功能。同时,研究团队具备丰富的技术背景和开发经验,能够保证项目的顺利进行。Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。
爬取去哪儿酒店信息及评论
顶锅猫
06-28 1705
爬取去哪儿酒店信息及评论 第一步,获取城市列表 import requests import json import codecs # 去哪儿城市列表 url = "https://touch.qunar.com/h-api/hotel/hotelcity/en" s = requests.get(url) file = codecs.open('./city.json','w','utf-8') file.write(s.text) file.close() 运行结果: 第二步 根据城市列表
python selenium爬取去哪儿酒店信息——详细步骤及代码实现
bb123116的博客
10-13 3145
目录准备工作一、webdriver部分二、定位到新页面三、提取酒店信息??这里要注意??四、输出结果五、全部代码 准备工作 1.pip install selenium 2.配置浏览器驱动、配置其环境变量 Selenium3.x调用浏览器必须有一个webdriver驱动文件 Chrome驱动文件下载chromedrive Firefox驱动文件下载geckodriver 具体步骤自行百度 3.先确保webdriver可以正常使用 一、webdriver部分 要利用代码控制浏览器依次点击及修改 具体代码:
基于python爬虫去哪里酒店宾馆数据可视化系统+酒店宾馆推荐系统设计与实现(django框架)
杭州.黄老师
03-01 1万+
基于python爬虫去哪里酒店宾馆数据可视化系统+酒店宾馆推荐系统设计与实现(django框架)毕设源代码毕业设计作品,黄菊华老师《Vue.js入门与商城开发实战》《微信小程序商城开发》图书作者,CSDN博客专家,在线教育专家,CSDN钻石讲师;专注大学生毕业设计教育和辅导。所有项目都配有从入门到精通的基础知识视频课程,学习后应对毕业设计答辩。项目配有对应开发文档、开题报告、任务书、PPT、论文模版等项
基于selenium爬取去哪儿酒店信息
m0_54454944的博客
04-16 2083
去哪儿站中,要爬取旅游的酒店信息,我们用通常的requests库进行爬取的时候发现,当我们要翻页的时候址未出现变化,返回的页源码信息始终只有第一页的内容,那么有没有一种方式可以使得能够翻页爬取呢?爬取酒店信息的重难点主要在于模拟的登录的过程,需要注意的坑是每次我们翻页的时候要下拉下滑页,等待页加载,加载完毕之后才能获取信息,再来就是信息的清洗,这里值得注意的是可能存在标签错位的情况,这里我们就要特殊情况,特殊处理。我们首先需要确定我们浏览器的版本,这里我使用的是谷歌浏览器。
python爬去哪儿攻略
m0_63517607的博客
11-26 1651
python爬取去哪儿
8天长假快来了,Python分析【去哪儿旅游攻略】数据,制作可视化图表
Python案例分享,B站视频教程:https://space.bilibili.com/523606542
08-30 2238
2023年的中秋节和国庆节即将来临,好消息是,它们将连休8天!这个长假为许多人提供了绝佳的休闲机会,让许多人都迫不及待地想要释放他们被压抑已久的旅游热情,所以很多朋友已经开始着手规划他们的旅游行程。今天我们来分析下去哪儿的旅游攻略数据,看看吃、住、游玩在价位合适的情况下,怎样才能玩的开心。
python3爬取去哪儿酒店数据脚本
09-14
去哪儿酒店数据爬取,需要自己更换cookie,更换代理。输入要爬取的城市。 更换URL、data、headers同理可以爬取其他的数据~
Python爬取去哪儿文章及评论.py
09-02
Python爬取动态站;Python爬取微信公众号文章以及评论源代码!
python爬取去哪全国景区数据
02-26
python爬取去哪全国景区数据,爬取地址为piao.qunar.com,注意去哪有反爬虫策略,如果ip被封,可能使用手机热点
去哪儿评论Python爬虫
09-04
去哪儿pycharm爬虫
Python爬取去哪儿所有城市自由行数据.zip
最新发布
04-30
python爬虫案例源码,python爬虫学习,python爬虫案例,python爬取在线站数据,python爬取站数据,python数据分析,数据获取,项目实战,python爬虫小例子,python爬虫代码示例,python爬虫简单示例,python爬虫...
去哪儿python爬取结果数据处理
09-04
数据结果处理
Python爬虫Selenium爬取途牛全国的酒店数据进行地图可视化
我不是秃头的博客
02-04 7685
因为找不太到途牛的url规律,就只能慢慢爬取数据,由于页面加载的时间很慢,用一台电脑爬取4000+数据可能需要数小时,这里只是简单实现了每个城市的第一页数据,可以在这个基础上实现多个页面一起爬和强化翻页个功能 爬去全国酒店数据+可视化爬去数据可视化Flask+Echarts 爬去数据 一个py文件和一个文本文件就可以爬取了 首先是py文件 import json from selenium import webdriver from selenium.webdriver.common.action_cha
python爬取去哪儿_python爬虫(12)去哪酒店信息爬取
weixin_42469083的博客
02-10 1145
目的意义爬取某地的酒店价格信息,示例使用selenium在Firefox中的使用。来源少部分来源于书。python爬虫开发与项目实战构造本次使用简易的方案,模拟浏览器访问,然后输入字段,查找,然后抓取页中的信息。存储csv中。然后再转换为Excel,并对其中的数据进行二次处理。代码整个过程相当于获取页,下载,然后粗糙的存储过程,最终完成。不能理解的是,这样是使用了Phantomjs么。from...
Python爬虫络实践:去哪儿旅游数据爬取指南
lhyandlwl的博客
04-10 1609
我们将通过一个简单的示例来说明如何利用 Python 中的常用库进行页抓取,从而获取旅游站上的信息。主函数部分负责执行代码的主要逻辑,包括创建 CSV 文件、定义要爬取的城市和对应的 URL,以及循环遍历城市列表并调用 get_page 函数来爬取数据。通过以上步骤,我们实现了一个简单的页抓取程序,用于抓取旅游站上的景点信息,并将数据存储到 CSV 文件中以供后续分析和处理。
python爬取去哪儿
05-22
你可以使用 Python 中的 requests 和 BeautifulSoup 库来爬取去哪儿上的数据。下面是一个简单的示例代码: ```python import requests from bs4 import BeautifulSoup url = "https://hotel.qunar.com/city/xian/" response = requests.get(url) soup = BeautifulSoup(response.text, "html.parser") # 查找所有酒店名称和价格 hotels = soup.find_all("div", class_="item_hotel_info") for hotel in hotels: name = hotel.find("a", class_="hotel-name-link").text.strip() price = hotel.find("span", class_="item_price").text.strip() print(name, price) ``` 这段代码可以爬取去哪儿上的西安酒店列表,并输出每个酒店的名称和价格。你可以根据自己的需求修改代码以爬取其他页面或获取其他信息。需要注意的是,爬取站数据时一定要遵守站的爬虫协议,不要过于频繁地请求同一个页面,以免被站封禁 IP。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
写文章

热门文章

  • 详解梯度下降算法 55388
  • ConvLSTM时空预测实战代码详解 13054
  • 利用CNN实现图像和数值数据融合 6358
  • python爬取去哪儿网酒店信息 5960
  • Python猜数字小游戏 5086

分类专栏

  • 机器学习 9篇
  • Python爬虫 3篇
  • 自然语言处理 1篇
  • Python基础 14篇
  • MySQL
  • python数据分析
  • 安装问题 4篇

最新评论

  • 利用CNN实现图像和数值数据融合

    weixin_50846724: 你好 我想问一下这篇文章的原文在哪啊

  • ConvLSTM时空预测实战代码详解

    境界面上的双曲线: 博主,你代码里面是用的前19帧预测后19帧,不是20帧啊

  • 利用CNN实现图像和数值数据融合

    qq_43937925: ValueError: Found input variables with inconsistent numbers of samples: [150, 10000]表示输入数据数组中的样本数量不一致。当训练-测试分割期间特征和标签数组中的样本数量不同时,通常会发生此错误 =这得设置一下标签的数量也要150吧

  • 利用CNN实现图像和数值数据融合

    qq_43937925: 您好 这个具体的代买您可以提供他一下吗

  • 机器学习之多模型融合预测iris数据集

    qq_40879318: 请问您在数据训练前为什么不将iris数据预处理一下呢,做一下标准化,归一化之类的

您愿意向朋友推荐“博客详情页”吗?

  • 强烈不推荐
  • 不推荐
  • 一般般
  • 推荐
  • 强烈推荐
提交

最新文章

  • ConvLSTM时空预测实战代码详解
  • module ‘eli5‘ has no attribute ‘show_weights‘
  • Gan生成手写数字
2022年6篇
2021年5篇
2020年18篇
2019年4篇

目录

目录

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43元 前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值

哆哆女性网通讯公司起名称猪宝宝起名合适用什么字渔业企业起名设计院起名口袋妖怪属性相克表辞职申请书小说起名 生成器的中欧工商管理学院渔业有限公司起名给公司起名大师软件温如松applepay男孩起名查询蛋糕店的名字怎么起瓷都起名网站免费测名字打分女人做什么赚钱氵字旁的字都有哪些字起名字好戒中城37唐朝游戏平台草船借箭的故事云上的日子年属鼠的出生起名大全保字辈的怎么起名陈紫怡王性起名如何安装win7重庆电话区号王者起名不会重复梅花的品质和精神武昌火车站售票时间淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻不负春光新的一天从800个哈欠开始有个姐真把千机伞做出来了国产伟哥去年销售近13亿充个话费竟沦为间接洗钱工具重庆警方辟谣“男子杀人焚尸”男子给前妻转账 现任妻子起诉要回春分繁花正当时呼北高速交通事故已致14人死亡杨洋拄拐现身医院月嫂回应掌掴婴儿是在赶虫子男孩疑遭霸凌 家长讨说法被踢出群因自嘲式简历走红的教授更新简介网友建议重庆地铁不准乘客携带菜筐清明节放假3天调休1天郑州一火锅店爆改成麻辣烫店19岁小伙救下5人后溺亡 多方发声两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#青海通报栏杆断裂小学生跌落住进ICU代拍被何赛飞拿着魔杖追着打315晚会后胖东来又人满为患了当地回应沈阳致3死车祸车主疑毒驾武汉大学樱花即将进入盛花期张立群任西安交通大学校长为江西彩礼“减负”的“试婚人”网友洛杉矶偶遇贾玲倪萍分享减重40斤方法男孩8年未见母亲被告知被遗忘小米汽车超级工厂正式揭幕周杰伦一审败诉网易特朗普谈“凯特王妃P图照”考生莫言也上北大硕士复试名单了妈妈回应孩子在校撞护栏坠楼恒大被罚41.75亿到底怎么缴男子持台球杆殴打2名女店员被抓校方回应护栏损坏小学生课间坠楼外国人感慨凌晨的中国很安全火箭最近9战8胜1负王树国3次鞠躬告别西交大师生房客欠租失踪 房东直发愁萧美琴窜访捷克 外交部回应山西省委原副书记商黎光被逮捕阿根廷将发行1万与2万面值的纸币英国王室又一合照被质疑P图男子被猫抓伤后确诊“猫抓病”

哆哆女性网 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化