首发于 DataSpeak
帮你选电影—对豆瓣电影Top250榜单的数据分析

帮你选电影—对豆瓣电影Top250榜单的数据分析

业余打发时间看电影是个不错的选择,但是如果看了一部无聊糟心的电影就得不偿失了,所以一些电影方面的榜单就出现了,可以为这些选择困难患者提供一个不错的指南,那些是经典是值得看的,而那些电影不值得你浪费一两个小时的时间。在电影榜单方面,国外最出名的自然是 IMDB Top250,这个榜单收集了全球观众评选出的最好看的250部电影,国内最知名的榜单应该是 豆瓣电影Top250, 主要反映了国内观众的观影品味(虽然有人可能会说豆瓣的观影品味可能偏文艺一些)。对于这两个榜单,虽然对部分电影的排名多少有些争议,但是总体来说大家觉得对着这个榜单看电影,碰到烂片的概率还是较小的。

看到这些榜单,我们可能会有一些问题。比如,某个我最喜欢的导演有多少部电影进入榜单了?榜单中哪一年的电影最多?哪些电影的口碑较为统一,而哪些电影的口碑非常两极分化?为回答这些问题,我们需要对榜单中的信息进行一些搜集与整理。为了搜集这些信息,我使用爬虫爬取了豆瓣Top250榜单,并进行了一些探索性分析,这些分析可能可以回答你对榜单的某些疑问。

一、数据描述

我使用Scrapy爬取了豆瓣Top250榜单,针对每个电影,收集了以下十项指标,其中前七项是直接抓取获得,后三项则是间接计算得到:

搜集到的所有数据放在 这个网址,你可以每一列进行排序,比如查看提名最高或最低的电影;也可以通过右上角的输入框进行筛选,比如想要搜诺兰的所有电影,只需要在输入框输入“克里斯托弗·诺兰”,你就可以看到榜单中诺兰的所有电影数据。

二、初步探索性分析

我使用jupyter notebook分析以上数据,所有的分析代码见 这个网址 。首先,我们需要导入一些分析必需的库,做一些初始化设置:

然后,我们导入数据,看看数据包含哪些信息:


哆哆女性网hentaicomic手机网站建设制作产品设计作品集网站高考万能作文标题八字a股重要股东套现3000亿周易起名网免费取名测分外贸seo推广公司销售网站如何制作物业管理公司名称免费起名杀人视频取名字大全男孩生辰八字起名八字算命精批案例提供深圳网站建设用代码起名字烩面店起名逆天问道3.12020鼠宝宝女起名索多玛120天电影拜师九叔建设营销型网站精灵宝可梦红宝石破解版简单女装店起什么名字永城产业园周易国学起名网靠谱吗给电瓶车起名字临清网站优化云泥by青灯po农行理财产品中国诗歌散文网嵇起名字淀粉肠小王子日销售额涨超10倍罗斯否认插足凯特王妃婚姻不负春光新的一天从800个哈欠开始有个姐真把千机伞做出来了国产伟哥去年销售近13亿充个话费竟沦为间接洗钱工具重庆警方辟谣“男子杀人焚尸”男子给前妻转账 现任妻子起诉要回春分繁花正当时呼北高速交通事故已致14人死亡杨洋拄拐现身医院月嫂回应掌掴婴儿是在赶虫子男孩疑遭霸凌 家长讨说法被踢出群因自嘲式简历走红的教授更新简介网友建议重庆地铁不准乘客携带菜筐清明节放假3天调休1天郑州一火锅店爆改成麻辣烫店19岁小伙救下5人后溺亡 多方发声两大学生合买彩票中奖一人不认账张家界的山上“长”满了韩国人?单亲妈妈陷入热恋 14岁儿子报警#春分立蛋大挑战#青海通报栏杆断裂小学生跌落住进ICU代拍被何赛飞拿着魔杖追着打315晚会后胖东来又人满为患了当地回应沈阳致3死车祸车主疑毒驾武汉大学樱花即将进入盛花期张立群任西安交通大学校长为江西彩礼“减负”的“试婚人”网友洛杉矶偶遇贾玲倪萍分享减重40斤方法男孩8年未见母亲被告知被遗忘小米汽车超级工厂正式揭幕周杰伦一审败诉网易特朗普谈“凯特王妃P图照”考生莫言也上北大硕士复试名单了妈妈回应孩子在校撞护栏坠楼恒大被罚41.75亿到底怎么缴男子持台球杆殴打2名女店员被抓校方回应护栏损坏小学生课间坠楼外国人感慨凌晨的中国很安全火箭最近9战8胜1负王树国3次鞠躬告别西交大师生房客欠租失踪 房东直发愁萧美琴窜访捷克 外交部回应山西省委原副书记商黎光被逮捕阿根廷将发行1万与2万面值的纸币英国王室又一合照被质疑P图男子被猫抓伤后确诊“猫抓病”

哆哆女性网 XML地图 TXT地图 虚拟主机 SEO 网站制作 网站优化