2018年全年资料大全用Python分析豆瓣电影TOP250

既是要分析豆类电影TOP250

这就是说自然就要把相关的多少收集下来,比如名次、电影名、导演、主演等音讯。

这就决然使用一下爬虫咯,如若还不会的话,欢迎看往日的篇章:

Python爬虫学习(一)概述
Python爬虫学习(二)urllib基础运用
Python爬虫学习(三)urllib进阶使用
Python爬虫学习(四)正则表明式
Python爬虫学习(五)爬取电影名次榜及其图片
Python爬虫学习(六)BeautifulSoup来袭
Python爬虫学习(七)爬取淘女郎
Python爬虫学习(八)爬取今日头条关注用户

Python爬虫学习(九)Requests库初探
Python爬虫学习(十)Requests库探探
Python爬虫学习(十一)使用Request爬取猫眼电影排行
Python爬虫学习(十二)selenium来了
Python爬虫学习(十三)使用selenium爬取天猫商品

Python爬虫学习(十四)美人写真套图(一)
Python爬虫学习(十五)漂亮的女人写真套图(二)

本来,你也得以动用豆瓣提供的API接口:https://developers.douban.com/wiki/?title=movie\_v2,提供的数额比较完整:

试了下,这应当是旷日持久事先的消息了,现在调用API再次来到的数量有些早就没了,而且有调用次数限制,依然友好写爬虫采集音讯吗,就当练练手!

若不想这样劳苦,也提供采集的多寡:https://pan.baidu.com/s/1pMAUr6V

下边就起来展开小小的的解析啦,

首先,导入要用到的包以及数据:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv('douban.csv')

翻开一下:

df.head()

df.tail()

说好的TOP250啊?这即将吐槽一下豆类电影TOP250了,有些链接已经没用了,竟然从未改进,比如说名次20的熔炉。

大家让其按豆瓣评分排序,并查阅排行前五的影视:

df.sort_values('豆瓣评分',ascending=False).head()

而豆瓣评分超越9.5的,原来只有两部:

df[df['豆瓣评分']>9.5]

上榜次数最多的导演们:

df['导演'].value_counts()

更多分析,请参考:http://blog.csdn.net/yifei301/article/details/77529840?locationNum=3&fps=1

机敏如您,肯定做的比我更好!

兄弟先行一步,补片去了……

以上。

发表评论

电子邮件地址不会被公开。 必填项已用*标注