2018年全年资料大全从而Python分析豆瓣电影TOP250

既然要分析豆子电影TOP250,

那得将把相关的数额搜集下来,比如排名、电影叫、导演、主演等信息。

那么就是定使一下爬虫咯,如果还未见面之说话,欢迎看之前的文章:

Python爬虫学习(一)概述
Python爬虫学习(二)urllib基础运用
Python爬虫学习(三)urllib进阶使用
Python爬虫学习(四)正则表达式
Python爬虫学习(五)爬取电影排行榜及其图片
Python爬虫学习(六)BeautifulSoup来袭
Python爬虫学习(七)爬取淘女郎
Python爬虫学习(八)爬取知乎关注用户

Python爬虫学习(九)Requests库初探
Python爬虫学习(十)Requests库探探
Python爬虫学习(十一)使用Request爬取猫眼电影排名
Python爬虫学习(十二)selenium来了
Python爬虫学习(十三)使用selenium爬取淘宝商品

Python爬虫学习(十四)美女写真学图(一)
Python爬虫学习(十五)美女写真学图(二)

当,你为堪采取豆瓣提供的API接口:https://developers.douban.com/wiki/?title=movie\_v2,提供的多少比较完好:

试跳了生,这该是绵绵之前的音信了,现在调用API返回的数码稍已经远非了,而且产生调用次数限制,还是好写爬虫采集信息吧,就当练练手!

倘无思这么辛苦,也提供采集的数码:https://pan.baidu.com/s/1pMAUr6V

下面就是开开展小小的的辨析啦,

第一,导入要就此到之管教和数据:

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
df = pd.read_csv('douban.csv')

查转:

df.head()

df.tail()

说好的TOP250也?这将吐槽一下豆电影TOP250了,有些链接已远非因此了,竟然没创新,比如说排名20之熔炉。

咱为其以豆瓣评分排序,并查看排名前五底录像:

df.sort_values('豆瓣评分',ascending=False).head()

假如豆瓣评分超过9.5之,原来只是来少数管:

df[df['豆瓣评分']>9.5]

上榜次数最多之导演等:

df['导演'].value_counts()

重多分析,请参考:http://blog.csdn.net/yifei301/article/details/77529840?locationNum=3&fps=1

敏感如你,肯定做的于我再次好!

兄弟先行一步,补片去矣……

以上。

发表评论

电子邮件地址不会被公开。 必填项已用*标注