You can not select more than 25 topics
Topics must start with a letter or number, can include dashes ('-') and can be up to 35 characters long.
|
|
4 years ago | |
|---|---|---|
| 数据分析结果 | 4 years ago | |
| README.md | 4 years ago | |
| data analyze.py | 4 years ago | |
| douban top250.xls | 4 years ago | |
| spider.py | 4 years ago | |
README.md
top250
本项目是针对于豆瓣网top250电影信息经行爬取与分析。
项目共包含两个主体文件: spyder.py data analyze.py
说明: 在 spyder.py 文件中,使用了 re time xlwt random urllib etree parse BeautifulSoup 经行数据的爬取与清洗。 爬取结果为 douban top250.xls ,以表格形式呈现。 在 data analyze.py 文件中,使用了 pandas options Bar 进行数据可视化。 可视化结果在 数据分析结果 文件夹内,以 html 的形式展现。 因为豆瓣网的反爬机制,且没有高质量的免费ip代理,该爬虫文件运行时间较长。
使用方法: 直接运行即可