Go to file

hnu202111020118 761b21ad22 ADD file via upload		4 years ago
数据分析结果	ADD file via upload	4 years ago
README.md	Update README.md	4 years ago
data analyze.py	Update data analyze.py	4 years ago
douban top250.xls	爬取结果	4 years ago
spider.py	Update spider.py	4 years ago

README.md

Unescape Escape

top250

本项目是针对于豆瓣网top250电影信息经行爬取与分析。

项目共包含两个主体文件： spyder.py data analyze.py

说明: 在 spyder.py 文件中，使用了 re time xlwt random urllib etree parse BeautifulSoup 经行数据的爬取与清洗。爬取结果为 douban top250.xls ，以表格形式呈现。在 data analyze.py 文件中，使用了 pandas options Bar 进行数据可视化。可视化结果在数据分析结果文件夹内，以 html 的形式展现。因为豆瓣网的反爬机制，且没有高质量的免费ip代理，该爬虫文件运行时间较长。

使用方法: 直接运行即可