From 25967dac5868c7e71095505bc08666b898398a75 Mon Sep 17 00:00:00 2001 From: p2uavm3kl <2069762101@qq.com> Date: Fri, 2 Dec 2022 01:09:19 +0800 Subject: [PATCH] Update README.md --- README.md | 5 +++-- 1 file changed, 3 insertions(+), 2 deletions(-) diff --git a/README.md b/README.md index 30278bb..36671f8 100644 --- a/README.md +++ b/README.md @@ -1,6 +1,7 @@ # 项目概述 - 本项目基于selenium+scrapy-redis框架爬取bilibili网站的数据,通过研究网站使用的反爬虫技术,使用Selenium驱动浏览器模拟真人使用浏览器,在浏览器中加入cookie绕过登录并使用代理ip,爬取的数据使用mysql数据库进行存储,并对爬取的数据进行数据分析和可视化展示。 - 主要功能包括,爬取了bilibili网站的番剧信息,和包括番剧在内的所有视频的信息,包括播放量、收藏量和评论量等。并筛选出相对优秀的视频数据,进行可视化的展示。最后通过展示出的图表进行分析。 +本项目基于selenium+scrapy-redis框架爬取bilibili网站的数据,通过研究网站使用的反爬虫技术,使用Selenium驱动浏览器模拟真人使用浏览器,在浏览器中加入cookie绕过登录并使用代理ip,爬取的数据使用mysql数据库进行存储,并对爬取的数据进行数据分析和可视化展示。 + +主要功能包括,爬取了bilibili网站的番剧信息,和包括番剧在内的所有视频的信息,包括播放量、收藏量和评论量等。并筛选出相对优秀的视频数据,进行可视化的展示。最后通过展示出的图表进行分析。 关键字:selenium;scrapy-redis;cookie;代理ip;数据可视化;mysql数据库