Delete '中国五百强公司信息爬取.py'

4 years ago · 7e8685b250
parent 183b2621ce
commit 7e8685b250
1 changed files with 0 additions and 100 deletions
--- a/中国五百强公司信息爬取.py
+++ b/中国五百强公司信息爬取.py
@ -1,100 +0,0 @@
-# -*- coding: utf-8 -*-
-"""
-Created on Sat May 21 21:38:27 2022
-
-@author: dell
-"""
-
-# 首先我们需要导入 requests 库
-import requests
-# 请求的url
-url = "https://top.chinaz.com/gongsi/index_zhuce.html"
-# 设置请求头信息
-headers = {
-    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/95.0.4638.69 Safari/537.36"
-}
-# 使用reqeusts模快发起 GET 请求
-response = requests.get(url, headers=headers)
-# 获取请求的返回结果
-html = response.text
-print(html)
-# 导入 re 模快
-import re
-# 使用 findall 函数来获取数据
-# 公司名
-company = re.findall('<a.*?target="_blank">(.+?)</a></h3>', html)
-
-#注册资本
-money=re.findall('<em>(.+?)</em>注册资本</div>', html)
-
-pageOne = list(zip(company,money))
-
-
-# 存储内容
-message = []
-# 总共16个页面的数据
-for page in range(17):
-    # 组装url
-    if page == 0:
-        url = "https://top.chinaz.com/gongsi/index_zhuce.html"
-    else:
-        url = "https://top.chinaz.com/gongsi/index_zhuce_{}.html".format(page + 1)
-    # 使用reqeusts模快发起 GET 请求
-    response = requests.get(url, headers=headers)
-    html = response.text
-    # 使用 findall 函数来获取数据
-    # 公司名
-    company = re.findall('<a.*?target="_blank">(.+?)</a></h3>', html)
-    money=re.findall('<em>(.+?)</em>注册资本</div>', html)
-   
-    pageOne = list(zip(company,money))
-    # 合并列表
-    message.extend(pageOne)
-
-
-
-# 导入python中的内置模块csv
-import csv
-with open("content.csv", "w") as f:
-    w = csv.writer(f)
-    w.writerows(message)
-    
-    
-import pandas as pd
-
-# 读取数据
-df = pd.read_csv("content.csv", names=["company",'money'],encoding='gbk')
-df.head()
-df.info()
-
-#数据预处理
-df['money']=df['money'].apply(lambda x:x.replace('亿','') )
-df['money']=df['money'].apply(lambda x: float(x) )
-#获取top20
-df1=df.sort_values(by='money',ascending=False)
-df2=df1.iloc[0:20]
-#数据可视化 绘制水平条形图
-import matplotlib.pyplot as plt
-x=df2['company']
-y=df2['money']
-plt.barh(x,y,height=0.8)
-for i,j in zip(x,y):
-      plt.text(j,i,j)
-plt.title('中国500强注册资金top20企业')
-plt.show()
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-
-