From d18ffa08a22a11b5dfda7849e0d988e4a733aa3a Mon Sep 17 00:00:00 2001 From: hnu202410040516 <3536704346@qq.com> Date: Wed, 21 May 2025 22:50:23 +0800 Subject: [PATCH] ADD file via upload --- grouptest.py | 21 +++++++++++++++++++++ 1 file changed, 21 insertions(+) create mode 100644 grouptest.py diff --git a/grouptest.py b/grouptest.py new file mode 100644 index 0000000..956d984 --- /dev/null +++ b/grouptest.py @@ -0,0 +1,21 @@ +import requests # 网页请求的库 +from bs4 import BeautifulSoup # 网页标签解析的库 +import pandas as pd # 用于数据分析,此处用于excel的持久化 +url = 'https://china.chinadaily.com.cn/5bd5639ca3101a87ca8ff636' # 将爬取的网址定义成一个变量 +rep = requests.get(url) # 用requests库请求定义好的网址 +rep.encoding = 'utf-8' # 网站编码设置 +html = rep.text # 获取网站源代码文本 +soup = BeautifulSoup(html, 'lxml') # 将代码转成bs4的对象,采用lxml的引擎 +divs = soup.find_all('div', class_='busBox3') # 获取标签和名称 +# print(divs) # 检验是否正确 +data = [] # 定义一个空列表 +for div in divs: + data_dict = {} # 定义一个空字典 + title = div.find('h3').text # 获取h3标签下的文本,即“标题” + dt = div.find('b').text # 获取b标签下的文本,即“发布时间” + data_dict['标题'] = title + data_dict['发布时间'] = dt # 将标题和时间添加到字典中 + data.append(data_dict) # print(title, dt) +df = pd.DataFrame(data) # 转换成一个pandas的对象 +df.to_excel('中国日报.xlsx', index=False) # 另存为excel,并持久化 +print(f'中国日报.xlsx 保存成功!') # 保存至表格当中 \ No newline at end of file