From d18ffa08a22a11b5dfda7849e0d988e4a733aa3a Mon Sep 17 00:00:00 2001
From: hnu202410040516 <3536704346@qq.com>
Date: Wed, 21 May 2025 22:50:23 +0800
Subject: [PATCH] ADD file via upload

---
 grouptest.py | 21 +++++++++++++++++++++
 1 file changed, 21 insertions(+)
 create mode 100644 grouptest.py

diff --git a/grouptest.py b/grouptest.py
new file mode 100644
index 0000000..956d984
--- /dev/null
+++ b/grouptest.py
@@ -0,0 +1,21 @@
+import requests  # 网页请求的库
+from bs4 import BeautifulSoup  # 网页标签解析的库
+import pandas as pd  # 用于数据分析，此处用于excel的持久化
+url = 'https://china.chinadaily.com.cn/5bd5639ca3101a87ca8ff636'  # 将爬取的网址定义成一个变量
+rep = requests.get(url)  # 用requests库请求定义好的网址
+rep.encoding = 'utf-8'  # 网站编码设置
+html = rep.text  # 获取网站源代码文本
+soup = BeautifulSoup(html, 'lxml')  # 将代码转成bs4的对象，采用lxml的引擎
+divs = soup.find_all('div', class_='busBox3')  # 获取标签和名称
+# print(divs)  # 检验是否正确
+data = []  # 定义一个空列表
+for div in divs:
+    data_dict = {}  # 定义一个空字典
+    title = div.find('h3').text  # 获取h3标签下的文本，即“标题”
+    dt = div.find('b').text  # 获取b标签下的文本，即“发布时间”
+    data_dict['标题'] = title
+    data_dict['发布时间'] = dt  # 将标题和时间添加到字典中
+    data.append(data_dict)  # print(title, dt)
+df = pd.DataFrame(data)  # 转换成一个pandas的对象
+df.to_excel('中国日报.xlsx', index=False)  # 另存为excel，并持久化
+print(f'中国日报.xlsx 保存成功！')  # 保存至表格当中
\ No newline at end of file