ADD file via upload

2 years ago · e4f8dc1775
parent 4ccf264b8e
commit e4f8dc1775
1 changed files with 51 additions and 0 deletions
--- a/掌桥test01.py
+++ b/掌桥test01.py
@ -0,0 +1,51 @@
+import requests
+from bs4 import BeautifulSoup
+from urllib.request import quote
+import time
+
+
+f = open('huiyi_01.txt','w',encoding ='utf-8') #创建txt格式文件，方便等会存储
+#添加请求头，模拟浏览器正常访问，避免被反爬虫
+headers={
+    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/109.0.0.0 Safari/537.36'
+}
+time.sleep(5)
+# headers={'User-Agent：Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/109.0'}
+#爬取的数量
+for x in range(5):
+    url = 'https://www.zhangqiaokeyan.com/academic-conference-cn_1/'
+    res = requests.get(url, headers=headers)
+    # 查看是否能获取数据
+    print(res.status_code)
+
+    # 解析数据
+    bs1 = BeautifulSoup(res.text, 'html.parser')
+    list_titles = bs1.find_all('li', class_="list_item")
+    for i in list_titles:
+
+        # 标题
+        title = i.find('div', class_="itme_title").text
+        print(title)
+        f.write("题目："+title.strip()+'\t')
+
+        # 获取文章跳转链接
+        half_link = i.find('div', class_="itme_title").find('a')['href']
+        wholelink = 'http:' + str(half_link)
+        print(wholelink)
+        f.write("链接：" + wholelink.strip()+'\t')
+
+        # 获取主办单位
+        s1=i.select_one('.item_mid > span').text
+        print(s1)
+        f.write("举办单位：" + s1.strip()+'\t')
+
+        # 举办时间
+        time = i.select_one('.item_right > span').text
+        print(time)
+        f.write("时间：" + time.strip())
+
+        f.write('\n')
+
+f.close()
+
+