添加

4 years ago · 012a66d2a8
parent e054f0d58f
commit 012a66d2a8
1 changed files with 77 additions and 0 deletions
--- a/SpiderWebsite/demo/views.py
+++ b/SpiderWebsite/demo/views.py
@ -207,3 +207,80 @@ def word_cloud(request):
 # 从这里写你们的爬虫函数,例：
 # def spider_fun(url, web_name):
 #     pass
+
+from bs4 import BeautifulSoup
+import urllib.request,urllib.error      #这里用urllib库实现requests库功能
+import os
+import re
+import pandas as pd
+
+#正则提取信息
+#findLink = re.compile(r'href="(.*?)"')      #提取网址
+findTitle = re.compile(r'target="_blank">(.*?)</a>')    #提取标题
+findPrice = re.compile(r'<span class="highlight">(.*?)</span>')     #提取价格
+findTag = re.compile(r'/" target="_blank">(.*?)</a></div>')     #提取商品类型
+findPlace = re.compile(r'<div class="ad-item-detail">(.*?)</div>')      #提取地址
+
+def askURL(url):        #访问网站获取信息
+    head = {
+        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/90.0.4430.212 Safari/537.36'
+}
+    request = urllib.request.Request(url,headers=head)
+    html = ""
+    try:
+        response = urllib.request.urlopen(request)
+        html = response.read().decode('utf-8')
+        #print(html)        #test
+    except urllib.error.URLError as e:
+        if hasattr(e,'code'):
+            print(e.code)
+        if hasattr(e,'reason'):
+            print(e.reason)
+    return html
+
+def getData(baseurl):       #提取需要的信息
+    datalist = []
+    for i in range(1,4): #调用访问网站函数，访问每一页的信息,这里只访问了几页
+        url = baseurl + str(i)
+        html = askURL(url)
+
+        soup = BeautifulSoup(html,"html.parser")
+        for item in soup.find_all('div',class_="media-body"):     #提取信息
+            #print(item)        #test
+            data = []
+
+            item = str(item)
+            title = re.findall(findTitle,item)[0]
+            link = re.findall(findPlace,item)[0]
+            price = re.findall(findPrice,item)[0]
+            tag = re.findall(findTag,item)[0]
+
+            data.append(title)
+            data.append(link)
+            data.append(price)
+            data.append(tag)
+            datalist.append(data)
+
+    return datalist
+
+def saveData(savepath,datalist,web_name):     #保存文件
+    name = ["标题","地址","价格","类型"]
+    file = pd.DataFrame(columns=name,data=datalist)     #整合表头和数据
+    file.to_csv(savepath+'/lyh_tiaozaomarket.csv')       #保存至当前路径，命名为xxx.csv
+    print('已保存%s信息' % web_name)
+
+
+'''---------代码开始的地方---------'''
+
+def begin_spider(url, web_name):
+    savepath = os.getcwd()      #获取当前路径作为保存路径
+    datalist = getData(url)
+    saveData(savepath,datalist,web_name)
+
+def main():
+    url='https://guilin.baixing.com/ershou/?page='
+    web_name='桂林百姓网二手市场'
+    begin_spider(url, web_name)
+
+if __name__ == "__main__":
+    main()