python3 爬取网页上的信息,并以sql格式显示(针对QQ/微信授权登录)

首先,需要先用Firefox浏览器登录目标网页,然后将cookies导出。

(导出可选用Firefox插件:Firebug)

 

导出的文件需要在首行进行声明:

1 # Netscape HTTP Cookie File

 

 【 针对于需要授权认证或者登录的网站,都可以利用cookies方法直接进入二级界面,并进行爬取/post 】

 

 1 #以我爬取学校表白墙信息为例
 2 import http.cookiejar
 3 import requests
 4 from bs4 import BeautifulSoup
 5 from prettytable import PrettyTable
 6 
 7 cookie = http.cookiejar.MozillaCookieJar()
 8 cookie.load('cookies.txt', ignore_discard=True, ignore_expires=True)
 9 y = requests.get("http://zzu.superdaxue.com/Expresswall",cookies=cookie)
10 y.encoding = 'utf-8'
11 soup = BeautifulSoup(y.text,'html.parser')
12 zzu  = PrettyTable(["dear","content"])
13 for yzc in soup.select('.MessageBox'):
14     c = yzc.select('.Message')[0].text
15     z = yzc.select('.movieName')[0].text
16     z = z.strip()
17     c = c.strip()
18     zzu.add_row([z,c])
19     print(zzu)

 

如需详解,请留言

posted @ 2017-06-12 11:28  投以木瓜  阅读(176)  评论(0)    收藏  举报