python3 爬取网页上的信息,并以sql格式显示(针对QQ/微信授权登录)
首先,需要先用Firefox浏览器登录目标网页,然后将cookies导出。
(导出可选用Firefox插件:Firebug)

导出的文件需要在首行进行声明:
1 # Netscape HTTP Cookie File
【 针对于需要授权认证或者登录的网站,都可以利用cookies方法直接进入二级界面,并进行爬取/post 】
1 #以我爬取学校表白墙信息为例 2 import http.cookiejar 3 import requests 4 from bs4 import BeautifulSoup 5 from prettytable import PrettyTable 6 7 cookie = http.cookiejar.MozillaCookieJar() 8 cookie.load('cookies.txt', ignore_discard=True, ignore_expires=True) 9 y = requests.get("http://zzu.superdaxue.com/Expresswall",cookies=cookie) 10 y.encoding = 'utf-8' 11 soup = BeautifulSoup(y.text,'html.parser') 12 zzu = PrettyTable(["dear","content"]) 13 for yzc in soup.select('.MessageBox'): 14 c = yzc.select('.Message')[0].text 15 z = yzc.select('.movieName')[0].text 16 z = z.strip() 17 c = c.strip() 18 zzu.add_row([z,c]) 19 print(zzu)
如需详解,请留言

浙公网安备 33010602011771号