requests 简单爬虫

import requests

data = {

'name'：lllll，

'password'：12324

}

res = requests.post(url,data=data,verify=False) #verify=False解决SSL问题。这里得url写登录得action提交得地址。以便得到网站得cookie。

cookies = res.headers.get('Set-Cookie') #获取到cookies带着这个cookies去爬取要登陆得页面

res1 = requests.post(url1,data=data,cookies=cookies,verify=False)

return res1.text # res1.content response

解析返回得html文件

pyquery

pip install pyquery #安装

from pyquery import PyQuery

formdata = PyQuery(html) #实例化

data = formdata('input').val() #通过标签取值

解析返回得xml文件

import xml.etree.ElementTree as ET

per = ET.fromstring(xml) #解析xml片段，str格式。打开文件有另一个方法。

PAGE_JOB = per.find('PAGE_JOB')  #per标签下名为PAGE_JOB的标签。

for child in PAGE_JOB_ONE.getchildren():
    print child.tag,':',child.text  #打印出标签和标签里面的内容

posted on 2018-02-02 17:21 hello_xiaoyu 阅读(130) 评论(0) 收藏举报