Python学习笔记第27天

谏言:穷则独善其身,达则兼济天下

爬取笑话网分页数据

# 请求第三方库
import requests

# 数据第三方库
from pyquery import PyQuery as pq

def XiaoHua(page):
    url='http://xiaohua.zol.com.cn/youmo/'

    # 请求首页数据
    # text返回格式为文本
    response=requests.get(url).text

    # 数据提取
    # 初始化
    doc=pq(response)
    # .article-summary 这个是类选择器获取数据
    # .item返回查询集

    # data = doc('.article-commentbar.articleCommentbar.clearfix a').items()
    data = doc('.article-title a').items()

    #循环 遍历
    for i in data:
        # 通过属性获取数据
        # print(i.attr('href'))
        forms=i.attr('href')

        #提取到详情页面的后缀进行拼接
        # urls = 'http://xiaohua.zo1.com.cn' + ' 数据提取出来的后缀
        urls = 'http://xiaohua.zol.com.cn' + forms
        print(urls)

        # 请求详情页页面请求
        datails_page=requests.get(urls).text
        # 详情页数据提取
        details_doc=pq(datails_page)

        # .通过类型类选取来获取数据
        # text()去除标签变成文本数据数据提取
        article_text = details_doc('.article-text').text()
        print(article_text)

page=int(input('请输入你要抓取的页数:'))
for i in range(1,page):
    XiaoHua(i)

 

.......

 

posted @ 2020-05-07 00:06  过气诗人  阅读(136)  评论(0)    收藏  举报