随笔分类 -  Python爬虫

Python XPath抓取小说《三国演义》 《三》 多线程简单实例
摘要:增加多线程抓取数据,增加url判断,若数据已抓取,不在重复抓取 (可参考URL管理器) 需要再添加上队列,否则全开 from lxml import etree import requests import time import os import random import urllib3 fr 阅读全文

posted @ 2020-01-20 17:49 星辰虎贲 阅读(517) 评论(0) 推荐(0)

Python XPath抓取小说《三国演义》 《二》
摘要:昨天的代码 可以达到爬虫的目的 但是效果不理想,容易中断, 今天做了改进 增加写入文本,判断是否创建多层文件夹,增加了随机headers 可以多爬一些内容 不过还是会中断... from lxml import etree import requests import time import os 阅读全文

posted @ 2020-01-20 13:13 星辰虎贲 阅读(500) 评论(0) 推荐(0)

Python XPath抓取小说《三国演义》《一》
摘要:from lxml import etree import requests """ 获取章节列表和地址 """ def getContents(): tagret = "https://www.kanunu8.com/files/old/2011/2447.html" req = requests 阅读全文

posted @ 2020-01-19 18:44 星辰虎贲 阅读(870) 评论(0) 推荐(0)

Python 爬虫学习路径
摘要:数据是创造和决策的原材料,高质量的数据都价值不菲。而利用爬虫,我们可以获取大量的价值数据,经分析可以发挥巨大的价值,比如: 豆瓣、知乎:爬取优质答案,筛选出各话题下热门内容,探索用户的舆论导向。 淘宝、京东:抓取商品、评论及销量数据,对各种商品及用户的消费场景进行分析。 搜房、链家:抓取房产买卖及租 阅读全文

posted @ 2020-01-19 17:23 星辰虎贲 阅读(410) 评论(0) 推荐(0)

Python爬虫练习:抓取笔趣阁小说(一)
摘要:练习使用requests BeautifulSoup 抓取一本小说存放到D盘中 速度比较慢、抓取服务器容易中断 # -*- coding:UTF-8 -*- import requests from bs4 import BeautifulSoup import re """ 获取书籍目录 """ 阅读全文

posted @ 2020-01-19 14:22 星辰虎贲 阅读(2289) 评论(0) 推荐(0)

导航