Python爬虫 - 随笔分类 - 星辰虎贲

Python XPath抓取小说《三国演义》《三》多线程简单实例

摘要：增加多线程抓取数据，增加url判断，若数据已抓取，不在重复抓取（可参考URL管理器）需要再添加上队列,否则全开 from lxml import etree import requests import time import os import random import urllib3 fr 阅读全文

posted @ 2020-01-20 17:49 星辰虎贲阅读(517) 评论(0) 推荐(0)

Python XPath抓取小说《三国演义》《二》

摘要：昨天的代码可以达到爬虫的目的但是效果不理想，容易中断，今天做了改进增加写入文本，判断是否创建多层文件夹，增加了随机headers 可以多爬一些内容不过还是会中断... from lxml import etree import requests import time import os 阅读全文

posted @ 2020-01-20 13:13 星辰虎贲阅读(500) 评论(0) 推荐(0)

Python XPath抓取小说《三国演义》《一》

摘要：from lxml import etree import requests """ 获取章节列表和地址 """ def getContents(): tagret = "https://www.kanunu8.com/files/old/2011/2447.html" req = requests 阅读全文

posted @ 2020-01-19 18:44 星辰虎贲阅读(870) 评论(0) 推荐(0)

Python 爬虫学习路径

摘要：数据是创造和决策的原材料，高质量的数据都价值不菲。而利用爬虫，我们可以获取大量的价值数据，经分析可以发挥巨大的价值，比如：豆瓣、知乎：爬取优质答案，筛选出各话题下热门内容，探索用户的舆论导向。淘宝、京东：抓取商品、评论及销量数据，对各种商品及用户的消费场景进行分析。搜房、链家：抓取房产买卖及租阅读全文

posted @ 2020-01-19 17:23 星辰虎贲阅读(410) 评论(0) 推荐(0)

Python爬虫练习:抓取笔趣阁小说(一)

摘要：练习使用requests BeautifulSoup 抓取一本小说存放到D盘中速度比较慢、抓取服务器容易中断 # -*- coding:UTF-8 -*- import requests from bs4 import BeautifulSoup import re """ 获取书籍目录 """ 阅读全文

posted @ 2020-01-19 14:22 星辰虎贲阅读(2289) 评论(0) 推荐(0)

星辰虎贲

随笔分类 - Python爬虫

Python XPath抓取小说《三国演义》《三》多线程简单实例

Python XPath抓取小说《三国演义》《二》

Python XPath抓取小说《三国演义》《一》

Python 爬虫学习路径

Python爬虫练习:抓取笔趣阁小说(一)

公告

导航

星辰虎贲

随笔分类 - Python爬虫

Python XPath抓取小说《三国演义》 《三》 多线程简单实例

Python XPath抓取小说《三国演义》 《二》

Python XPath抓取小说《三国演义》《一》

Python 爬虫学习路径

Python爬虫练习:抓取笔趣阁小说(一)

公告

导航

Python XPath抓取小说《三国演义》《三》多线程简单实例

Python XPath抓取小说《三国演义》《二》