2020年1月20日

摘要: 增加多线程抓取数据,增加url判断,若数据已抓取,不在重复抓取 (可参考URL管理器) 需要再添加上队列,否则全开 from lxml import etree import requests import time import os import random import urllib3 fr 阅读全文
posted @ 2020-01-20 17:49 星辰虎贲 阅读(481) 评论(0) 推荐(0) 编辑
摘要: 昨天的代码 可以达到爬虫的目的 但是效果不理想,容易中断, 今天做了改进 增加写入文本,判断是否创建多层文件夹,增加了随机headers 可以多爬一些内容 不过还是会中断... from lxml import etree import requests import time import os 阅读全文
posted @ 2020-01-20 13:13 星辰虎贲 阅读(454) 评论(0) 推荐(0) 编辑

2020年1月19日

摘要: from lxml import etree import requests """ 获取章节列表和地址 """ def getContents(): tagret = "https://www.kanunu8.com/files/old/2011/2447.html" req = requests 阅读全文
posted @ 2020-01-19 18:44 星辰虎贲 阅读(789) 评论(0) 推荐(0) 编辑
摘要: 数据是创造和决策的原材料,高质量的数据都价值不菲。而利用爬虫,我们可以获取大量的价值数据,经分析可以发挥巨大的价值,比如: 豆瓣、知乎:爬取优质答案,筛选出各话题下热门内容,探索用户的舆论导向。 淘宝、京东:抓取商品、评论及销量数据,对各种商品及用户的消费场景进行分析。 搜房、链家:抓取房产买卖及租 阅读全文
posted @ 2020-01-19 17:23 星辰虎贲 阅读(389) 评论(0) 推荐(0) 编辑
摘要: 练习使用requests BeautifulSoup 抓取一本小说存放到D盘中 速度比较慢、抓取服务器容易中断 # -*- coding:UTF-8 -*- import requests from bs4 import BeautifulSoup import re """ 获取书籍目录 """ 阅读全文
posted @ 2020-01-19 14:22 星辰虎贲 阅读(2236) 评论(0) 推荐(0) 编辑

2020年1月16日

摘要: pip install win32api pip install pywin32 都会提示错误,如下: Could not find a version that satisfies the requirement win32api (from versions: )No matching dist 阅读全文
posted @ 2020-01-16 15:57 星辰虎贲 阅读(5417) 评论(0) 推荐(0) 编辑
摘要: pycharm多行删除问题:1、打开一个新的py文件,光标处于加粗状态,也就是编程软件经常出现的insert插入编辑模式,按insert按键,退出了这个模式。2、 选中几行文字,按“back space”键无法删除,只能一个一个删除再写 后来网上找资料,说是因为安装pycharm的时候勾选了vim, 阅读全文
posted @ 2020-01-16 15:52 星辰虎贲 阅读(923) 评论(0) 推荐(0) 编辑
摘要: 安装完wxPython 测试程序出错 No module named"wx" 因使用PyCharm 导致路径问题找不到 File->settings->Project Interpreter: 选择其他的解释器就行 阅读全文
posted @ 2020-01-16 15:46 星辰虎贲 阅读(3425) 评论(0) 推荐(0) 编辑
摘要: wxPython 官网 https://pypi.org/project/wxPython/ wxPython 安装 pip install wxPython (安装失败) 推荐豆瓣镜像 pip3 install -i https://pypi.douban.com/simple wxpython 阅读全文
posted @ 2020-01-16 15:22 星辰虎贲 阅读(622) 评论(0) 推荐(0) 编辑
摘要: 升级PIP python -m pip install --upgrade pip -i https://pypi.douban.com/simple C:\Users\dangzhengtao>python -m pip install --upgrade pip -i https://pypi. 阅读全文
posted @ 2020-01-16 15:11 星辰虎贲 阅读(363) 评论(0) 推荐(0) 编辑

导航