摘要:增加多线程抓取数据,增加url判断,若数据已抓取,不在重复抓取 (可参考URL管理器) 需要再添加上队列,否则全开 from lxml import etree import requests import time import os import random import urllib3 fr
阅读全文
摘要:昨天的代码 可以达到爬虫的目的 但是效果不理想,容易中断, 今天做了改进 增加写入文本,判断是否创建多层文件夹,增加了随机headers 可以多爬一些内容 不过还是会中断... from lxml import etree import requests import time import os
阅读全文
摘要:from lxml import etree import requests """ 获取章节列表和地址 """ def getContents(): tagret = "https://www.kanunu8.com/files/old/2011/2447.html" req = requests
阅读全文
摘要:数据是创造和决策的原材料,高质量的数据都价值不菲。而利用爬虫,我们可以获取大量的价值数据,经分析可以发挥巨大的价值,比如: 豆瓣、知乎:爬取优质答案,筛选出各话题下热门内容,探索用户的舆论导向。 淘宝、京东:抓取商品、评论及销量数据,对各种商品及用户的消费场景进行分析。 搜房、链家:抓取房产买卖及租
阅读全文
摘要:练习使用requests BeautifulSoup 抓取一本小说存放到D盘中 速度比较慢、抓取服务器容易中断 # -*- coding:UTF-8 -*- import requests from bs4 import BeautifulSoup import re """ 获取书籍目录 """
阅读全文
摘要:pip install win32api pip install pywin32 都会提示错误,如下: Could not find a version that satisfies the requirement win32api (from versions: )No matching dist
阅读全文
摘要:pycharm多行删除问题:1、打开一个新的py文件,光标处于加粗状态,也就是编程软件经常出现的insert插入编辑模式,按insert按键,退出了这个模式。2、 选中几行文字,按“back space”键无法删除,只能一个一个删除再写 后来网上找资料,说是因为安装pycharm的时候勾选了vim,
阅读全文
摘要:安装完wxPython 测试程序出错 No module named"wx" 因使用PyCharm 导致路径问题找不到 File->settings->Project Interpreter: 选择其他的解释器就行
阅读全文
摘要:wxPython 官网 https://pypi.org/project/wxPython/ wxPython 安装 pip install wxPython (安装失败) 推荐豆瓣镜像 pip3 install -i https://pypi.douban.com/simple wxpython
阅读全文
摘要:升级PIP python -m pip install --upgrade pip -i https://pypi.douban.com/simple C:\Users\dangzhengtao>python -m pip install --upgrade pip -i https://pypi.
阅读全文
摘要:ImportError: No module named 'MySQLdb ImportError: No module named 'MySQLdb Python 2 和 3 的区别 pip install mysqlclient pip install
阅读全文
摘要:cmd 指令: #查看安装pip的版本 python -m pip --version #查看已经安装的库 pip list
阅读全文