摘要: 逻辑流程 首先是些主要参数, 其中有需要爬取的站点链接, headers, Queue的关闭时间, 和内容界面的线程抓取数量 index = 'https://www.chazidian.com' list_page = index + '/xiaohua{}/{}' headers = { 'Us 阅读全文
posted @ 2020-02-19 15:37 小毅i 阅读(210) 评论(0) 推荐(0)
摘要: cookie Cookie 是指某些网站服务器为了辨别用户身份和进行Session跟踪,而储存在用户浏览器上的文本文件,Cookie可以保持登录信息到用户下次与服务器的会话。/p> cookie如何工作 当你第一次访问某个网站的时候,服务器会给你颁发一个特定的cookie,之后你每次访问这个站点,你 阅读全文
posted @ 2019-08-22 21:48 小毅i 阅读(1731) 评论(0) 推荐(0)
摘要: 主类 数据库类 重点 网站抓取完后,我通过各种途径了解了一下这种网站的视频来源, 结果发现有个专门的采集网站, 来采集这些视频, 这种网站就是空壳, 只是存储采集网站的视频链接, 如果最开始就知道采集网站的话, 就不用这么麻烦了[捂脸哭] 阅读全文
posted @ 2019-08-19 14:32 小毅i 阅读(862) 评论(0) 推荐(0)
摘要: 抓取csdn论坛 实现功能 获取论坛分类所有链接,并拼接成推荐精华页的完成的链接 获取推荐精华页的帖子状态,赏分,帖子标题,作者,发布时间,回复量,查看量,最后发表时间 置顶内容不爬取,只打印置顶内容的帖子标题,作者信息和帖子链接 跳过没有内容的版块,并打印出来 把获取到的内容添加到数据库 未实现功 阅读全文
posted @ 2019-08-02 11:18 小毅i 阅读(317) 评论(0) 推荐(0)
摘要: python str类型与json格式转换或者list格式转换 str转list: str转json: list转str: json转str: 可能遇到的问题 阅读全文
posted @ 2019-07-31 10:04 小毅i 阅读(2103) 评论(0) 推荐(0)
摘要: 字段查看http://docs.peewee-orm.com/en/latest/peewee/models.html#fields 方法使用https://blog.csdn.net/qq_39620483/article/details/87340666 阅读全文
posted @ 2019-07-29 16:47 小毅i 阅读(146) 评论(0) 推荐(0)
摘要: 1.安装 2.xpath简介 xpath可以使用路径表达式在xml和html中导航 xpath包含标准函数库 xpath是w3c标准的主要元素,并且XQuery和XPointer都构建 XPath表达之上 3.xpath语法 https://www.w3school.com.cn/xpath/ind 阅读全文
posted @ 2019-07-28 16:12 小毅i 阅读(300) 评论(0) 推荐(0)
摘要: 1.BeautifulSoup下载 2.BeautifulSoup支持的解析器 Python的内置标准库 执行速度适中 文档容错能力强 Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差 速度快 文档容错能力强 需要安装C语言库 BeautifulSoup(markup, ["l 阅读全文
posted @ 2019-07-28 15:39 小毅i 阅读(456) 评论(0) 推荐(1)
摘要: 正则表达式 使用re模块 正则表达式 使用re模块 常用字符 . 匹配除换行符(\n)以外的任意字符 \w 匹配字母或数字或下划线或汉字0-9、a-z、A-Z、_(下划线)、汉字和其他国家的语言符号 \W 匹配非字母或数字或下划线或汉字 \s 匹配任意空白字符 \S 匹配任意非空白字符 \d 匹配数 阅读全文
posted @ 2019-07-18 14:44 小毅i 阅读(392) 评论(0) 推荐(0)
摘要: 1 import requests 2 import bs4 3 import lxml 4 import re 5 import time 6 from bs4 import BeautifulSoup 7 #网站 8 url = 'https://www.88ys.cc' 9 #电影或电视剧的名 阅读全文
posted @ 2019-07-18 10:35 小毅i 阅读(12308) 评论(1) 推荐(0)