小毅i

2020年2月19日

摘要：逻辑流程首先是些主要参数, 其中有需要爬取的站点链接, headers, Queue的关闭时间, 和内容界面的线程抓取数量 index = 'https://www.chazidian.com' list_page = index + '/xiaohua{}/{}' headers = { 'Us 阅读全文

posted @ 2020-02-19 15:37 小毅i 阅读(218) 评论(0) 推荐(0)

2019年8月22日

登录cookies

摘要： cookie Cookie 是指某些网站服务器为了辨别用户身份和进行Session跟踪，而储存在用户浏览器上的文本文件，Cookie可以保持登录信息到用户下次与服务器的会话。/p> cookie如何工作当你第一次访问某个网站的时候，服务器会给你颁发一个特定的cookie,之后你每次访问这个站点，你阅读全文

posted @ 2019-08-22 21:48 小毅i 阅读(1747) 评论(0) 推荐(0)

2019年8月19日

爬取某电影网站新

摘要：主类数据库类重点网站抓取完后,我通过各种途径了解了一下这种网站的视频来源, 结果发现有个专门的采集网站, 来采集这些视频, 这种网站就是空壳, 只是存储采集网站的视频链接, 如果最开始就知道采集网站的话, 就不用这么麻烦了[捂脸哭] 阅读全文

posted @ 2019-08-19 14:32 小毅i 阅读(871) 评论(0) 推荐(0)

2019年8月2日

csdn论坛页抓取

摘要：抓取csdn论坛实现功能获取论坛分类所有链接,并拼接成推荐精华页的完成的链接获取推荐精华页的帖子状态,赏分,帖子标题,作者,发布时间,回复量,查看量,最后发表时间置顶内容不爬取,只打印置顶内容的帖子标题,作者信息和帖子链接跳过没有内容的版块,并打印出来把获取到的内容添加到数据库未实现功阅读全文

posted @ 2019-08-02 11:18 小毅i 阅读(323) 评论(0) 推荐(0)

2019年7月31日

str类型转json,str类型转list

摘要： python str类型与json格式转换或者list格式转换 str转list: str转json: list转str: json转str: 可能遇到的问题阅读全文

posted @ 2019-07-31 10:04 小毅i 阅读(2110) 评论(0) 推荐(0)

2019年7月29日

peewee

摘要：字段查看http://docs.peewee-orm.com/en/latest/peewee/models.html#fields 方法使用https://blog.csdn.net/qq_39620483/article/details/87340666 阅读全文

posted @ 2019-07-29 16:47 小毅i 阅读(147) 评论(0) 推荐(0)

2019年7月28日

xpath

摘要： 1.安装 2.xpath简介 xpath可以使用路径表达式在xml和html中导航 xpath包含标准函数库 xpath是w3c标准的主要元素,并且XQuery和XPointer都构建 XPath表达之上 3.xpath语法 https://www.w3school.com.cn/xpath/ind 阅读全文

posted @ 2019-07-28 16:12 小毅i 阅读(303) 评论(0) 推荐(0)

bs4-BeautifulSoup

摘要： 1.BeautifulSoup下载 2.BeautifulSoup支持的解析器 Python的内置标准库执行速度适中文档容错能力强 Python 2.7.3 or 3.2.2)前的版本中文档容错能力差速度快文档容错能力强需要安装C语言库 BeautifulSoup(markup, ["l 阅读全文

posted @ 2019-07-28 15:39 小毅i 阅读(462) 评论(0) 推荐(1)

2019年7月18日

python正则表达式

摘要：正则表达式使用re模块正则表达式使用re模块常用字符 . 匹配除换行符（\n）以外的任意字符 \w 匹配字母或数字或下划线或汉字0-9、a-z、A-Z、_（下划线）、汉字和其他国家的语言符号 \W 匹配非字母或数字或下划线或汉字 \s 匹配任意空白字符 \S 匹配任意非空白字符 \d 匹配数阅读全文

posted @ 2019-07-18 14:44 小毅i 阅读(399) 评论(0) 推荐(0)

爬取某电影网站(未写完)

摘要： 1 import requests 2 import bs4 3 import lxml 4 import re 5 import time 6 from bs4 import BeautifulSoup 7 #网站 8 url = 'https://www.88ys.cc' 9 #电影或电视剧的名阅读全文

posted @ 2019-07-18 10:35 小毅i 阅读(12367) 评论(1) 推荐(0)

多理解，不死记硬背；多实践，不纸上谈兵。

公告