会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
小毅i
多理解,不死记硬背;多实践,不纸上谈兵。
博客园
首页
新随笔
联系
管理
订阅
2020年2月19日
70行代码爬取 查字典_笑话(多线程)
摘要: 逻辑流程 首先是些主要参数, 其中有需要爬取的站点链接, headers, Queue的关闭时间, 和内容界面的线程抓取数量 index = 'https://www.chazidian.com' list_page = index + '/xiaohua{}/{}' headers = { 'Us
阅读全文
posted @ 2020-02-19 15:37 小毅i
阅读(210)
评论(0)
推荐(0)
2019年8月22日
登录cookies
摘要: cookie Cookie 是指某些网站服务器为了辨别用户身份和进行Session跟踪,而储存在用户浏览器上的文本文件,Cookie可以保持登录信息到用户下次与服务器的会话。/p> cookie如何工作 当你第一次访问某个网站的时候,服务器会给你颁发一个特定的cookie,之后你每次访问这个站点,你
阅读全文
posted @ 2019-08-22 21:48 小毅i
阅读(1731)
评论(0)
推荐(0)
2019年8月19日
爬取某电影网站 新
摘要: 主类 数据库类 重点 网站抓取完后,我通过各种途径了解了一下这种网站的视频来源, 结果发现有个专门的采集网站, 来采集这些视频, 这种网站就是空壳, 只是存储采集网站的视频链接, 如果最开始就知道采集网站的话, 就不用这么麻烦了[捂脸哭]
阅读全文
posted @ 2019-08-19 14:32 小毅i
阅读(862)
评论(0)
推荐(0)
2019年8月2日
csdn论坛页抓取
摘要: 抓取csdn论坛 实现功能 获取论坛分类所有链接,并拼接成推荐精华页的完成的链接 获取推荐精华页的帖子状态,赏分,帖子标题,作者,发布时间,回复量,查看量,最后发表时间 置顶内容不爬取,只打印置顶内容的帖子标题,作者信息和帖子链接 跳过没有内容的版块,并打印出来 把获取到的内容添加到数据库 未实现功
阅读全文
posted @ 2019-08-02 11:18 小毅i
阅读(317)
评论(0)
推荐(0)
2019年7月31日
str类型转json,str类型转list
摘要: python str类型与json格式转换或者list格式转换 str转list: str转json: list转str: json转str: 可能遇到的问题
阅读全文
posted @ 2019-07-31 10:04 小毅i
阅读(2103)
评论(0)
推荐(0)
2019年7月29日
peewee
摘要: 字段查看http://docs.peewee-orm.com/en/latest/peewee/models.html#fields 方法使用https://blog.csdn.net/qq_39620483/article/details/87340666
阅读全文
posted @ 2019-07-29 16:47 小毅i
阅读(146)
评论(0)
推荐(0)
2019年7月28日
xpath
摘要: 1.安装 2.xpath简介 xpath可以使用路径表达式在xml和html中导航 xpath包含标准函数库 xpath是w3c标准的主要元素,并且XQuery和XPointer都构建 XPath表达之上 3.xpath语法 https://www.w3school.com.cn/xpath/ind
阅读全文
posted @ 2019-07-28 16:12 小毅i
阅读(300)
评论(0)
推荐(0)
bs4-BeautifulSoup
摘要: 1.BeautifulSoup下载 2.BeautifulSoup支持的解析器 Python的内置标准库 执行速度适中 文档容错能力强 Python 2.7.3 or 3.2.2)前 的版本中文档容错能力差 速度快 文档容错能力强 需要安装C语言库 BeautifulSoup(markup, ["l
阅读全文
posted @ 2019-07-28 15:39 小毅i
阅读(456)
评论(0)
推荐(1)
2019年7月18日
python正则表达式
摘要: 正则表达式 使用re模块 正则表达式 使用re模块 常用字符 . 匹配除换行符(\n)以外的任意字符 \w 匹配字母或数字或下划线或汉字0-9、a-z、A-Z、_(下划线)、汉字和其他国家的语言符号 \W 匹配非字母或数字或下划线或汉字 \s 匹配任意空白字符 \S 匹配任意非空白字符 \d 匹配数
阅读全文
posted @ 2019-07-18 14:44 小毅i
阅读(392)
评论(0)
推荐(0)
爬取某电影网站(未写完)
摘要: 1 import requests 2 import bs4 3 import lxml 4 import re 5 import time 6 from bs4 import BeautifulSoup 7 #网站 8 url = 'https://www.88ys.cc' 9 #电影或电视剧的名
阅读全文
posted @ 2019-07-18 10:35 小毅i
阅读(12308)
评论(1)
推荐(0)
公告