会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
springionic
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
下一页
2019年7月2日
多线程爬取糗事百科热门段子 (改写前天的博客)
摘要: 利用多线程爬取,除了先前用到的几个模块之外,还需用到threading模块和queue模块: 为每一件事情开启一个线程:构造url_list、发送请求、提取数据、保存数据 __init__方法添加三个实例属性队列分别存放:url、响应内容、处理后的数据 改写原先每一个方法里的代码,需要的东西直接从队
阅读全文
posted @ 2019-07-02 18:01 springionic
阅读(295)
评论(0)
推荐(0)
2019年7月1日
实现爬虫的一般思路
摘要: Markdown:
阅读全文
posted @ 2019-07-01 17:38 springionic
阅读(312)
评论(0)
推荐(0)
爬取糗事百科热门段子的数据并保存到本地,xpath的使用
摘要: 和之前的爬虫类博客的爬取思路基本一致: 构造url_list,因为糗事百科的热门栏目默认是13页,所以这个就简单了 遍历发送请求获取响应 提取数据,这里用的是xpath提取,用的是Python的第三方模块lxml 保存数据到本地 爬取的数据有:段子内容、作者性别、作者年龄、作者头像的地址、被标记为好
阅读全文
posted @ 2019-07-01 17:04 springionic
阅读(444)
评论(0)
推荐(0)
2019年6月30日
正则爬取某段子网站前20页段子(request库)
摘要: 首先还是谷歌浏览器抓包对该网站数据进行分析,结果如下: 该网站地址:http://www.budejie.com/text 该网站数据都是通过html页面进行展示,网站url默认为第一页,http://www.budejie.com/text/2为第二页,以此类推 对网站的内容段子所处位置进行分析,
阅读全文
posted @ 2019-06-30 16:45 springionic
阅读(403)
评论(0)
推荐(0)
2019年6月29日
requests库爬取豆瓣热门国产电视剧数据并保存到本地
摘要: 首先要做的就是去豆瓣网找对应的接口,这里就不赘述了,谷歌浏览器抓包即可,然后要做的就是分析返回的json数据的结构: https://movie.douban.com/j/search_subjects?type=tv&tag=%E5%9B%BD%E4%BA%A7%E5%89%A7&sort=rec
阅读全文
posted @ 2019-06-29 19:01 springionic
阅读(1291)
评论(0)
推荐(0)
2019年6月26日
Python字典推导式将cookie字符串转化为字典
摘要: Python中的列表推导式一般是大家所熟悉的,可以极大的简洁代码;而Python中的字典推导式和列表推导式也是大同小异的 cookie: PHPSESSID=et4a33og7nbftv60j3v9m86cro; Hm_lvt_51e3cc975b346e7705d8c255164036b3=156
阅读全文
posted @ 2019-06-26 21:50 springionic
阅读(2541)
评论(0)
推荐(0)
2019年6月25日
爬取百度贴吧前1000页内容(requests库面向对象思想实现)
摘要: 此程序以李毅吧为例子,以面向对象的设计思想实现爬取保存网页数据,暂时并未用到并发处理,以后有机会的话会加以改善 首先去百度贴吧分析贴吧地址栏中url后的参数,找到分页对应的参数pn,贴吧名字对应的参数kw 首先创建类,写好__init__方法,run方法,__init__方法里先可以直接写pass
阅读全文
posted @ 2019-06-25 20:04 springionic
阅读(349)
评论(0)
推荐(0)
牛客网:连续子数组的最大和
摘要: 题目描述 HZ偶尔会拿些专业问题来忽悠那些非计算机专业的同学。今天测试组开完会后,他又发话了:在古老的一维模式识别中,常常需要计算连续子向量的最大和,当向量全为正数的时候,问题很好解决。但是,如果向量中包含负数,是否应该包含某个负数,并期望旁边的正数会弥补它呢?例如:{6,-3,-2,7,-15,1
阅读全文
posted @ 2019-06-25 12:15 springionic
阅读(268)
评论(0)
推荐(0)
2019年6月6日
在字符串中找出第一个只出现一次的字符,Python实现
摘要: 要求: 1. 不能依赖库函数直接实现此功能,需使用基础的数据结构实现 2. 时间复杂度 O(n) 思路: 1. 用字典存储每个字符在字符串中出现的次数 2. 列表是有序的,用来存储字符的出现先后 3. 最后,从前向后遍历列表,找出第一个出现次数为1的字符,即为符合条件的字符
阅读全文
posted @ 2019-06-06 16:56 springionic
阅读(6087)
评论(0)
推荐(0)
2019年6月5日
关于时间日期的程序,主要datetime模块
摘要: 以每年的立春作为起始点,每N天为一个单元,任给一个日期,返回该日期所在单元的起始和结束日期。例如:N=3, 输入日期20180208,返回 20180207,20180209(2018年的立春是20180204,所以第一个单元是20180204-20180206,第二个单元是 20180207-20
阅读全文
posted @ 2019-06-05 21:59 springionic
阅读(394)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
下一页
公告