会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
小白羀号
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
9
下一页
2018年8月13日
爬虫_拉勾网(selenium)
摘要: 使用selenium进行翻页获取职位链接,再对链接进行解析 会爬取到部分空列表,感觉是网速太慢了,加了time.sleep()还是会有空列表 运行结果
阅读全文
posted @ 2018-08-13 10:38 MARK+
阅读(230)
评论(0)
推荐(0)
2018年8月12日
爬虫_拉勾网(解析ajax)
摘要: 拉勾网反爬虫做的比较严,请求头多添加几个参数才能不被网站识别 找到真正的请求网址,返回的是一个json串,解析这个json串即可,而且注意是post传值 通过改变data中pn的值来控制翻页 job_name读取的结果是一个列表 ['JAVA高级工程师、爬虫工程师'] ,而我只想得到里面的字符串,在
阅读全文
posted @ 2018-08-12 21:36 MARK+
阅读(1062)
评论(0)
推荐(0)
2018年8月11日
爬虫_古诗文网(队列,多线程,锁,正则,xpath)
摘要: 运行结果
阅读全文
posted @ 2018-08-11 17:51 MARK+
阅读(683)
评论(0)
推荐(0)
爬虫_斗图啦(队列,多线程)
摘要: 下载是相当快啊
阅读全文
posted @ 2018-08-11 14:15 MARK+
阅读(332)
评论(0)
推荐(0)
2018年8月10日
爬虫_斗图啦_表情包下载
摘要: 为下一个多线程练练手 不多说了,沙海开始了。
阅读全文
posted @ 2018-08-10 20:09 MARK+
阅读(715)
评论(0)
推荐(0)
2018年8月8日
正则表达式,时间戳和日期互相转换
摘要: 日期: [1-9]\d{3}-(0[1-9]|1[0-2])-(0[1-9]|[1-2][0-9]|3[0-1]) 时间: (20|21|22|23|[0-1]\d):[0-5]\d:[0-5]\d 时间戳 1970纪元后经过的浮点秒数 tm_wday; /* 星期 – 取值区间为[0,6],其中0
阅读全文
posted @ 2018-08-08 08:34 MARK+
阅读(5834)
评论(0)
推荐(0)
2018年8月6日
爬虫_糗事百科(正则表达式)
摘要: 这个链接的正则表达式感觉写的没问题啊,可是匹配不到东西,奇了怪了,先放着吧,xpath可以匹配到 运行结果
阅读全文
posted @ 2018-08-06 17:11 MARK+
阅读(345)
评论(0)
推荐(0)
爬虫_古诗文网(正则表达式)
摘要: 程序中请求到的和网页中内容不一样,但也是古诗,不是道是不是因为请求头的原因,使得网站推荐的古诗有差异 运行结果
阅读全文
posted @ 2018-08-06 11:46 MARK+
阅读(397)
评论(0)
推荐(0)
2018年8月5日
爬虫_中国天气网_文字天气预报(xpath)
摘要: 。。港澳台的格式不太一样,暂时不想管他们了 。。运行结果的话,我爬取得是当日白天的天气,现在晚上了,数据都没有了(一开始还以为是代码改错了,还一直撤销)
阅读全文
posted @ 2018-08-05 20:01 MARK+
阅读(1244)
评论(0)
推荐(0)
2018年8月4日
爬虫_腾讯招聘(xpath)
摘要: 和昨天一样的工作量,时间只用了一半,但还是效率有点低了,因为要把两个网页结合起来,所以在列表操作上用了好多时间 目前sublime还输入不了中文,所以把输出注释上,方便看清格式 运行结果: 红色圈出来的是一个字典,包含第一个网页的信息(职位名称,url,位置)和详情页面的职责(工作职责,工作要求),
阅读全文
posted @ 2018-08-04 14:22 MARK+
阅读(514)
评论(0)
推荐(0)
2018年8月3日
爬虫_电影天堂 热映电影(xpath)
摘要: 写了一天才写了不到100行。不过总归是按自己的思路完成了 运行结果:(选中的是一部电影, 一页中有25部电影,网站里一共有176页) 感受到了代码的魅力了吗
阅读全文
posted @ 2018-08-03 20:21 MARK+
阅读(859)
评论(0)
推荐(0)
2018年8月2日
爬虫_豆瓣全部正在热映电影 (xpath)
摘要: 单纯地练习一下xpath
阅读全文
posted @ 2018-08-02 18:18 MARK+
阅读(505)
评论(0)
推荐(0)
2018年8月1日
requests中 .text 和 .content区别
摘要: 1.response.content: 这个是直接从网络上面抓取的数据,没有经过任何解码,所以是一个bytes类型,其实在硬盘上和在网络上传输的字符串都是bytes类型 2.response.text: 这个是str的数据类型,是requests库将response.content进行解码的字符串,
阅读全文
posted @ 2018-08-01 15:24 MARK+
阅读(570)
评论(0)
推荐(0)
2018年7月28日
算法----(6)希尔排序
摘要: 希尔排序是希尔(Donald Shell)于1959年提出的一种排序算法。希尔排序也是一种插入排序,它是简单插入排序经过改进之后的一个更高效的版本,也称为缩小增量排序,同时该算法是冲破O(n2)的第一批算法之一 图片来源:https://www.cnblogs.com/chengxiao/p/610
阅读全文
posted @ 2018-07-28 22:59 MARK+
阅读(225)
评论(0)
推荐(0)
2018年7月27日
算法----(5)插入排序
摘要: 从第一个元素开始,该元素可以认为已经被排序 取出下一个元素,在已经排序的元素序列中从后向前扫描 如果该元素(已排序)大于新元素,将该元素移到下一位置 重复步骤3,直到找到已排序的元素小于或者等于新元素的位置 将新元素插入到该位置后 重复步骤2~5
阅读全文
posted @ 2018-07-27 21:40 MARK+
阅读(180)
评论(0)
推荐(0)
2018年7月25日
算法----(4)快速排序
摘要: 从图中我们可以看到: left指针,right指针,base参照数。 其实思想是蛮简单的,就是通过第一遍的遍历(让left和right指针重合)来找到数组的切割点。 第一步:首先我们从数组的left位置取出该数(20)作为基准(base)参照物。 第二步:从数组的right位置向前找,一直找到比(b
阅读全文
posted @ 2018-07-25 21:11 MARK+
阅读(385)
评论(0)
推荐(0)
2018年7月23日
验证码识别——图形验证码
摘要: 先找了一个简单的图形验证码进行测试,比如知网,从网页里把验证码下载到本地 进行简单的灰度处理和二值化处理,能够提高不少识别正确率 验证码: 代码: 结果: 如果没有灰度处理和二值化处理这个9就总识别错了
阅读全文
posted @ 2018-07-23 20:54 MARK+
阅读(1151)
评论(0)
推荐(0)
算法----(3)选择排序
摘要: 记录一趟中最大(小)元素,最后再进行交换 选择排序是不稳定的排序算法,不稳定发生在最小元素与A[i]交换的时刻。 比如序列:{ 5, 8, 5, 2, 9 },一次选择的最小元素是2,然后把2和第一个5进行交换,从而改变了两个元素5的相对次序
阅读全文
posted @ 2018-07-23 20:11 MARK+
阅读(171)
评论(0)
推荐(0)
2018年7月21日
算法----(2)鸡尾酒排序
摘要: 鸡尾酒排序,也叫定向冒泡排序,是冒泡排序的一种改进。此算法与冒泡排序的不同处在于从低到高然后从高到低,而冒泡排序则仅从低到高去比较序列里的每个元素。他可以得到比冒泡排序稍微好一点的效能。 python代码:
阅读全文
posted @ 2018-07-21 20:43 MARK+
阅读(292)
评论(0)
推荐(0)
算法----(1)冒泡排序
摘要: 通常所说的排序算法往往指的是内部排序算法,即数据记录在内存中进行排序。 排序算法大体可分为两种: 一种是比较排序,时间复杂度O(nlogn)~O(n^2),主要有:冒泡排序,选择排序,插入排序,归并排序,堆排序,快速排序 另一种是非比较排序,时间复杂度可以达到O(n),主要有:基数排序,基数排序,桶
阅读全文
posted @ 2018-07-21 20:07 MARK+
阅读(177)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
9
下一页
公告