摘要: 上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能。 之前的内容就不再介绍了,不熟悉的请一定要去看之前的文章,代码是在之前的基础上修改的 "【图文详解】scrapy爬虫与动态页面——爬取拉勾网职 阅读全文
posted @ 2016-05-14 11:22 voidsky 阅读(2428) 评论(3) 推荐(1) 编辑
摘要: 写在开头 我之前在博客园没怎么发东西,就是觉得博客园的Markdown不支持实时预览,加上markdown显示出来的效果,主页皮肤效果总是觉得很奇怪不能让我满意。 但是我今天偶然发现,原来博客园是允许自定义样式的,我觉得我之前傻了。这点特别好,可以避免自己的博客和别人的雷同,可以个性化自己的主页,文 阅读全文
posted @ 2016-05-13 17:44 voidsky 阅读(12490) 评论(15) 推荐(29) 编辑
摘要: 看这篇文章前,我强烈建议你先把右侧分类下面python爬虫下面的其他文章看一下,至少看一下爬虫基础和scrapy的,不然可能有些东西不能理解 5-14更新 注意:目前拉勾网换了json结构,之前是`content` - `result` 现在改成了`content`- `positionResult 阅读全文
posted @ 2016-04-29 22:17 voidsky 阅读(7629) 评论(2) 推荐(4) 编辑
摘要: 写在开头 现在scrapy的安装教程都明显过时了,随便一搜都是要你安装一大堆的依赖,什么装python(如果别人连python都没装,为什么要学scrapy….)wisted, zope interface,pywin32………现在scrapy的安装真的很简单的好不好! 代码我放github上了,可 阅读全文
posted @ 2016-04-23 17:40 voidsky 阅读(1218) 评论(3) 推荐(0) 编辑
摘要: python爬虫实战——图片自动下载器 之前介绍了那么多基本知识【Python爬虫】入门知识,(没看的先去看!!)大家也估计手痒了。想要实际做个小东西来看看,毕竟: talk is cheap show me the code! 这个小工程的代码都在github上,感兴趣的自己去下载: https: 阅读全文
posted @ 2016-04-19 11:18 voidsky 阅读(1532) 评论(1) 推荐(0) 编辑
摘要: 爬虫基本知识 这阵子需要用爬虫做点事情,于是系统的学习了一下python爬虫,觉得还挺有意思的,比我想象中的能干更多的事情,这里记录下学习的经历。 网上有关爬虫的资料特别多,写的都挺复杂的,我这里不打算讲什么大道理,因为其实爬虫挺好理解的。就是下面一个流程: Created with Raphaël 阅读全文
posted @ 2016-04-14 20:58 voidsky 阅读(909) 评论(0) 推荐(0) 编辑
摘要: 固定链接404 固定链接是一个很重要的内容,wordpress默认的链接很复杂,也不利于搜索引擎搜索。wordpress也提供修改固定链接的功能,在设置里面【固定链接】修改。 但是,使用新浪sae的小伙伴就悲剧了,修改完后的,所有的文章都访问不到了,哭!! 解决方案 网上有很多解决方案都是nginx 阅读全文
posted @ 2016-11-03 16:28 voidsky 阅读(361) 评论(0) 推荐(0) 编辑
摘要: 说实话,再你熟悉了C C++ java python后再学js,总是会有无数错觉,总觉得它的语法像什么,又不太像。作为动态语言又没python那么简洁,里面很多语法借鉴了c和java的那套,但是又不像c那么严格。js是弱类型语言,而且还是有一些动态语言的灵活性在里面。 题记 如果带着之前学C++/j 阅读全文
posted @ 2016-09-17 11:31 voidsky 阅读(582) 评论(0) 推荐(2) 编辑
摘要: [TOC] html的文件结构 head head部分主要有:`、 阅读全文
posted @ 2016-09-17 11:09 voidsky 阅读(498) 评论(0) 推荐(1) 编辑
摘要: 上次挖了一个坑,今天终于填上了,还记得之前我们做的拉勾爬虫吗?那时我们实现了一页的爬取,今天让我们再接再厉,实现多页爬取,顺便实现职位和公司的关键词搜索功能。 之前的内容就不再介绍了,不熟悉的请一定要去看之前的文章,代码是在之前的基础上修改的 "【图文详解】scrapy爬虫与动态页面——爬取拉勾网职 阅读全文
posted @ 2016-05-14 11:22 voidsky 阅读(2428) 评论(3) 推荐(1) 编辑
摘要: 写在开头 我之前在博客园没怎么发东西,就是觉得博客园的Markdown不支持实时预览,加上markdown显示出来的效果,主页皮肤效果总是觉得很奇怪不能让我满意。 但是我今天偶然发现,原来博客园是允许自定义样式的,我觉得我之前傻了。这点特别好,可以避免自己的博客和别人的雷同,可以个性化自己的主页,文 阅读全文
posted @ 2016-05-13 17:44 voidsky 阅读(12490) 评论(15) 推荐(29) 编辑
摘要: 看这篇文章前,我强烈建议你先把右侧分类下面python爬虫下面的其他文章看一下,至少看一下爬虫基础和scrapy的,不然可能有些东西不能理解 5-14更新 注意:目前拉勾网换了json结构,之前是`content` - `result` 现在改成了`content`- `positionResult 阅读全文
posted @ 2016-04-29 22:17 voidsky 阅读(7629) 评论(2) 推荐(4) 编辑
摘要: cVim——Chrome上更强大的vim插件 介绍 也许很多人在chrome上都用过类似Vimium, ViChrome的插件,这些插件的目的都差不多,就是在浏览器中提供一些类似vim的操作来提高效率。但是大多这类的插件,实现的功能都比较单一化,实现了基本的浏览功能,但是不够强大。比如说 viusa 阅读全文
posted @ 2016-04-29 12:03 voidsky 阅读(9981) 评论(0) 推荐(2) 编辑
摘要: 作者:Hawstein 出处:http://hawstein.com/posts/make-thiner-programming-pearls.html 声明:本文采用以下协议进行授权: 自由转载-非商用-非衍生-保持署名|Creative Commons BY-NC-ND 3.0 ,转载请注明作者 阅读全文
posted @ 2016-04-28 22:04 voidsky 阅读(358) 评论(0) 推荐(0) 编辑
摘要: 作者:Hawstein 出处:http://hawstein.com/posts/dp-novice-to-advanced.html 声明:本文采用以下协议进行授权: 自由转载-非商用-非衍生-保持署名|Creative Commons BY-NC-ND 3.0 ,转载请注明作者及出处。 前言 我 阅读全文
posted @ 2016-04-28 22:02 voidsky 阅读(4077) 评论(1) 推荐(0) 编辑
摘要: 二叉堆 1 二叉堆的定义 堆是一个完全二叉树结构(除了最底下一层,其他层全是完全平衡的),如果每个结点都大于它的两个孩子,那么这个堆是有序的。 二叉堆是一组能够用堆有序的完全二叉树排序的元素,并在数组中按照层级存储(不用数组的第一个位置) 2 二叉堆的性质 最大的元素在a[1] (root结点) 每 阅读全文
posted @ 2016-04-28 21:27 voidsky 阅读(267) 评论(0) 推荐(0) 编辑