摘要: 写在前面 题目所说的并不是目的,主要是为了更详细的了解网站的反爬机制,如果真的想要提高博客的阅读量,优质的内容必不可少。 了解网站的反爬机制 一般网站从以下几个方面反爬虫: 1. 通过Headers反爬虫 从用户请求的Headers反爬虫是最常见的反爬虫策略。很多网站都会对Headers的User 阅读全文
posted @ 2016-07-15 11:36 Data&Truth 阅读(7107) 评论(8) 推荐(8) 编辑
摘要: 准备工作 为了确保类是新型类,应该把 _metaclass_=type 入到你的模块的最开始。 在这个两个类中NewType是新类,OldType是属于旧类,如果前面加上 _metaclass_=type ,那么两个类都属于新类。 构造方法 构造方法与其的方法不一样,当一个对象被创建会立即调用构造方 阅读全文
posted @ 2016-06-16 09:34 Data&Truth 阅读(616) 评论(0) 推荐(0) 编辑
摘要: |- Django版本:1.8 |- Python版本:3.4 阅读全文
posted @ 2016-06-15 22:01 Data&Truth 阅读(1475) 评论(0) 推荐(0) 编辑
摘要: 正在发愁怎么调试Django,就遇到了Django Debug Toolbar这个利器。 先说遇到的问题: 网上也有教程,不过五花八门的,挨个尝试了一遍,也没有成功运行。最后终于找到问题所在: 从开发服务器日志可知:在请求页面时,debug_toolbar已经被加载。但是并没有在页面上显示出来: 从 阅读全文
posted @ 2016-05-18 22:02 Data&Truth 阅读(2815) 评论(1) 推荐(0) 编辑
摘要: 写在前面 这次的爬虫是关于房价信息的抓取,目的在于练习10万以上的数据处理及整站式抓取。 数据量的提升最直观的感觉便是对函数逻辑要求的提高,针对Python的特性,谨慎的选择数据结构。以往小数据量的抓取,即使函数逻辑部分重复,I/O请求频率密集,循环套嵌过深,也不过是1~2s的差别,而随着数据规模的 阅读全文
posted @ 2016-05-06 21:57 Data&Truth 阅读(10249) 评论(9) 推荐(9) 编辑
摘要: 有时候因为出差,突然急需处理一批数据。虽然写好的脚本存储在云端随用随取,然而编译的环境还需要重新搭建,模块也需要重新装载,从头到尾这么一遍下来,也是要花费可观的时间成本的。 有没有什么办法,可以让.py文件像可执行文件那样即点即用? py2exe模块 py2exe,顾名思义,就是将.py文件转换成可 阅读全文
posted @ 2016-04-29 22:14 Data&Truth 阅读(38486) 评论(4) 推荐(5) 编辑
摘要: 1.基本方法 urllib.request.urlopen(url, data=None, [timeout, ]*, cafile=None, capath=None, cadefault=False, context=None) - url: 需要打开的网址 - data:Post提交的数据 - 阅读全文
posted @ 2016-04-29 17:34 Data&Truth 阅读(129369) 评论(6) 推荐(17) 编辑
摘要: 写在前面 不同的语言,有它们各自擅长的应用场景,选择一门适合自己的语言需要勇气与毅力。 而当你下定决心要在甄选的语言上一条道走到黑的时候,孰不知,选择才刚刚开始。 一门编程语言往往有许多分支,每一个分支都需要掌握不同的技能,我们时常会感到困惑:怎么才能较为准确的分配技能点? 需求决定选择,从招聘方的 阅读全文
posted @ 2016-04-29 09:59 Data&Truth 阅读(5745) 评论(18) 推荐(12) 编辑
摘要: 学习Python也有一段时间了,各种理论知识大体上也算略知一二了,今天就进入实战演练:通过Python来编写一个拉勾网薪资调查的小爬虫。 第一步:分析网站的请求过程 我们在查看拉勾网上的招聘信息的时候,搜索Python,或者是PHP等等的岗位信息,其实是向服务器发出相应请求,由服务器动态的响应请求, 阅读全文
posted @ 2016-04-06 08:36 Data&Truth 阅读(12953) 评论(24) 推荐(16) 编辑