摘要: 爬遍整个网络 1 当我们访问整个网络的时候,我们不可避免的会访问不同的网站,但是不同的网站会有完全不同的结构和内容... 现在一步一步的构建访问整个网络的脚本 I 从一个网站开始,每一次都爬向不同的网站。如果在一个页面找不到指向其他网站的链接,获取本网站其他界面信息,直到找到其他网站的链接。 # - 阅读全文
posted @ 2016-12-29 18:33 someOneHan 阅读(354) 评论(0) 推荐(0) 编辑
摘要: 爬遍整个域名 六度空间理论:任何两个陌生人之间所间隔的人不会超过六个,也就是说最多通过五个人你可以认识任何一个陌生人。通过维基百科我们能够通过连接从一个人连接到任何一个他想连接到的人。 1. 获取一个界面的所有连接 1 from urllib.request import urlopen 2 fro 阅读全文
posted @ 2016-12-29 11:21 someOneHan 阅读(168) 评论(0) 推荐(0) 编辑
摘要: python 爬虫 Advanced HTML Parsing 1. 通过属性查找标签:基本上在每一个网站上都有stylesheets,针对于不同的标签会有不同的css类于之向对应在我们看到的标签可能是像下面这样的 <span class="green" ></span> <span class=" 阅读全文
posted @ 2016-12-28 16:10 someOneHan 阅读(209) 评论(0) 推荐(0) 编辑
摘要: 1. os path module 1. os.path.abspath(path):根据操作系统的不同返回地址的绝对路径。 2. os.path.basename(path):返回给定路径的最后的名称(无论是文件名称还是文件夹名称),这个值是split()方法返回的第二个值 3. os.path. 阅读全文
posted @ 2016-12-28 11:06 someOneHan 阅读(393) 评论(0) 推荐(0) 编辑
摘要: 1. 一次简单的网页访问 urllib 是一个标准的python库(意味着不需要安装任何附件的东西来运行这个demo),包含了通过网络请求数据的方法,处理cookies,甚至更改metadata比如headers和用户代理。 urlopen 这个方法用来通过网络访问远程数据,就是发送一个get请求到 阅读全文
posted @ 2016-12-27 19:59 someOneHan 阅读(185) 评论(0) 推荐(0) 编辑
摘要: 匿名函数和lambda: lambda [args1,[args2]] : expression python 使用lambda来创建匿名函数,匿名函数不需要以标准的方式进行创建,但是作为函数,它们也能有参数,一个完整的lambad语句代表了一个表达式,这个表达式的定义体和声明体必须在同一行。 1. 阅读全文
posted @ 2016-12-25 21:45 someOneHan 阅读(126) 评论(0) 推荐(0) 编辑
摘要: Queue:将数据从一个线程发往另外一个线程比较通用的方式是使用queue模块的Queue类 1, 首先创建一个Queue模块的对象,创建Queue对象可以传递maxsize也可以不传递 2. 使用对象的put和get函数用来添加和移除元素。 1 import _thread 2 import qu 阅读全文
posted @ 2016-12-25 19:34 someOneHan 阅读(265) 评论(0) 推荐(0) 编辑
摘要: 在学习了Event和Condition两个线程同步工具之后还有一个我认为比较鸡肋的工具 semaphores 1. 使用semaphores的使用效果和Condition的notify方法的效果基本相同。每次只能通知一个阻塞线程继续运行 2. 信号量同步基于内部计数器,每调用一次acquire(), 阅读全文
posted @ 2016-12-24 18:02 someOneHan 阅读(141) 评论(0) 推荐(0) 编辑
摘要: python 线程之 threading(三) http://www.cnblogs.com/someoneHan/p/6213100.html中对Event做了简单的介绍。 但是如果线程打算一遍一遍的重复通知某个事件。应该使用Condition 1. 使用Condition首先应该获取Condit 阅读全文
posted @ 2016-12-23 23:21 someOneHan 阅读(195) 评论(0) 推荐(0) 编辑
摘要: python 线程之 threading(一)http://www.cnblogs.com/someoneHan/p/6204640.html python 线程之 threading(二)http://www.cnblogs.com/someoneHan/p/6209240.html 使用thre 阅读全文
posted @ 2016-12-22 22:22 someOneHan 阅读(398) 评论(0) 推荐(0) 编辑