摘要: 使用os.path模块方法介绍 1. 扫描标准库目录 I 通过glob模块遍历一个目录下面的所有文件,glob接收shell中常用文件名模式语法:“?”代表任何单个字符,*代表任意字符 1 import glob 2 import os 3 import sys 4 5 dirname = '/us 阅读全文
posted @ 2016-12-29 20:43 someOneHan 阅读(242) 评论(0) 推荐(0) 编辑
摘要: 爬遍整个网络 1 当我们访问整个网络的时候,我们不可避免的会访问不同的网站,但是不同的网站会有完全不同的结构和内容... 现在一步一步的构建访问整个网络的脚本 I 从一个网站开始,每一次都爬向不同的网站。如果在一个页面找不到指向其他网站的链接,获取本网站其他界面信息,直到找到其他网站的链接。 # - 阅读全文
posted @ 2016-12-29 18:33 someOneHan 阅读(354) 评论(0) 推荐(0) 编辑
摘要: 爬遍整个域名 六度空间理论:任何两个陌生人之间所间隔的人不会超过六个,也就是说最多通过五个人你可以认识任何一个陌生人。通过维基百科我们能够通过连接从一个人连接到任何一个他想连接到的人。 1. 获取一个界面的所有连接 1 from urllib.request import urlopen 2 fro 阅读全文
posted @ 2016-12-29 11:21 someOneHan 阅读(168) 评论(0) 推荐(0) 编辑