摘要: 1. 在使用scrapy编写爬虫的时候遇到这样的错误 解决方法: 在setting.py中添加: 阅读全文
posted @ 2017-02-09 21:13 someOneHan 阅读(154) 评论(0) 推荐(0) 编辑
摘要: 今天开始scrapy的学习,环境 ubuntu 16.04 python3.5 1. 创建scrapy爬虫工程 通过终端进入要放置爬虫的文件夹,在我的环境中 ~/PycharmProjects/ScrapyWord/tutorial 使用命令:scrapy startproject tutorial 阅读全文
posted @ 2017-01-17 15:34 someOneHan 阅读(606) 评论(0) 推荐(0) 编辑
摘要: 1. 安装ubuntu base文件 sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev 2. 安装python3依赖包 sudo apt-get i 阅读全文
posted @ 2017-01-17 10:18 someOneHan 阅读(187) 评论(0) 推荐(0) 编辑
摘要: 比较目录间的差异: I 只按照名称做了比较,如果目录的文件名称相同,但是内容不同脚本认为为相同文件 II 针对目录下面的目录没有循环比较,只是比较了目录的名称 阅读全文
posted @ 2017-01-06 23:01 someOneHan 阅读(273) 评论(0) 推荐(0) 编辑
摘要: 1. 将一个目录树完全复制到另外一个目录下面 阅读全文
posted @ 2017-01-05 22:51 someOneHan 阅读(815) 评论(0) 推荐(0) 编辑
摘要: 1. 在python3中使用 import tkinter 异常:no module named _tkinter apt-get install python-tk 阅读全文
posted @ 2017-01-04 22:56 someOneHan 阅读(165) 评论(0) 推荐(0) 编辑
摘要: 1. 将大文件拆分为小文件 I 通过二进制的方式将大文件读取出来,将其拆分存,以不同的文件方式存放在一个目录下面 II 提供两种操作方式交互式和命令行模式 2 将拆分之后的文件重新合并 I 将拆分后的文件以二进制的方式读取,再以二进制的方式保存 II 提供两种操作方式交互式和命令行模式 阅读全文
posted @ 2017-01-03 22:13 someOneHan 阅读(420) 评论(0) 推荐(0) 编辑
摘要: 在伴随学习爬虫的过程中学习了解的一些基础库和方法总结扩展 1. urllib 在urllib.request module中定义下面的一些方法 urllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,capath=None,cadef 阅读全文
posted @ 2017-01-03 18:59 someOneHan 阅读(233) 评论(0) 推荐(0) 编辑
摘要: 下载媒体文件 I 使用urllib.request.urlretrieve方法可以下载文件存为指定文件 from urllib.request import urlretrieve from urllib.request import urlopen from bs4 import Beautifu 阅读全文
posted @ 2017-01-03 14:16 someOneHan 阅读(239) 评论(0) 推荐(0) 编辑
摘要: 使用os.path模块方法介绍 1. 扫描标准库目录 I 通过glob模块遍历一个目录下面的所有文件,glob接收shell中常用文件名模式语法:“?”代表任何单个字符,*代表任意字符 1 import glob 2 import os 3 import sys 4 5 dirname = '/us 阅读全文
posted @ 2016-12-29 20:43 someOneHan 阅读(242) 评论(0) 推荐(0) 编辑