随笔分类 -  Python scrapy

摘要:1. 在使用scrapy编写爬虫的时候遇到这样的错误 解决方法: 在setting.py中添加: 阅读全文
posted @ 2017-02-09 21:13 someOneHan 阅读(163) 评论(0) 推荐(0)
摘要:今天开始scrapy的学习,环境 ubuntu 16.04 python3.5 1. 创建scrapy爬虫工程 通过终端进入要放置爬虫的文件夹,在我的环境中 ~/PycharmProjects/ScrapyWord/tutorial 使用命令:scrapy startproject tutorial 阅读全文
posted @ 2017-01-17 15:34 someOneHan 阅读(641) 评论(0) 推荐(0)
摘要:1. 安装ubuntu base文件 sudo apt-get install python-dev python-pip libxml2-dev libxslt1-dev zlib1g-dev libffi-dev libssl-dev 2. 安装python3依赖包 sudo apt-get i 阅读全文
posted @ 2017-01-17 10:18 someOneHan 阅读(201) 评论(0) 推荐(0)
摘要:下载媒体文件 I 使用urllib.request.urlretrieve方法可以下载文件存为指定文件 from urllib.request import urlretrieve from urllib.request import urlopen from bs4 import Beautifu 阅读全文
posted @ 2017-01-03 14:16 someOneHan 阅读(249) 评论(0) 推荐(0)
摘要:爬遍整个网络 1 当我们访问整个网络的时候,我们不可避免的会访问不同的网站,但是不同的网站会有完全不同的结构和内容... 现在一步一步的构建访问整个网络的脚本 I 从一个网站开始,每一次都爬向不同的网站。如果在一个页面找不到指向其他网站的链接,获取本网站其他界面信息,直到找到其他网站的链接。 # - 阅读全文
posted @ 2016-12-29 18:33 someOneHan 阅读(371) 评论(0) 推荐(0)
摘要:爬遍整个域名 六度空间理论:任何两个陌生人之间所间隔的人不会超过六个,也就是说最多通过五个人你可以认识任何一个陌生人。通过维基百科我们能够通过连接从一个人连接到任何一个他想连接到的人。 1. 获取一个界面的所有连接 1 from urllib.request import urlopen 2 fro 阅读全文
posted @ 2016-12-29 11:21 someOneHan 阅读(179) 评论(0) 推荐(0)
摘要:python 爬虫 Advanced HTML Parsing 1. 通过属性查找标签:基本上在每一个网站上都有stylesheets,针对于不同的标签会有不同的css类于之向对应在我们看到的标签可能是像下面这样的 <span class="green" ></span> <span class=" 阅读全文
posted @ 2016-12-28 16:10 someOneHan 阅读(222) 评论(0) 推荐(0)
摘要:1. 一次简单的网页访问 urllib 是一个标准的python库(意味着不需要安装任何附件的东西来运行这个demo),包含了通过网络请求数据的方法,处理cookies,甚至更改metadata比如headers和用户代理。 urlopen 这个方法用来通过网络访问远程数据,就是发送一个get请求到 阅读全文
posted @ 2016-12-27 19:59 someOneHan 阅读(194) 评论(0) 推荐(0)