公告

随笔分类 - Spider

爬虫知识集合

摘要：Python写一个自动点餐程序为什么要写这个公司现在用meican作为点餐渠道，每天规定的时间是早7：00 9：40点餐，有时候我经常容易忘记，或者是在地铁/公交上没办法点餐，所以总是没饭吃，只有去楼下711买点饭团之类的玩意儿，所以这是促使我写点餐小程序的原因。点餐的流程登录点餐提交阅读全文

posted @ 2019-08-09 10:45 Yemilice 阅读(5370) 评论(0) 推荐(1)

BeautifulSoup ：功能使用

摘要：# -*- coding: utf-8 -*- ''' # Author : Solomon Xie # Usage : 测试BeautifulSoup一些用法及容易出bug的地方 # Enviroment: Python 2.7, Windows 7 (32bit), Chinese Langua 阅读全文

posted @ 2017-01-03 16:10 Yemilice 阅读(931) 评论(0) 推荐(0)

利用scrapy和MongoDB来开发一个爬虫

摘要：今天我们利用scrapy框架来抓取Stack Overflow里面最新的问题（），并且将这些问题保存到MongoDb当中，直接提供给客户进行查询。安装在进行今天的任务之前我们需要安装二个框架,分别是Scrapy (1.1.0)和pymongo (3.2.2). scrapy 如果你运行的的系统是阅读全文

posted @ 2016-12-26 18:19 Yemilice 阅读(318) 评论(0) 推荐(0)

Spider爬虫清洗数据（re方法）

摘要：import re s0 = 'BOY and GIRL' s1 = re.sub(r'BOY|GIRL', 'HUMAN', s0) print s1 # HUMAN and HUMAN 替换方法。阅读全文

posted @ 2016-12-23 23:28 Yemilice 阅读(1304) 评论(0) 推荐(0)

BeautifulSoup高级应用之 CSS selectors /CSS 选择器

摘要：BeautifulSoup支持最常用的CSS selectors，这是将字符串转化为Tag对象或者BeautifulSoup自身的.select()方法。本篇所使用的html为：举例，你可以这样搜索便签：另外，你也可以搜索在其他父标签内部的标签，即通过标签的所属关系寻找标签：可以直接寻找在其阅读全文

posted @ 2016-12-21 01:58 Yemilice 阅读(358) 评论(0) 推荐(0)

解决爬虫中文乱码问题

摘要：今天群里有个人反映某个网址爬出来的网页源代码出现中文乱码，我研究了半天，终于找到了解决方法。一开始，我是这样做的： import requests url = 'http://search.51job.com/jobsearch/search_result.php?fromJs=1&jobarea 阅读全文

posted @ 2016-12-20 01:23 Yemilice 阅读(21658) 评论(2) 推荐(3)

cookielib和urllib2模块相结合模拟网站登录

摘要：1.cookielib模块 cookielib模块的主要作用是提供可存储cookie的对象，以便于与urllib2模块配合使用来访问Internet资源。例如可以利用本模块的CookieJar类的对象来捕获cookie并在后续连接请求时重新发送。coiokielib模块用到的对象主要有下面几个：阅读全文

posted @ 2016-12-17 17:12 Yemilice 阅读(285) 评论(0) 推荐(0)

爬虫例子及知识点（scrapy知识点）

摘要：新知识：新建一个scrapy项目：scrapy startproject xxx(项目名称）运行一个scrapy项目：scrapy crawl xxx（项目名称）项目文件说明：文件说明： • scrapy.cfg 项目的配置信息，主要为Scrapy命令行工具提供一个基础的配置信息。（真正爬虫阅读全文

posted @ 2016-12-17 17:10 Yemilice 阅读(357) 评论(0) 推荐(0)

Xpath()语法

摘要：有朋友问我正则，，okey，其实我的正则也不好，但是python下xpath是相对较简单的简单了解一下xpath： XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。 XPath 是 W3C XSLT 标准的主要元素，并且 XQuery 阅读全文

posted @ 2016-12-17 17:10 Yemilice 阅读(357) 评论(0) 推荐(0)

yield和python（如何生成斐波那契數列）

摘要：您可能听说过，带有 yield 的函数在 Python 中被称之为 generator（生成器），何谓 generator ？我们先抛开 generator，以一个常见的编程题目来展示 yield 的概念。如何生成斐波那契數列斐波那契（Fibonacci）數列是一个非常简单的递归数列，除第一个阅读全文

posted @ 2016-12-17 17:08 Yemilice 阅读(613) 评论(0) 推荐(0)

Python3导入cookielib失败

摘要：Python 3 改成 http.cookiejar了，所以只要改成import http.cookiejar就自动导入cookiejar了，如果还是不行，就把所有的.pyc删掉试试。阅读全文

posted @ 2016-12-17 17:06 Yemilice 阅读(1563) 评论(0) 推荐(0)

使用Scrapy爬虫框架简单爬取图片并保存本地(妹子图）

摘要：初学Scrapy，实现爬取网络图片并保存本地功能一、先看最终效果保存在F:\pics文件夹下二、安装scrapy 1、python的安装就不说了，我用的python2.7，执行命令pip install scrapy，或者使用easy_install 命令都可以 2、可能会报如下错误 1 2 阅读全文

posted @ 2016-12-17 17:05 Yemilice 阅读(2108) 评论(0) 推荐(0)

python使用cookielib库示例分享

摘要：Python中cookielib库（python3中为http.cookiejar）为存储和管理cookie提供客户端支持,下面是使用示例该模块主要功能是提供可存储cookie的对象。使用此模块捕获cookie并在后续连接请求时重新发送，还可以用来处理包含cookie数据的文件。这个模块主要提供阅读全文

posted @ 2016-12-17 17:02 Yemilice 阅读(416) 评论(0) 推荐(0)

xpath中/和//的差别

摘要：xpath中 "/"是在子节点中查找，“//”是在所有子节点中查找，包括子节点的子节点。 example: leve1/leve2:得到文本leve2 leve1//leve2:可以得到所有leve2子节点的文本阅读全文

posted @ 2016-12-17 17:01 Yemilice 阅读(780) 评论(0) 推荐(0)

Xpath用法

摘要：在进行网页抓取的时候，分析定位html节点是获取抓取信息的关键，目前我用的是lxml模块(用来分析XML文档结构的，当然也能分析html结构)，利用其lxml.html的xpath对html进行分析，获取抓取信息;以下是关于xpath的一些基本用法: 在介绍XPath的匹配规则之前，我们先来看一些阅读全文

posted @ 2016-12-17 16:57 Yemilice 阅读(365) 评论(0) 推荐(0)

selenium 基本的键盘方法

摘要：今晚不想加班，于是赶紧回来看看书： 1.下了selenium的小工具：FireBug/FirePath。 2.确定了看书顺序，我觉得难度低点开始比较好，所以我还是先看基于Python的selenium，另一本书再看把，觉得自己能力还是太弱，还是从友好的先上手，虽然之前也看了BY_ID的一些用法，但是阅读全文

posted @ 2016-12-17 16:41 Yemilice 阅读(389) 评论(0) 推荐(0)

selenium.Phantomjs设置浏览器请求头

摘要：from selenium import webdriver from selenium.webdriver.common.desired_capabilities import DesiredCapabilities #设置浏览器请求头 dcap = dict(DesiredCapabilitie 阅读全文

posted @ 2016-12-17 16:37 Yemilice 阅读(4612) 评论(0) 推荐(0)