摘要:Python写一个自动点餐程序 为什么要写这个 公司现在用meican作为点餐渠道,每天规定的时间是早7:00 9:40点餐,有时候我经常容易忘记,或者是在地铁/公交上没办法点餐,所以总是没饭吃,只有去楼下711买点饭团之类的玩意儿,所以这是促使我写点餐小程序的原因。 点餐的流程 登录 点餐 提交
阅读全文
随笔分类 - Spider
爬虫知识集合
摘要:Python写一个自动点餐程序 为什么要写这个 公司现在用meican作为点餐渠道,每天规定的时间是早7:00 9:40点餐,有时候我经常容易忘记,或者是在地铁/公交上没办法点餐,所以总是没饭吃,只有去楼下711买点饭团之类的玩意儿,所以这是促使我写点餐小程序的原因。 点餐的流程 登录 点餐 提交
阅读全文
摘要:# -*- coding: utf-8 -*- ''' # Author : Solomon Xie # Usage : 测试BeautifulSoup一些用法及容易出bug的地方 # Enviroment: Python 2.7, Windows 7 (32bit), Chinese Langua
阅读全文
摘要:今天我们利用scrapy框架来抓取Stack Overflow里面最新的问题(),并且将这些问题保存到MongoDb当中,直接提供给客户进行查询。 安装 在进行今天的任务之前我们需要安装二个框架,分别是Scrapy (1.1.0)和pymongo (3.2.2). scrapy 如果你运行的的系统是
阅读全文
摘要:import re s0 = 'BOY and GIRL' s1 = re.sub(r'BOY|GIRL', 'HUMAN', s0) print s1 # HUMAN and HUMAN 替换方法。
阅读全文
摘要:BeautifulSoup支持最常用的CSS selectors,这是将字符串转化为Tag对象或者BeautifulSoup自身的.select()方法。 本篇所使用的html为: 举例,你可以这样搜索便签: 另外,你也可以搜索在其他父标签内部的标签,即通过标签的所属关系寻找标签: 可以直接寻找在其
阅读全文
摘要:今天群里有个人反映某个网址爬出来的网页源代码出现中文乱码,我研究了半天,终于找到了解决方法。 一开始,我是这样做的: import requests url = 'http://search.51job.com/jobsearch/search_result.php?fromJs=1&jobarea
阅读全文
摘要:1.cookielib模块 cookielib模块的主要作用是提供可存储cookie的对象,以便于与urllib2模块配合使用来访问Internet资源。例如可以利用 本模块的CookieJar类的对象来捕获cookie并在后续连接请求时重新发送。coiokielib模块用到的对象主要有下面几 个:
阅读全文
摘要:新知识: 新建一个scrapy项目:scrapy startproject xxx(项目名称) 运行一个scrapy项目:scrapy crawl xxx(项目名称) 项目文件说明: 文件说明: • scrapy.cfg 项目的配置信息,主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫
阅读全文
摘要:有朋友问我正则,,okey,其实我的正则也不好,但是python下xpath是相对较简单的 简单了解一下xpath: XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。 XPath 是 W3C XSLT 标准的主要元素,并且 XQuery
阅读全文
摘要:您可能听说过,带有 yield 的函数在 Python 中被称之为 generator(生成器),何谓 generator ? 我们先抛开 generator,以一个常见的编程题目来展示 yield 的概念。 如何生成斐波那契數列 斐波那契(Fibonacci)數列是一个非常简单的递归数列,除第一个
阅读全文
摘要:Python 3 改成 http.cookiejar了,所以只要改成import http.cookiejar就自动导入cookiejar了,如果还是不行,就把所有的.pyc删掉试试。
阅读全文
摘要:初学Scrapy,实现爬取网络图片并保存本地功能 一、先看最终效果 保存在F:\pics文件夹下 二、安装scrapy 1、python的安装就不说了,我用的python2.7,执行命令pip install scrapy,或者使用easy_install 命令都可以 2、可能会报如下错误 1 2
阅读全文
摘要:Python中cookielib库(python3中为http.cookiejar)为存储和管理cookie提供客户端支持,下面是使用示例 该模块主要功能是提供可存储cookie的对象。使用此模块捕获cookie并在后续连接请求时重新发送,还可以用来处理包含cookie数据的文件。 这个模块主要提供
阅读全文
摘要:xpath中 "/"是在子节点中查找,“//”是在所有子节点中查找,包括子节点的子节点。 example: leve1/leve2:得到文本leve2 leve1//leve2:可以得到所有leve2子节点的文本
阅读全文
摘要:在进行网页抓取的时候,分析定位html节点是获取抓取信息的关键,目前我用的是lxml模块(用来分析XML文档结构的,当然也能分析html结构), 利用其lxml.html的xpath对html进行分析,获取抓取信息;以下是关于xpath的一些基本用法: 在介绍XPath的匹配规则之前,我们先来看一些
阅读全文
摘要:今晚不想加班,于是赶紧回来看看书: 1.下了selenium的小工具:FireBug/FirePath。 2.确定了看书顺序,我觉得难度低点开始比较好,所以我还是先看基于Python的selenium,另一本书再看把,觉得自己能力还是太弱,还是从友好的先上手,虽然之前也看了BY_ID的一些用法,但是
阅读全文
摘要:from selenium import webdriver from selenium.webdriver.common.desired_capabilities import DesiredCapabilities #设置浏览器请求头 dcap = dict(DesiredCapabilitie
阅读全文
|