2019 年 7月随笔档案 - gkimeeq

Scrapy中的Selector

摘要：当抓取网页时，最常见的任务是从HTML源码中提取数据，用Beautiful Soup或lxml都可以。Beautiful Soup是基于HTML代码的结构来构造一个Python对象，对不良标记的处理也很合理，缺点就是慢。而lxml是基于ElementTree（不是Python标准库的一部分）的Pyt 阅读全文

posted @ 2019-07-31 10:45 gkimeeq 阅读(194) 评论(0) 推荐(0)

Scrapy中的Spider

摘要：`Spider`类定义如何爬取指定的一个或多个网站，包括是否要跟进网页里的链接和如何提取网页内容中的数据。爬取的过程是类似以下步骤的循环： 1. 类 2.爬虫参数爬虫可以接受参数来改变它的行为。这些参数一般用来定义初始URL，或者限定爬取网站的部分内容，也可以用来配置其它任何功能。在运行命令阅读全文

posted @ 2019-07-24 17:20 gkimeeq 阅读(225) 评论(0) 推荐(0)

Scrapy中的Item

摘要：爬虫的主要目标是从页面爬取非结构性的数据然后提取出结构性数据。Scrapy提供类可以实现这样的要求。对象是简单的容器，用于保存爬取到的数据。 1. 类 2. 类 3.声明使用简单的类定义语法和对象来声明。 4. 字段对象指定了每个字段的元数据（metadata）。每个字段可以指明任何类型的阅读全文

posted @ 2019-07-23 13:51 gkimeeq 阅读(337) 评论(0) 推荐(0)

Scrapy项目创建的简单流程

摘要：1.进入到一个要创建Scrapy项目的文件夹，然后运行以下命令来生成默认的Scrapy项目结构。在Linux CentOS 6.10中，运行然后生成的目录结构如下： 2.定义Item 打开，把类改为： 3.Spider爬虫在文件夹中新建，代码如下：然后在的目录下，运行运行完，会在阅读全文

posted @ 2019-07-22 13:26 gkimeeq 阅读(538) 评论(0) 推荐(0)

Scrapy项目的默认结构

摘要：默认的情况下，Scrapy项目的默认结构如下： 1.scrapy.cfg Scrapy的项目配置文件。配置参数是以ini文件的风格来定义，即的格式。这里的scrapy.cfg是位于项目根目录。Scrapy也会查找系统和用户的scrapy.cfg。系统级的配置文件位于或`c:\scrapy\s 阅读全文

posted @ 2019-07-22 08:43 gkimeeq 阅读(406) 评论(0) 推荐(0)

Origin C中使用OpenCV

摘要：Origin对OpenCV进行了包装，因此在Origin C中可以调用OpenCV的相关函数。下面就用OpenCV官网的一个例子来演示怎么在Origin C里调用OpenCV。 1.包含头文件这个头文件其实就是又包含了其它的一些头文件，包括OpenCV的类型相关的、核心的、图像处理的、Origin 阅读全文

posted @ 2019-07-19 13:34 gkimeeq 阅读(304) 评论(0) 推荐(0)

Scrapy初试牛刀

摘要：1.安装 2.官网的一个简单例子 "https://docs.scrapy.org/en/latest/intro/overview.html" 在Linux CentOS 6 10下：然后把上面的代码粘上去，保存并退出。然后运行这个爬虫。跑完后，会在当前目录下生成。显示输出文件的内容：阅读全文

posted @ 2019-07-19 09:51 gkimeeq 阅读(143) 评论(0) 推荐(0)

Scrapy的体系结构一览

摘要：引用官网（ "https://docs.scrapy.org/en/latest/topics/architecture.html" ）的一张图： Scrapy的数据流是由执行引擎控制的，具体流程如上图的红圈数字所示： 1.引擎（Engine）从爬虫程序（Spider）获取要抓取的初始请求（Requ 阅读全文

posted @ 2019-07-18 09:43 gkimeeq 阅读(374) 评论(0) 推荐(0)

lxml的使用简要

摘要：1.安装在Linux CentOS 6.10下可以这样安装： 2.简单导入 3._ElementInterface类 4.Element工厂 5.ElementTree类 6.SubElement工厂 7.一些函数 8.简单的使用演示阅读全文

posted @ 2019-07-17 13:16 gkimeeq 阅读(284) 评论(0) 推荐(0)

XPath语法简要

摘要：XPath是在XML文档中查找信息的语言，可对元素和属性进行遍历。利用以下的XML内容。 1.节点关系 2.节点选取 | 表达式 | 说明 | 例子 | 例子的结果说明 | | : : | : | : | : | | nodename | 节点的所有子节点 | bookshop | booksho 阅读全文

posted @ 2019-07-16 09:57 gkimeeq 阅读(195) 评论(0) 推荐(0)

Beautiful Soup的使用

摘要：1.安装Beautiful Soup4 2.Linux CentOS 6.10安装lxml Beautiful Soup支持一些第三方的解析器，如果不安装第三方的，则默认会用Python标准库中的HTML解析器。lxml解析器更加强大，速度更快，因此安装。 3.解析器对比 | 解析器 | 用法 | 阅读全文

posted @ 2019-07-15 17:28 gkimeeq 阅读(198) 评论(0) 推荐(0)

requests的使用

摘要：1.安装requests 2.基本请求 3.异常 4.请求会话 5.下层类 6.更下层类 7.身份验证类 8.编码 9.Cookies 10.状态码 11.例子演示阅读全文

posted @ 2019-07-12 15:51 gkimeeq 阅读(284) 评论(0) 推荐(0)

正则表达式模块（re）

摘要：1.语法规则在Python里，定义正则表达式的字符串，在字符串前加，表示原始字符串，可以免去很多烦人的转义，如与`'\\'`是表示同一个字符串。 | 语法| 说明 | 实例 | 完整匹配的字符串 | | | | | | | 一般字符 | 匹配字符自身 | abc | abc | | . | 匹阅读全文

posted @ 2019-07-11 15:25 gkimeeq 阅读(578) 评论(0) 推荐(0)

urllib,urllib2的使用

摘要：1.简单爬取一个页面 2.通过构造Request请求对象 3.POST和GET数据传送 4.设置Headers Header的一些属性说明： User Agent：通过该值来判断是否为浏览器发出的请求。 Content Type：使用REST接口时，服务器会检查此值来确定Body中的内容要怎样解析。阅读全文

posted @ 2019-07-10 13:45 gkimeeq 阅读(635) 评论(0) 推荐(0)

urllib2模块

摘要：源码可于github下载： "https://github.com/gkimeeq/PythonLearning" 。阅读全文

posted @ 2019-07-10 09:00 gkimeeq 阅读(230) 评论(0) 推荐(0)

urllib模块

摘要：源码可于github下载： "https://github.com/gkimeeq/PythonLearning" 。阅读全文

posted @ 2019-07-09 10:43 gkimeeq 阅读(145) 评论(0) 推荐(0)

Origin C访问Excel

摘要：Origin C访问Excel的流程跟访问Word差不多，可以参考 "Origin C访问Word" 。这里简单的演示怎样把Excel中的数据导入到Origin的工作表，用到的Excel文件位于Origin的安装目录下，数据区域为。具体代码如下： void Origin_Access_Exc 阅读全文

posted @ 2019-07-03 09:46 gkimeeq 阅读(356) 评论(0) 推荐(0)

Origin C访问Word

摘要：Origin C要往Word里写内容，一个简单的方法是通过Word里的书签来定位，然后直接获取这个书签位置来写入内容。用到的Word文档是Origin自带的一个模板，位于Origin的安装目录下。这个模板包含有以下的书签：。在Word里要把书签显示出来，可以通过，然后找到那一栏，把打阅读全文

posted @ 2019-07-02 15:26 gkimeeq 阅读(305) 评论(0) 推荐(0)

Origin C访问PowerPoint

摘要：Origin C访问PowerPoint主要分6个步骤： 1.创建一个PowerPoint应用对象，或者获取当前打开的PowerPoint应用。 Origin C中通过函数来创建。而获取一个打开的PowerPoint应用对象则通过来实现。 2.创建或获取演示对象，即打开的PowerPoint文阅读全文

posted @ 2019-07-01 11:50 gkimeeq 阅读(218) 评论(0) 推荐(0)

07 2019 档案

公告