2016年6月8日

摘要: 多页面爬取有两种形式。1)从某一个或者多个主页中获取多个子页面的url列表,parse()函数依次爬取列表中的各个子页面。2)从递归爬取,这个相对简单。在scrapy中只要定义好初始页面以及爬虫规则rules,就能够实现自动化的递归爬取。获取子页面url列表的代码示例... 阅读全文

posted @ 2016-06-08 16:35 jackley 阅读(189) 评论(0) 推荐(0)

摘要: 本文主要介绍与scrapy应用紧密相关的关键技术,不求很深入,但求能够提取要点。内容包括:1、xpath选择器:选择页面中想要的内容2、rules规则:定义爬虫要爬取的域3、scrapy shell调试:辅助调试工具4、去重设置:内置的防止重复爬取的工具5、防屏蔽:通... 阅读全文

posted @ 2016-06-08 16:33 jackley 阅读(191) 评论(0) 推荐(0)

摘要: 本文从一个基础案例入手,较为详细的分析了scrapy项目的建设过程(在官方文档的基础上做了调整)。主要内容如下:0、准备工作1、scrapy项目结构2、编写spider3、编写item.py4、编写pipelines.py5、设置Settings.py6、运行spid... 阅读全文

posted @ 2016-06-08 16:27 jackley 阅读(103) 评论(0) 推荐(0)

2016年5月29日

摘要: 决定写一个小的爬虫系列,本文是第一篇,讲爬虫的基本原理和简易示例。 1、单个网页的简易爬虫以下爬虫的主要功能是爬取百度贴吧中某一页面的所有图片。代码由主要有两个函数:其中getHtml()通过页面url获取其对应的html内容,getImage()则通过解析html获... 阅读全文

posted @ 2016-05-29 16:58 jackley 阅读(122) 评论(0) 推荐(0)

摘要: 1、任务定义:爬取某动态分页页面中所有子话题的内容。所谓“动态分页”:是指通过javascript(简称“js”)点击实现翻页,很多时候翻页后的页面地址url并没有变化,而页面内容随翻页动作动态变化。 2、任务难点及处理方法:难点:1) scrapy如何动态加载所有... 阅读全文

posted @ 2016-05-29 16:12 jackley 阅读(669) 评论(0) 推荐(0)

2016年5月28日

摘要: 本文首先简要介绍编码转换的基本原理,然后针对字符串处理、文件读写的两个实例,具体分析编码问题的处理方式。 1、编码转换的基本原理我们知道,只有在面对中文、日文等编码字符(以下均以中文字符为例)时,才会有编码转换问题;而英文字符串是不存在编码转换问题的,因为转来转去都不... 阅读全文

posted @ 2016-05-28 17:32 jackley 阅读(92) 评论(0) 推荐(0)

2016年4月12日

摘要: EM也称期望极大算法(Expectation Maximization),是一种用来对含有隐含变量的概率模型进行极大似然估计的迭代算法。该算法可应用于隐马尔科夫模型的参数估计。 1、含有隐含参数的概率模型举例?三硬币模型:A、B、C三枚硬币,这些硬币投出正面的概率分别... 阅读全文

posted @ 2016-04-12 18:58 jackley 阅读(252) 评论(0) 推荐(0)

2016年4月9日

摘要: AdaBoost是最有代表性的提升算法之一。其基本思想可以表述为:多个专家的综合判断,要优于任意一个专家的判断。 1、什么是提升算法?“装袋”(bagging)和“提升”(boost)是构建组合模型的两种最主要的方法,所谓的组合模型是由多个基本模型构成的模型,组合模型... 阅读全文

posted @ 2016-04-09 14:17 jackley 阅读(142) 评论(0) 推荐(0)

2016年4月8日

摘要: 支持向量机以感知机为基础,两块内容最好结合来看,便于理解。本文首先介绍支持向量机的原理和重要概念,然后分析其应用场景以及优缺点。 1、什么是支持向量机?支持向量机是采用最优分离超平面将样本分为不同类别的二分类模型。最优分离超平面的表达式可写作:,分类决策函数为。其中的... 阅读全文

posted @ 2016-04-08 13:44 jackley 阅读(125) 评论(0) 推荐(0)

摘要: 逻辑斯谛回归和最大熵模型,从原理上看二者并不十分相关,不知是不是因为篇幅都相对较小,所以将这两部分内容放到一起。本文还是从原理、应用场景以及优缺点来做简要介绍。 1、逻辑斯谛回归逻辑斯谛回归通过结合线性回归和Sigmod转换函数(f(x)=1/(1+exp(x))),... 阅读全文

posted @ 2016-04-08 13:41 jackley 阅读(155) 评论(0) 推荐(0)