随笔分类 -  爬虫&舆情

摘要:## 关于PhantomJS[PhantomJS](http://phantomjs.org/) 是一个基于WebKit的服务器端 JavaScript API。它全面支持web而不需浏览器支持,其快速,原生支持各种Web标准: DOM 处理, CSS 选择器, JSON, Canvas, 和 SV... 阅读全文
posted @ 2014-11-19 14:58 StanZhai 阅读(14531) 评论(5) 推荐(7) 编辑
摘要:最近折腾爬虫,后端使用jQuery进行数据采集,一般都是先从浏览器中将采集代码调试好后直接放到后端跑了。有些网址没有引用jQuery,那调试起来就不方便了,可以用以下代码动态添加script标签,将jQuery引用到页面中。```var scriptBlock = document.createEl... 阅读全文
posted @ 2014-11-11 19:54 StanZhai 阅读(799) 评论(2) 推荐(0) 编辑
摘要:为什么要做正文提取一般做舆情分析,都会涉及到网页正文内容提取。对于分析而言,有价值的信息是正文部分,大多数情况下,为了便于分析,需要将网页中和正文不相干的部分给剔除。可以说正文提取的好坏,直接影响了分析结果的好坏。对于特定的网站,我们可以分析其html结构,根据其结构来获取正文信息。先看一下下面这张... 阅读全文
posted @ 2014-01-07 07:11 StanZhai 阅读(44011) 评论(91) 推荐(66) 编辑
摘要:问题描述今天使用HtmlAgilityPack提取Form表单下的input节点,发现提取的form节点没有子节点,InnerHtml也是为空,起初以为是标签不全导致,后来分析html代码发现不可能是这个问题,提取div标签正常,偏偏form标签有问题,最终从网上找到了答案。解决方案在将html转为htmlDoc之前,添加:1HtmlNode.ElementsFlags.Remove("form");就可以正常提取到子节点的内容了,也就是:123456HtmlNode.ElementsFlags.Remove("form");HtmlDocument d 阅读全文
posted @ 2014-01-02 21:55 StanZhai 阅读(1193) 评论(1) 推荐(0) 编辑
摘要:Nodejs相关依赖模块介绍Nodejs的优势这里就不做介绍啦,这年头相信大家对它也不陌生了。这里主要介绍一下用到的第三方模块。async:js代码中到处都是异步回调,很多时候我们需要做同步处理,使用async可以大大简化我们的同步处理的任务(没有它的时候,可能要用递归去处理异步问题了)。jsdom:一个 W3C DOM 的 JS 实现。用这玩意相当犀利,它不仅可以将文档解析成 DOM,而且,你还可以用 YUI 或着 jQuery 去操作生成的 DOM。这在从页面中提取数据时格外有用。这次采集17173的游戏排行数据就是用它结合jQuery去做的。colors:这个主要是便于我们从终端中输出不 阅读全文
posted @ 2013-12-28 23:09 StanZhai 阅读(3169) 评论(2) 推荐(10) 编辑
摘要:事由下午收到一条短信,内容是“尊敬的用户, 您的电子密码器于次日失效!请尽快进入我行手机维护网站wap.95588bm.com更新!【工 行 】”,一看发件人是:+8618193326403,再加上本人也不用工行的银行卡,很明显的是骗人的短信嘛。做过Web的人应该也清楚这个网站应该就是钓鱼网站了。好奇的打开网站看了看:又看了下各个登陆链接的入口,发现都是一样的,点开看看了:随便输入了个手机号和密码,填写验证码,点登陆后:是个模拟升级的页面,骗人的。本人向来痛恨这人骗人的行为,心想,我何不写个小程序,向他提交随机的手机号和假的密码,让程序不停的提交表单,干扰骗子,用来解恨。开始动手——收集信息从 阅读全文
posted @ 2013-09-13 17:56 StanZhai 阅读(11650) 评论(76) 推荐(69) 编辑