摘要: 声明 本篇文章纯粹为了向还不是很了解SeimiAgent的同学演示下SeimiAgent的部分能力,目标网站随意选的,并没有其他目的。 SeimiAgent简介 SeimiAgent是基于QtWebkit开发的可在服务器端后台运行的一个webkit服务,可以通过SeimiAgent提供的http接口 阅读全文
posted @ 2016-08-07 09:07 无忌小伙 阅读(1496) 评论(0) 推荐(1) 编辑
摘要: SeimiAgent SeimiAgent是基于QtWebkit开发的可在服务器端后台运行的一个webkit服务,可以通过SeimiAgent提供的http接口向SeimiAgent发送一个load请求(需求加载的URL以及对这个页面接受的渲染时间或是使用什么代理等参数),通过SeimiAgent去 阅读全文
posted @ 2016-04-16 12:02 无忌小伙 阅读(983) 评论(0) 推荐(0) 编辑
摘要: 为了便于开发者对使用SeimiCrawler框架开发的爬虫工程的打包部署,SeimiCrawler现已推出maven-seimicrawler-plugin,一个maven工程的自动化打包插件。下面简要介绍下他的使用。开始pom添加添加plugin cn.wanghaomiao mave... 阅读全文
posted @ 2016-01-14 23:49 无忌小伙 阅读(1294) 评论(0) 推荐(0) 编辑
摘要: SeimiCrawler是一个强大的,高效敏捷的,支持分布式的爬虫开发框架,希望能在最大程度上降低新手开发一个可用性高且性能不差的爬虫系统的门槛,以及提升开发爬虫系统的开发效率。在SeimiCrawler的世界里,绝大多数人只需关心去写抓取的业务逻辑就够了,其余的Seimi帮你搞定。设计思想上Sei... 阅读全文
posted @ 2015-11-10 22:36 无忌小伙 阅读(9826) 评论(3) 推荐(1) 编辑
摘要: JsoupXpath(https://github.com/zhegexiaohuozi/JsoupXpath)是一款纯Java开发的使用xpath解析提取html内容的解析器,xpath语法分析与执行完全独立,html的DOM树生成借助Jsoup,故命名为JsoupXpath. 为了在java里也... 阅读全文
posted @ 2015-10-21 22:44 无忌小伙 阅读(18462) 评论(3) 推荐(1) 编辑
摘要: 最近在用python做爬虫项目,感受到了python的强大,这期间要试试python的文本处理,要用到中文分词,故把我安装使用pymmseg的过程记录下来,作为备忘。pymmseg的项目下载地址是https://code.google.com/p/pymmseg-cpp/downloads/list选择下载源码包,自己编译,省的出现不兼容的情况。我选择的是pymmseg-cpp-src-1.0.2.tar.gz,下面是windows与linux平台的安装过程64位win7下pymmseg安装过程:1,解压,随便怎么解2,确保你有一个命令行可用的C++编译器和连接器,我装了vs2008,就用了v 阅读全文
posted @ 2013-07-15 23:55 无忌小伙 阅读(3839) 评论(8) 推荐(3) 编辑