﻿<?xml version="1.0" encoding="utf-8" standalone="yes"?><rss version="2.0" xmlns:dc="http://purl.org/dc/elements/1.1/" xmlns:trackback="http://madskills.com/public/xml/rss/module/trackback/" xmlns:wfw="http://wellformedweb.org/CommentAPI/" xmlns:slash="http://purl.org/rss/1.0/modules/slash/"><channel><title>博客园-pual.k3-最新评论</title><link>http://www.cnblogs.com/pual/CommentsRSS.aspx</link><description /><language>zh-cn</language><pubDate>Wed, 15 Apr 2009 10:01:58 GMT</pubDate><lastBuildDate>Wed, 15 Apr 2009 10:01:58 GMT</lastBuildDate><generator>cnblogs</generator><item><title>Re:一些常见爬虫</title><link>http://www.cnblogs.com/pual/archive/2009/08/02/1427777.html#1603307</link><dc:creator>geo898</dc:creator><author>geo898</author><pubDate>Sun, 02 Aug 2009 12:40:18 GMT</pubDate><guid>http://www.cnblogs.com/pual/archive/2009/08/02/1427777.html#1603307</guid><description><![CDATA[楼主真伟大，总结了这么多。

虽然有这么多公开的资源可用，但是，很多企业和个人还在不断的开发新的爬虫，尤其是定题爬虫，互联网发展过程中出现了一波一波的新技术，而在每一波都有开发爬虫的需要，例如，前年在一个餐馆吃饭时，无意听到一个做SNS的负责人面试人就谈到对爬虫的需求，现在实时搜索又成了热门，可能需要实时爬虫，下一步语义网络真正发展起来了，肯定需要语义搜索爬虫。

前年受到语义网络技术的诱惑，花费了近3年时间做了一个对网络数据进行结构化的定题爬虫，感兴趣的话可以下载下来试试：[url=http://www.gooseeker.com]MetaSeeker工具包[/url]<br><br><div align=right><a style="text-decoration:none;" href="http://www.cnblogs.com/pual/" target="_blank">geo898</a> 2009-08-02 20:40 <a href="http://www.cnblogs.com/pual/archive/2009/08/02/1427777.html#1603307#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item><item><title>Re:主题网络爬虫</title><link>http://www.cnblogs.com/pual/archive/2009/08/02/1427817.html#1603300</link><dc:creator>geo898</dc:creator><author>geo898</author><pubDate>Sun, 02 Aug 2009 12:28:48 GMT</pubDate><guid>http://www.cnblogs.com/pual/archive/2009/08/02/1427817.html#1603300</guid><description><![CDATA[好文章！

相对于抓取主题相关的链接，我更偏爱抓取主题相关的内容并且进行格式化，以便向语义网络倡导的linked data方向发展。所以，我制作的定题爬虫的很大部分代码是将自由文本格式化成有结构的数据。[url=http://www.gooseeker.com]MetaSeeker工具包[/url]就是为此目的设计的，其中MetaStudio工具是免编程目标内容提取规则定制工具，也是数据结构定义工具，而DataScraper工具是定题爬虫而且对提取的数据进行格式化，存储成XML文件，而SliceSearch工具是一个异构数据对象搜索引擎，同一般的垂直搜索只支持同构数据不同，也与普通搜索引擎只支持自由文本不同，能够利用数据结构提现出来的语义对数据对象进行索引和搜索。

以上软件免费使用，而且代码可读，下载地址：[url=http://www.gooseeker.com]http://www.gooseeker.com[/url]

用这个工具包制作的异构数据搜索引擎位于：[url=http://www.metaseeker.cn/projectsearch/home.htm]http://www.metaseeker.cn/projectsearch/home.htm[/url]

欢迎批评指正，多多切磋。<br><br><div align=right><a style="text-decoration:none;" href="http://www.cnblogs.com/pual/" target="_blank">geo898</a> 2009-08-02 20:28 <a href="http://www.cnblogs.com/pual/archive/2009/08/02/1427817.html#1603300#Feedback" target="_blank" style="text-decoration:none;">发表评论</a></div>]]></description></item></channel></rss>
