蛙蛙池塘  
人生价值的最好体现就是做好本职工作...
公告
  • 残荷听雨,梨花飞雪,落英缤纷时节。晓来谁染枫林醉?点点都是离人泪
    活着,就是快乐!自信,就是美丽! 有人爱,就是幸福。
    春天来了
    但愿野百合也有春天

    第三季度的计划



    木了
    晚上一个人看会儿《读者乡土人文版》,听会儿广播挺不错的,想起了三年前在石家庄没电脑的日子,时光飞逝呀,现在笔记本都用上了,以前从没想过,确实得知足常乐。
日历
<2008年4月>
303112345
6789101112
13141516171819
20212223242526
27282930123
45678910
统计
  • 随笔 - 249
  • 文章 - 2
  • 评论 - 2333
  • 引用 - 75

导航

与我联系

搜索

 

常用链接

留言簿

我参加的小组

我参与的团队

我的标签

随笔分类

随笔档案

相册

朋友

积分与排名

  • 积分 - 541262
  • 排名 - 49

最新评论

阅读排行榜

评论排行榜

60天内阅读排行

 
蛙蛙推荐:基于标记窗的网页正文提取算法的一些细节问题

网页的正文提取有好多种算法,有基于视觉的,基于标记窗的,基于双层决策等算法,这里讨论一些基于标记窗的算法(相对简单且效果还好)的相关细节问题,如下

问题:如何提取一个网页的标题
思路:提取网页的title,提取网页的meta里的keyword,提取网页里的所有h标签,先用title和keyword比,把title里的 keyword去掉,因为某些网站做SEO,在keyword和title里都有关键词堆叠,所以去掉重复的项,一般就是网页内容的标题了。一般一个网站的所有网页的keyword都相同,但碰上每个网页的meta keyword和本页内容相关这个算法就不灵了。然后再计算裁剪后的title和h标签(有限h1,h2次之)里提取的文本的文本相似度或者编辑距离,如果少于某个阈值,这个h标签的文本就是网页的标题。另外还要考虑title和正文标题一点关系都没有的情况。提取标题的算法有好多不可靠性,实在不行就直接去title了。


问题:如下文字,两个横杠之间的文字,
==================================================
<div>没有花香,
没有树高</div><td>((:&nbsp;那就等 着沦陷吧,如果爱情真伟大</td>
<div>我早已为你种下<b>九百九十九</b>多 玫瑰</div>
<div>妹妹你坐船头,<td>哥哥我岸上走sdf</td></div>
==================================================
用正则分成以下几组字符串,引号引住的部分
1、"没有花香,\r\n没有树高"
2、" 那就等着沦陷吧,如果爱情真伟大"
3、"我早已为你种下九百九十九多玫瑰"
4、"妹妹你坐船头,哥哥我岸上走sdf"
5、"哥哥我岸上走sdf"
思路:其实就是取出html容器标签(td,div,span,p等)里的汉字部分,并且如果是嵌套容器的话,最里层的匹配一个分组,一直向外,每层算一个分组,最后把每个分组弄成一个字符串的列表


问题:如何用正则把一段html文本块取出其带格式的文本
思路:首先要去掉修饰性标签,<b>,<font>还有<img>等,其次要把<br>替换成\r\ n,&nbsp;替换成空格,再把<srcipt><style>等标签及其中间的字符都去了,想<a title="嘿嘿">这个标签里的"嘿嘿"不能算是正文,正文中的链接不能去掉,要改成“百度(http://www.baidu.com)”这样的格式,否则提取文本后链接信息就没了。

问题:一个标题和多个正文,如何用程序来判断这个标题属于这个正文的
思路:把标题用中科院分词系统分词,然后去除停止词,然后根据词性标注把实词取出来,记为S,然后看每个正文里S里的每个词出现的次数,无论哪个词,取出现次数最多的那个正文就是这个标题的正文,我觉得这个思路比把标题和正文都切词后用编辑距离比较的算法更准一些,而且正文和标题切词后是两个字符串数组,两个字符串数组貌似没有现成的算法算他们之间的距离的。

问题:有若干段儿html文本块,去掉大多数为超链接的文本块
思路:先算出每个文本块中所有汉字的数量,再算出每个文本块中被<a>标签包围的汉字数量,如果这两个值的比例大于某个阈值,就删除这个文本块



以上几个文本解决后,网页的正文提取就能做的差不多了,最起码有百分之七八十的正确率吧。大家有兴趣和我一起解决哦,呵呵呵。


posted on 2008-04-09 23:22 蛙蛙池塘 阅读(3226) 评论(14)  编辑 收藏 网摘
评论:
  • #1楼  曲滨*銘龘鶽       Posted @ 2008-04-10 00:18
    好像很久没处理蹦 了现在很忙??
    现在做流氓生意的越来越多了、哎......
    这世道;
      回复  引用  查看    

  • #2楼  tommyk       Posted @ 2008-04-10 08:16
    对这个感兴趣。。。不过没找到好的实现思路。。   回复  引用  查看    

  • #3楼  李战       Posted @ 2008-04-10 08:18
    http://www.cnblogs.com/Emoticons/qface/055243188.gif" alt="" />这个东东俺有兴趣,把网页中需要的结构化内容提取出来就能搞垂直搜索了。http://www.cnblogs.com/Emoticons/QQ/laf.gif" alt="" />   回复  引用  查看    

  • #4楼  Dominic[未注册用户] Posted @ 2008-04-10 08:40
    刚开始弄得吧,建议先用别人的工具大量抓图你就知道后面会碰到多少内容。

    这样的页面时比较简单的,有些访问量大的网站的正文是会有很多很变态的东东的。
      回复  引用    

  • #5楼[楼主]  蛙蛙池塘       Posted @ 2008-04-10 09:14
    欢迎大家讨论此话题
    @李战
    可以搜索下小旋风网络挖掘平台,功能比较强劲了,可以直接做要求不高的垂直搜索,是.net做的。
    @Dominic
    跟访问量没啥关系,不过有些网站的正文确实比较变态,我们只考虑大多数就行,每种正文提取算法都有不足的地方,标记窗的算法在正文和标题相关性不大的情况下可能识别率比较低,但优点是相关性较高的识别率比较高,而且能识别正文嵌套表格的情况,及内容较少,周围无关文字较多的情况。基于视觉的正文提取目前我这里没有论文,还不知道原理。
      回复  引用  查看    

  • #6楼  marquee       Posted @ 2008-04-10 09:40
    对这方面很感兴趣.
    好文.标记下.
      回复  引用  查看    

  • #7楼  偶卖糕的       Posted @ 2008-04-10 09:56
    呵呵,正文倒是很好办,可是正文的下一级呢?   回复  引用  查看    

  • #8楼[楼主]  蛙蛙池塘       Posted @ 2008-04-10 10:15
    @偶卖糕的
    啥叫正文的下一级呀?
    另外其它几个问题,尤其是正则那两个,谁给写一个呀,呵呵。
      回复  引用  查看    

  • #9楼  kuafoo       Posted @ 2008-04-10 14:22
    其实正文大部分时候都放在div 或者 p 标签里面 重点在这里面找就可以了
    也有看到放到td里面的 不过很少这样
      回复  引用  查看    

  • #10楼  airwolf2026       Posted @ 2008-04-10 17:39
    呃,俺也喜欢这个...很想做一个小东东,不过正则不知道该如何匹配   回复  引用  查看    

  • #11楼  梁逸晨       Posted @ 2008-04-10 22:45
    我也曾经专研过一段时间这种东西,楼主说的,也曾想过,后来因为一个关键性问题,而暂时放弃了,因为,想以下这种情况太多了,而我又还不知道怎么处理才好:

    <html>
    <head>
    <title>这里是标题
    <head>
    <body>
    <p>这是一行
    <p>上面一行没有关闭
    <p>而下面的body显然是不正确的
    <body>
    <html>
      回复  引用  查看    

  • #12楼[楼主]  蛙蛙池塘       Posted @ 2008-04-11 20:17
    呵呵,基于标记窗的正文提取方法首先要求目标网页是结构良好的,也不一定符合XHTML,另外还有一些html自动补偿的开源项目,你可以用用,呵呵。   回复  引用  查看    

  • #13楼[楼主]  蛙蛙池塘       Posted @ 2008-04-12 23:41
    基于视觉的算法,大家有兴趣可以查看以下链接
    http://blog.csdn.net/tingya/archive/2006/02/18/601836.aspx" target="_new">http://blog.csdn.net/tingya/archive/2006/02/18/601836.aspx
      回复  引用  查看    




发表评论

昵称: [登录] [注册]

主页:

邮箱:(仅博主可见)

评论内容:

  登录  注册

[使用Ctrl+Enter键快速提交评论]

0 1145879





相关文章:

相关链接:
 
Copyright © 蛙蛙池塘 Powered by: 博客园 模板提供:沪江博客