摘要:
如果记录已经存在,则不会更新它,它只会导入,数据库中没有的记录 阅读全文
posted @ 2010-10-08 18:45
lexus
阅读(255)
评论(0)
推荐(0)
|
摘要:
如果记录已经存在,则不会更新它,它只会导入,数据库中没有的记录 阅读全文
posted @ 2010-10-08 18:45
lexus
阅读(255)
评论(0)
推荐(0)
摘要:
2009-04-09聊聊网页正文提取文章分类:Java编程从网页中提取的正文一般来说模板是最好最准确的方式,在专业术语中就是wrapper,对web归纳总结出提取规则创建包装器wrapper。但由于在大多数条件下制作模板是个很烦人的工作,而且如果抓取的种子站过多,人工难以满足需求。于是自动生成模板就成为一个折衷的替代方案,但实际上自动生成的模板还是需要模板编辑确定具体的对应项,以保证其正确性。如果... 阅读全文
posted @ 2010-10-08 14:38
lexus
阅读(386)
评论(0)
推荐(0)
摘要:
从HTML文件中抽取正文的简单方案收藏The Easy Way to Extract Useful Text from Arbitrary HTML从HTML文件中抽取正文的简单方案作者:alexjc译者:恋花蝶(http://blog.csdn.net/lanphaday)原文地址:http://ai-depot.com/articles/the-easy-way-to-extract-usef... 阅读全文
posted @ 2010-10-08 14:25
lexus
阅读(2980)
评论(0)
推荐(0)
摘要:
web-classify用于网页分类的python工具包ProjectHomeDownloadsWikiIssuesSourceSummary|Updates|PeopleStar this projectActivity:MediumCode license:Apache License 2.0Labels:gearman,knn,web-classifyFeeds:Project feedsO... 阅读全文
posted @ 2010-10-08 14:24
lexus
阅读(716)
评论(0)
推荐(0)
摘要:
http://liluo.org/2010/06/python-%E7%88%AC%E8%99%AB%E5%9F%BA%E6%9C%AC%E7%9F%A5%E8%AF%86/浪费了一上午总算搞定了,主要是脑子湖,没有对应的好文章,上面这篇不错 SimpleCD作者有把电驴给山寨了,作者博客http://obmem.com上有一些爬虫介绍,转载来。1.最基本的抓站 import urlli... 阅读全文
posted @ 2010-10-08 14:00
lexus
阅读(869)
评论(0)
推荐(0)
摘要:
http://liluo.org/2010/06/python-%E7%88%AC%E8%99%AB%E5%9F%BA%E6%9C%AC%E7%9F%A5%E8%AF%86/浪费了一上午总算搞定了,主要是脑子湖,没有对应的好文章,上面这篇不错 SimpleCD作者有把电驴给山寨了,作者博客http://obmem.com上有一些爬虫介绍,转载来。1.最基本的抓站 import urlli... 阅读全文
posted @ 2010-10-08 13:58
lexus
阅读(2205)
评论(0)
推荐(0)
|