浙江省高等学校教师教育理论培训

微信搜索“毛凌志岗前心得”小程序

  博客园  :: 首页  :: 新随笔  :: 联系 :: 订阅 订阅  :: 管理

2010年10月8日

摘要: 如果记录已经存在,则不会更新它,它只会导入,数据库中没有的记录 阅读全文
posted @ 2010-10-08 18:45 lexus 阅读(255) 评论(0) 推荐(0)

摘要: 2009-04-09聊聊网页正文提取文章分类:Java编程从网页中提取的正文一般来说模板是最好最准确的方式,在专业术语中就是wrapper,对web归纳总结出提取规则创建包装器wrapper。但由于在大多数条件下制作模板是个很烦人的工作,而且如果抓取的种子站过多,人工难以满足需求。于是自动生成模板就成为一个折衷的替代方案,但实际上自动生成的模板还是需要模板编辑确定具体的对应项,以保证其正确性。如果... 阅读全文
posted @ 2010-10-08 14:38 lexus 阅读(386) 评论(0) 推荐(0)

摘要: 从HTML文件中抽取正文的简单方案收藏The Easy Way to Extract Useful Text from Arbitrary HTML从HTML文件中抽取正文的简单方案作者:alexjc译者:恋花蝶(http://blog.csdn.net/lanphaday)原文地址:http://ai-depot.com/articles/the-easy-way-to-extract-usef... 阅读全文
posted @ 2010-10-08 14:25 lexus 阅读(2980) 评论(0) 推荐(0)

摘要: web-classify用于网页分类的python工具包ProjectHomeDownloadsWikiIssuesSourceSummary|Updates|PeopleStar this projectActivity:MediumCode license:Apache License 2.0Labels:gearman,knn,web-classifyFeeds:Project feedsO... 阅读全文
posted @ 2010-10-08 14:24 lexus 阅读(716) 评论(0) 推荐(0)

摘要: http://liluo.org/2010/06/python-%E7%88%AC%E8%99%AB%E5%9F%BA%E6%9C%AC%E7%9F%A5%E8%AF%86/浪费了一上午总算搞定了,主要是脑子湖,没有对应的好文章,上面这篇不错 SimpleCD作者有把电驴给山寨了,作者博客http://obmem.com上有一些爬虫介绍,转载来。1.最基本的抓站 import urlli... 阅读全文
posted @ 2010-10-08 14:00 lexus 阅读(869) 评论(0) 推荐(0)

摘要: http://liluo.org/2010/06/python-%E7%88%AC%E8%99%AB%E5%9F%BA%E6%9C%AC%E7%9F%A5%E8%AF%86/浪费了一上午总算搞定了,主要是脑子湖,没有对应的好文章,上面这篇不错 SimpleCD作者有把电驴给山寨了,作者博客http://obmem.com上有一些爬虫介绍,转载来。1.最基本的抓站 import urlli... 阅读全文
posted @ 2010-10-08 13:58 lexus 阅读(2205) 评论(0) 推荐(0)