2010 年 10月 8 日随笔档案 - lexus

公告

2010年10月8日

摘要：如果记录已经存在，则不会更新它，它只会导入，数据库中没有的记录阅读全文

posted @ 2010-10-08 18:45 lexus 阅读(255) 评论(0) 推荐(0)

摘要： 2009-04-09聊聊网页正文提取文章分类:Java编程从网页中提取的正文一般来说模板是最好最准确的方式，在专业术语中就是wrapper,对web归纳总结出提取规则创建包装器wrapper。但由于在大多数条件下制作模板是个很烦人的工作，而且如果抓取的种子站过多，人工难以满足需求。于是自动生成模板就成为一个折衷的替代方案，但实际上自动生成的模板还是需要模板编辑确定具体的对应项，以保证其正确性。如果... 阅读全文

posted @ 2010-10-08 14:38 lexus 阅读(386) 评论(0) 推荐(0)

正文提取

摘要：从HTML文件中抽取正文的简单方案收藏The Easy Way to Extract Useful Text from Arbitrary HTML从HTML文件中抽取正文的简单方案作者：alexjc译者：恋花蝶（http://blog.csdn.net/lanphaday）原文地址：http://ai-depot.com/articles/the-easy-way-to-extract-usef... 阅读全文

posted @ 2010-10-08 14:25 lexus 阅读(2980) 评论(0) 推荐(0)

用于网页分类的python工具包

摘要： web-classify用于网页分类的python工具包ProjectHomeDownloadsWikiIssuesSourceSummary|Updates|PeopleStar this projectActivity:MediumCode license:Apache License 2.0Labels:gearman,knn,web-classifyFeeds:Project feedsO... 阅读全文

posted @ 2010-10-08 14:24 lexus 阅读(716) 评论(0) 推荐(0)

爬虫 302跳转

摘要： http://liluo.org/2010/06/python-%E7%88%AC%E8%99%AB%E5%9F%BA%E6%9C%AC%E7%9F%A5%E8%AF%86/浪费了一上午总算搞定了，主要是脑子湖，没有对应的好文章，上面这篇不错 SimpleCD作者有把电驴给山寨了，作者博客http://obmem.com上有一些爬虫介绍，转载来。1.最基本的抓站 import urlli... 阅读全文

posted @ 2010-10-08 14:00 lexus 阅读(869) 评论(0) 推荐(0)

爬虫 302跳转

posted @ 2010-10-08 13:58 lexus 阅读(2205) 评论(0) 推荐(0)

浙江省高等学校教师教育理论培训

公告