摘要: 今天要在百度文库下一个文档,由于之前测试,清掉了cookies,所以下载文档时突然提示登陆(之前一直都是自动登陆,记不住密码啊……),试了半天才想起来密码,就打算在分析下。 要说自己对百度文库也算缘分不浅,当年大二的时候我们工作室接到一个项目,就是采集互联网的各类电子文档,以供某公司建立文库。当时百度虽说还上线不到一年,但是却已经很有名气,因此也是我们的重点关注对象。下边开始分析(只看下载分析直接看(二)就行了): 一、文档在线展示的实现方式和采集策略 在线文库普遍采用的技术有两大类:一是将文档转为swf文件,然后页面用flash展示;二是按照文档原有结构,生成html结构展示。就我们... 阅读全文
posted @ 2014-02-23 22:04 oO脾气不坏Oo 阅读(3021) 评论(6) 推荐(1) 编辑