摘要: 1 Python HTML 解析 1.1 缘由为了将CHM文件转变成Devhelp支持的格式,以便用devhelp来阅读。 解析索引文件,构建标签。HTML -> XML作为一个标记语言,HTML其实是一个结构化的文本,对它的处理,可以分三步:分解将HTML文档按照标记分分解,得到一些列的小的片段。处理对这些小片段进行处理。组合将处理过的片段重新组合。三个步骤中,第一步可由Python自带的sgmlib来完成。1.2 SGMLibsgmlib中包含了一个重要的类:SGMLParser, 这个可以将一个HTML文档根据Tag解析成为很多的片段,并根据Tag类型来调用该类中相应的函数来处理这 阅读全文
posted @ 2011-07-01 22:43 cactuswisper 阅读(1728) 评论(0) 推荐(0) 编辑
摘要: 本文转载自W3CHINA.ORG讨论区(BBS.W3CHINA.ORG)原文链接作者:admin以下为原文:使用 Jena API 处理 RDFhttp://cmpp.linuxforum.net/XML/rdf.html使用 Jena API 处理 RDF作者:Joe Verzulli发表时间:2001年5月23日原文链接:http://www.xml.com/pub/a/2001/05/23/jena.html译者:dlee翻译时间:2001年5月26日对于 RDF (资源定义框架) 的兴趣正在日渐增长,很多用于处理 RDF 的工具和开发库已经被开发出来。这篇文章描述了一个这样的开发库,J 阅读全文
posted @ 2011-07-01 17:20 cactuswisper 阅读(628) 评论(0) 推荐(0) 编辑