信息抽取 - 随笔分类 - 烤德

基于浏览器API的网页元素坐标提取

摘要：一、目标获取Web页面上的元素坐标，如获取http://www.baidu.com/上的文本输入框的坐标和“百度一下”按钮坐标。二、环境及开发工具环境：Java工具：eclipse开发包：如图三、原理浏览器可以通过得到html源码，经过浏览器内核HTML解析引擎对html源码进行解析，最后得到构建文档模型DOM，浏览器渲染引擎随即建立与DOM对应的Render树，JS引擎解析并执行Javascript，排版引擎（如IE的MSHTML）对在浏览器平台中绘制图层模板（layout），最后由渲染引擎对图层模板进行渲染得到漂亮的网页页面呈现给用户。由此可见，排版引擎是可以知道html元素在客户端浏览器阅读全文

posted @ 2013-03-20 12:58 烤德阅读(2925) 评论(0) 推荐(0)

基于XML和Xpath的简易数据管理系统

摘要：一、目标用xml和Xapth做一个简单的数据管理系统，对数据的进行简单的增、删、改、查询操作。如做一个简单的班级学生信息管理系统：二、环境及开发工具环境：Java工具：Eclipse开发包：如图三、原理dom4j是一个Java的XML API，类似于jdom，用来读写XML文件的。dom4j是一个非常非常优秀的Java XML API，具有性能优异、功能强大和极端易用使用的特点，同时它也是一个开放源代码的软件，可以在SourceForge上找到它。XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。XPath 使用路径表达式在 XML 阅读全文

posted @ 2013-03-03 23:07 烤德阅读(1605) 评论(4) 推荐(3)

HTML抽取工具HtmlParser

摘要：针对HTML抽取，相信很多人都听说过或者使用过HtmlParser。htmlparser是一个纯的java写的html解析的库，它不依赖于其它的java库文件，主要用于改造或提取html。不能说它能超高速解析html，但他的解析质量比较好，不容易出错。毫不夸张地说，htmlparser就是目前功能最强大的java html解析和分析的工具。HtmlParser项目网站：http://htmlparser.sourceforge.net/.入门学习HtmlParser的不妨参考《HtmlParser使用入门》这篇博客，当然一些使用技巧，也可参考《HTMLParser 学习》、《HTMLPars. 阅读全文

posted @ 2013-01-07 18:12 烤德阅读(970) 评论(0) 推荐(0)

HTML抽取工具Jsoup

摘要：Jsoup 是一款Java 的HTML解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于jQuery的操作方法来取出和操作数据。当前版本为1.7.1。jsoup的主要功能如下：1. 从一个URL，文件或字符串中解析HTML；2. 使用DOM或CSS选择器来查找、取出数据；3. 可操作HTML元素、属性、文本；Jsoup官方网站：http://jsoup.org/.可以通过其给出的学习资料http://jsoup.org/cookbook/和它的API进行学习http://jsoup.org/apidocs/.经过翻译的中文资料不妨参阅读全文

posted @ 2013-01-06 23:07 烤德阅读(4083) 评论(0) 推荐(0)

随笔分类 - 信息抽取