摘要:
一、HTMLParser.net是什么?HTMLParser.net是HtmlParser的JAVA版本的dot net版本。二、HTMLParser可以用来做什么?HtmlParser是用来改造或者提取HTML,通过HtmlParser可以高速,快捷的从Html页面中分离出你想要的内容。三、HTMLParser的核心模块是org.htmlparser.Parser类,这个类实际完成了对于HTML页面的分析工作。这个类有下面几个构造函数: public Parser (); public Parser (Lexer lexer, ParserFeedback fb); public Parse
阅读全文
posted @ 2011-10-27 11:27
HackerVirus
阅读(363)
推荐(0)
摘要:
简介 MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。编辑本段特点 它的特点是高性能、易部署、易使用,存储数据非常方便。主要功能特性有: *面向集合存储,易存储对象类型的数据。 *模式自由。 *支持动态查询。 *支持完全索引,包含内部对象。 *支持查询。 *支持复制和故障恢复。 *使用高效的二进制数据存储,包括大型对象(如视频等)。 *自动处理碎片,以支持云计算层次的扩展性。 *支持RUBY,PYTHON,JAVA,C++,PHP,C#等多种语言。 *文件存储格式为BSON(一种JSON的扩展)。 ...
阅读全文
posted @ 2011-10-26 10:46
HackerVirus
阅读(929)
推荐(0)
摘要:
非关系型数据库—Cassandra简介 Cassandra是一个混合型的非关系的数据库,类似于Google的BigTable。其主要功能比Dynomite(分布式的Key-Value存储系统)更丰富,但支持度却不如文档存储MongoDB(介于关系数据库和非关系数据库之间的开源产品,是非关系数据库当中功能最丰富,最像关系数据库的。支持的数据结构非常松散,是类似json的bjson格式,因此可以存储比较复杂的数据类型。)Cassandra最初由Facebook开发,后转变成了开源项目。它是一个网络社交云计算方面理想的数据库。以Amazon专有的完全分布式的Dynamo为基础,结合了Google .
阅读全文
posted @ 2011-10-26 10:39
HackerVirus
阅读(525)
推荐(0)
摘要:
这里先大致介绍一下Hadoop. 本文大部分内容都是从官网Hadoop上来的。其中有一篇介绍HDFS的pdf文档,里面对Hadoop介绍的比较全面了。我的这一个系列的Hadoop学习笔记也是从这里一步一步进行下来的,同时又参考了网上的很多文章,对学习Hadoop中遇到的问题进行了归纳总结。 言归正传,先说一下Hadoop的来龙去脉。谈到Hadoop就不得不提到Lucene和Nutch。首先,Lucene并不是一个应用程序,而是提供了一个纯Java的高性能全文索引引擎工具包,它可以方便的嵌入到各种实际应用中实现全文搜索/索引功能。Nutch是一个应用程序,是一个以Lucene为基础实现的搜索引擎
阅读全文
posted @ 2011-10-26 10:31
HackerVirus
阅读(265)
推荐(0)
摘要:
在业务复杂的应用程序中,有时候会要求一个或者多个任务在一定的时间或者一定的时间间隔内计划进行,比如定时备份或同步数据库,定时发送电子邮件等,我们称之为计划任务。实现计划任务的方法也有很多,可以采用SQLAgent执行存储过程来实现,也可以采用Windows任务调度程序来实现,也可以使用Windows服务来完成我们的计划任务,这些方法都是很好的解决方案。但是,对于Web应用程序来说,这些方法实现起来并不是很简单的,主机服务提供商或者不能直接提供这样的服务,或者需要你支付许多额外的费用。 本文就介绍一个直接在Web应用程序中使用的简单的方法,这个方法不需要任何额外的配置即可轻松实现。由于ASP..
阅读全文
posted @ 2011-10-26 10:10
HackerVirus
阅读(257)
推荐(1)
摘要:
做一个类似计划任务的模块,在配置文件里写要执行的时间,让程序定时执行。1.建立配置文件App.config<?xml version="1.0" encoding="utf-8" ?><configuration> <appSettings> <!--设定每月执行计划任务的日期,先设定每月的16号,17号,25号执行--> <add key ="DateNum" value ="16,17,25"/> </appSettings></co
阅读全文
posted @ 2011-10-26 09:31
HackerVirus
阅读(847)
推荐(0)
摘要:
倘若有个姑娘想和你玩个游戏:让我们各自亮出硬币的一面,或正或反。如果都是正面,那么我给你3元,如果都是反面,我给你1元,剩下的情况你给我2元就可以了。该不该和她玩这个游戏呢?其实这里面藏着个很大的陷阱,连IQ228的人也判断错了。下面是笔者做的答案:===================================================================假设姑娘出正的概率为x,你出正的概率为y,则一局下来你期望能赚到:3xy+(1-x)(1-y)-2x(1-y)-2y(1-x) = 8xy-3x-3y+1假设有个纳什均衡点,则此点对x,y求导导数均为0。可解的x=3
阅读全文
posted @ 2011-10-25 17:19
HackerVirus
阅读(599)
推荐(0)
摘要:
这是一款用 C# 编写的网络爬虫, 发布在:http://nwebcrawler.codeplex.com/。主要特性有:可配置:线程数、线程等待时间,连接超时时间,可爬取文件类型和优先级、下载目录等。状态栏显示统计信息:排入队列URL数,已下载文件数,已下载总字节数,CPU使用率和可用内存等。有偏好的爬虫:可针对爬取的资源类型设置不同的优先级。健壮性:十几项URL正规化策略以排除冗余下载、爬虫陷阱避免策略的使用等、多种策略以解析相对路径等。较好的性能:基于正则表达式的页面解析、适度加锁、维持HTTP连接等。参见下面的截图:今后有空可能加入的特性:新特性介绍爬取文件用Berkeley DB存储
阅读全文
posted @ 2011-10-25 17:11
HackerVirus
阅读(419)
推荐(0)
摘要:
网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。目录名词解释简介工作原理特征策略算法展开编辑本段名词解释 大家比较熟悉使用各种搜索引擎,但是,还有一种更主动和专门的搜索技术:网络爬虫。编辑本段简介发展应用 随着网络的迅速发展,万维网成为大量信息的载体,如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(Search Engine),例如传统的通用搜索引擎AltaVista,Yahoo!和Goo..
阅读全文
posted @ 2011-10-25 16:25
HackerVirus
阅读(552)
推荐(1)
摘要:
Android系出名门 Android 系列文章索引摘要: 系出名门 Android 系列文章索引:搭建开发环境, 布局, 菜单, 对话框, 通知, 活动, 服务, 广播, 广播接收器, 控件, 数据库支持, 内容提供器, HTTP通信, XML解析, 异步消息处理阅读全文posted @2010-01-30 16:39webabcd 阅读(9541) |评论 (19)编辑|系出名门Android(10) - HTTP 通信, XML 解析, 通过 Hander 实现异步消息处理摘要: 在 Android 中与服务端做 HTTP 通信,解析 XML,通过 Handler 实现异步消息处理。HT
阅读全文
posted @ 2011-10-25 09:24
HackerVirus
阅读(230)
推荐(0)