2013年3月20日

Java 网络爬虫获取网页源代码原理及实现

摘要: 1.网络爬虫是一个自动提取网页的程序,它为搜索引擎从万维网上下载网页,是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始,获得初始网页上的URL,在抓取网页的过程中,不断从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。 2.那么程序获取网页的原理到底是怎么回事呢?看下面的图:客服端首先向服务器端发出Http请求,之后服务器端返回相应的结果或者请求超时客户端自己报错。 服务器端发出的Http请求,实际上说是对服务器的文件的请求。下面的表格是一些常见的HTTP请求对应的文件。(因为第一列给出的都是主机的网址信息,主机一般都通过配置文件将该请求转换为网站主页地址i... 阅读全文

posted @ 2013-03-20 21:35 旭东的博客 阅读(22044) 评论(1) 推荐(4)

海量数据处理的 Top K算法(问题) 小顶堆实现

摘要: 问题描述:有N(N>>10000)个整数,求出其中的前K个最大的数。(称作Top k或者Top 10) 问题分析:由于(1)输入的大量数据;(2)只要前K个,对整个输入数据的保存和排序是相当的不可取的。 可以利用数据结构的最小堆来处理该问题。 最小堆如图所示,对于每个非叶子节点的数值,一定不大于孩子节点的数值。这样可用含有K个节点的最小堆来保存K个目前的最大值(当然根节点是其中的最小数值)。 每次有数据输入的时候可以先与根节点比较。若不大于根节点,则舍弃;否则用新数值替换根节点数值。并进行最小堆的调整。 实现代码以及说明:#include<stdio... 阅读全文

posted @ 2013-03-20 15:24 旭东的博客 阅读(49859) 评论(4) 推荐(3)

Java数据导出(写)Excel文件 解析

摘要: 在编程中经常需要使用到表格(报表)的处理主要以Excel表格为主。下面给出用java写入数据到excel表格方法: 1.添加jar文件 java导入导出Excel文件要引入jxl.jar包,最关键的是这套API是纯Java的,并不依赖Windows系统,即使运行在Linux下,它同样能够正确的处理Excel文件。下载地 址:http://www.andykhan.com/jexcelapi/ 2.jxl对Excel表格的认识 可以参见http://www.cnblogs.com/xudong-bupt/archive/2013/03/19/2969997.html 如下图是... 阅读全文

posted @ 2013-03-20 11:49 旭东的博客 阅读(10802) 评论(0) 推荐(2)

导航