随笔档案「2013年3月20日」：Java 网络爬虫获取网页源代码原理及实现 ... - 旭东的博客

Java 网络爬虫获取网页源代码原理及实现

摘要： 1.网络爬虫是一个自动提取网页的程序，它为搜索引擎从万维网上下载网页，是搜索引擎的重要组成。传统爬虫从一个或若干初始网页的URL开始，获得初始网页上的URL，在抓取网页的过程中，不断从当前页面上抽取新的URL放入队列，直到满足系统的一定停止条件。 2.那么程序获取网页的原理到底是怎么回事呢？看下面的图：客服端首先向服务器端发出Http请求，之后服务器端返回相应的结果或者请求超时客户端自己报错。服务器端发出的Http请求，实际上说是对服务器的文件的请求。下面的表格是一些常见的HTTP请求对应的文件。（因为第一列给出的都是主机的网址信息，主机一般都通过配置文件将该请求转换为网站主页地址i... 阅读全文

posted @ 2013-03-20 21:35 旭东的博客阅读(22056) 评论(1) 推荐(4)

海量数据处理的 Top K算法(问题) 小顶堆实现

摘要：问题描述：有N(N>>10000)个整数,求出其中的前K个最大的数。（称作Top k或者Top 10）问题分析：由于(1)输入的大量数据；(2)只要前K个，对整个输入数据的保存和排序是相当的不可取的。可以利用数据结构的最小堆来处理该问题。最小堆如图所示，对于每个非叶子节点的数值，一定不大于孩子节点的数值。这样可用含有K个节点的最小堆来保存K个目前的最大值(当然根节点是其中的最小数值)。每次有数据输入的时候可以先与根节点比较。若不大于根节点，则舍弃；否则用新数值替换根节点数值。并进行最小堆的调整。实现代码以及说明：#include<stdio... 阅读全文

posted @ 2013-03-20 15:24 旭东的博客阅读(49879) 评论(4) 推荐(3)

Java数据导出（写）Excel文件解析

摘要：在编程中经常需要使用到表格（报表）的处理主要以Excel表格为主。下面给出用java写入数据到excel表格方法： 1.添加jar文件 java导入导出Excel文件要引入jxl.jar包，最关键的是这套API是纯Java的，并不依赖Windows系统，即使运行在Linux下，它同样能够正确的处理Excel文件。下载地址:http://www.andykhan.com/jexcelapi/ 2.jxl对Excel表格的认识可以参见http://www.cnblogs.com/xudong-bupt/archive/2013/03/19/2969997.html 如下图是... 阅读全文

posted @ 2013-03-20 11:49 旭东的博客阅读(10804) 评论(0) 推荐(2)

旭东的博客

Java 网络爬虫获取网页源代码原理及实现

海量数据处理的 Top K算法(问题) 小顶堆实现

Java数据导出（写）Excel文件解析

导航

公告

旭东的博客

Java 网络爬虫获取网页源代码原理及实现

海量数据处理的 Top K算法(问题) 小顶堆实现

Java数据导出（写）Excel文件 解析

导航

公告

Java数据导出（写）Excel文件解析