2009 年 4月 2 日随笔档案 - pual.k3

Java学习之多线程

摘要：有以下三点体会：进程是一个静态的概念；线程是一个进程中不同的执行路径；在同一个时间点上一个CPU只能支持一个线程在执行；多核可以支持多线程。Java通过Java.lang.Thread实现多线程，可以通过创建Thread对象的run()方法来实现，也可以通过使用start()来启动新线程。通过run()有两种方法实现：定义线程实现Runnable接口： Thread myThread=new Th... 阅读全文

posted @ 2009-04-02 17:40 pual.k3 阅读(262) 评论(0) 推荐(0)

简单的网络爬虫类图和序列图

摘要：网上找到的两个简单爬虫的类图和序列图。仔细分析一下，可以知道一个网络爬虫需要完成的任务流程是：获得网页的URL->根据URL进行连接->获得网页内容阅读全文

posted @ 2009-04-02 11:56 pual.k3 阅读(1533) 评论(0) 推荐(0)

Socket获取网页数据

摘要：这几天一直在看爬虫的东西，找到的一点东西先放着。import java.io.*;import java.net.*;public class FirstSocket{ public static void main(String args[]) { //判断参数是否为两个，正确的用法为 FirstSocket 网站页面 if(args.length!=2) { System.out.print... 阅读全文

posted @ 2009-04-02 11:05 pual.k3 阅读(833) 评论(0) 推荐(0)

一个简单的java爬虫（转）

摘要： publicclassAccessimplementsRunnable{HttpURLConnectionhuc;InputStreamis;BufferedReaderreader;Stringurl;publicAccess(){try{url="http://www.yahoo.com.cn";}catch(Exceptione){e.printStackTrace();}try{huc=(... 阅读全文

posted @ 2009-04-02 11:03 pual.k3 阅读(484) 评论(0) 推荐(0)

主题网络爬虫

摘要：主题网络爬虫就是根据一定的网页分析算法过滤与主题无关的链接, 保留主题相关的链接并将其放入待抓取的URL 队列中; 然后根据一定的搜索策略从队列中选择下一步要抓取的网页URL, 并重复上述过程, 直到达到系统的某一条件时停止。所有被网络爬虫抓取的网页将会被系统存储, 进行一定的分析、过滤, 并建立索引, 对于主题网络爬虫来说, 这一过程所得到的分析结果还可能对后续的抓取过程进行反馈和指导。主题网络... 阅读全文

posted @ 2009-04-02 10:14 pual.k3 阅读(1320) 评论(1) 推荐(0)

一些常见爬虫

摘要： RBSE （Eichmann，1994）是第一个发布的爬虫。它有两个基础程序。第一个是“spider”，抓取队列中的内容到一个关系数据库中，第二个程序是“mite”，是一个修改后的www的ASCII浏览器，负责从网络上下载页面。　　 WebCrawler（Pinkerton，1994）是第一个公开可用的用来建立全文索引的一个子程序，他使用库www... 阅读全文

posted @ 2009-04-02 09:50 pual.k3 阅读(1557) 评论(1) 推荐(0)

pual.k3