网络爬虫 - 随笔分类 - 小拽A

爬出系统-生成标签

摘要：package com.open1111.tag; import java.sql.Connection;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.SQLException; import 阅读全文

posted @ 2017-03-22 22:35 小拽A 阅读(152) 评论(0) 推荐(0)

爬虫系统Lucene分词

摘要：思路：查询数据库中信息，查询出id和name把那么进行分词存入文件 package com.open1111.index; import java.io.IOException;import java.nio.file.Paths;import java.sql.Connection;import 阅读全文

posted @ 2017-03-22 22:17 小拽A 阅读(491) 评论(0) 推荐(0)

爬虫系统-多线程

摘要：package com.open111.crawler; import java.io.BufferedReader;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.IOExcept 阅读全文

posted @ 2017-03-21 23:10 小拽A 阅读(163) 评论(0) 推荐(0)

爬虫系统-日志、初始化url

摘要：1.日志log4j 1.1.DEBUG:debug级别 1.2.stdout：输出到控制台 1.3.D：输出到文件 log4j.rootLogger=DEBUG, stdout,D #Console log4j.appender.stdout=org.apache.log4j.ConsoleAppe 阅读全文

posted @ 2017-03-21 22:42 小拽A 阅读(827) 评论(0) 推荐(0)

爬虫-过滤无关网页、循环爬去整个网站

摘要：相关技术：上一篇+队列思路分析：将主网站添加进队列，根据httpClent解析该网站，的奥对应的链接，判断链接是否有效，如果有效判断是否是目标，是目标，进行相关操作，不是目标添加进队列，在次解析队列，通过这种方式解析整个网站。 package com.open111.crawler; import 阅读全文

posted @ 2017-03-20 23:08 小拽A 阅读(1562) 评论(0) 推荐(0)

爬虫技术-httpClent+jsoup

摘要：技术：httpClent+jsoup 任务：利用httpClent爬去网站信息，在利用jsoup解析方法说明： parseUrl(String url)：传入相应的url返回该网页内容，网页必须是html类型格式 parseWebPage(String webPageContent)：将网页解析出阅读全文

posted @ 2017-03-20 22:01 小拽A 阅读(240) 评论(0) 推荐(0)

小拽A

随笔分类 - 网络爬虫

公告