随笔分类 -  网络爬虫

摘要:package com.open1111.tag; import java.sql.Connection;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.SQLException; import 阅读全文
posted @ 2017-03-22 22:35 小拽A 阅读(152) 评论(0) 推荐(0)
摘要:思路:查询数据库中信息,查询出id和name把那么进行分词存入文件 package com.open1111.index; import java.io.IOException;import java.nio.file.Paths;import java.sql.Connection;import 阅读全文
posted @ 2017-03-22 22:17 小拽A 阅读(491) 评论(0) 推荐(0)
摘要:package com.open111.crawler; import java.io.BufferedReader;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.IOExcept 阅读全文
posted @ 2017-03-21 23:10 小拽A 阅读(163) 评论(0) 推荐(0)
摘要:1.日志log4j 1.1.DEBUG:debug级别 1.2.stdout:输出到控制台 1.3.D:输出到文件 log4j.rootLogger=DEBUG, stdout,D #Console log4j.appender.stdout=org.apache.log4j.ConsoleAppe 阅读全文
posted @ 2017-03-21 22:42 小拽A 阅读(827) 评论(0) 推荐(0)
摘要:相关技术:上一篇+队列 思路分析:将主网站添加进队列,根据httpClent解析该网站,的奥对应的链接,判断链接是否有效,如果有效判断是否是目标,是目标,进行相关操作,不是目标添加进队列,在次解析队列,通过这种方式解析整个网站。 package com.open111.crawler; import 阅读全文
posted @ 2017-03-20 23:08 小拽A 阅读(1562) 评论(0) 推荐(0)
摘要:技术:httpClent+jsoup 任务:利用httpClent爬去网站信息,在利用jsoup解析 方法说明: parseUrl(String url):传入相应的url返回该网页内容,网页必须是html类型格式 parseWebPage(String webPageContent):将网页解析出 阅读全文
posted @ 2017-03-20 22:01 小拽A 阅读(240) 评论(0) 推荐(0)