随笔分类 - 网络爬虫
摘要:package com.open1111.tag; import java.sql.Connection;import java.sql.PreparedStatement;import java.sql.ResultSet;import java.sql.SQLException; import
阅读全文
摘要:思路:查询数据库中信息,查询出id和name把那么进行分词存入文件 package com.open1111.index; import java.io.IOException;import java.nio.file.Paths;import java.sql.Connection;import
阅读全文
摘要:package com.open111.crawler; import java.io.BufferedReader;import java.io.FileInputStream;import java.io.FileNotFoundException;import java.io.IOExcept
阅读全文
摘要:1.日志log4j 1.1.DEBUG:debug级别 1.2.stdout:输出到控制台 1.3.D:输出到文件 log4j.rootLogger=DEBUG, stdout,D #Console log4j.appender.stdout=org.apache.log4j.ConsoleAppe
阅读全文
摘要:相关技术:上一篇+队列 思路分析:将主网站添加进队列,根据httpClent解析该网站,的奥对应的链接,判断链接是否有效,如果有效判断是否是目标,是目标,进行相关操作,不是目标添加进队列,在次解析队列,通过这种方式解析整个网站。 package com.open111.crawler; import
阅读全文
摘要:技术:httpClent+jsoup 任务:利用httpClent爬去网站信息,在利用jsoup解析 方法说明: parseUrl(String url):传入相应的url返回该网页内容,网页必须是html类型格式 parseWebPage(String webPageContent):将网页解析出
阅读全文

浙公网安备 33010602011771号