jsoup爬虫技术+druid连接池
介绍:
优点:
1、与java形成良好的支持
2、jsoup技术类似于
同类型产品:
1、入门 级:八爪鱼提取工具
2、jsoup:java原生提供的爬取工具
入门案例:
爬虫原理:模拟http请求,然后从目标网站或整个或者json数据/xml数据
爬虫步骤:
1、定位目标网站url
2、模拟http请求爬取数据
3、分析处理页面信息
4、将数据封装特定的格式后入库
获取静态数据
@Test public void test01() throws IOException{ String url = "http://www.it211.com.cn/web/index_new.html?tedu"; Document dom = Jsoup.connect(url).get(); Element element1 = dom.select(".b_search").get(0); Element element2 = element1.select("div h2").get(0); String result = element2.text(); System.out.println(result); }
获取动态数据
有些网站出于安全性和交互性的考虑,采用了动态的数据获取的方式,进行数据加载!
1、通过浏览器的开发者工具分析网站的js请求,根据js的返回值获取需要的数据
@Test
public void test03() throws IOException{
String url = "http://www.it211.com.cn/boutiqueSeries/findSeriesCourseByCourseId?courseId=1000";
String result = Jsoup.connect(url).ignoreContentType(true).execute().body();
//通过objectMapper解析json串
JsonNode node = objectMapper.readTree(result);
String data = node.get("obj").get("bookNum").asText();
System.out.println(data);
}
获得json数据并进行处理
public void insert(String url, int status) { try { //通过url获取json数据,在截取前需要对获取的数据进行分析 String data = Jsoup.connect(url).ignoreContentType(true).execute().body(); StudentBookListVO studentBookListVO = objectMapper.readValue(data, StudentBookListVO.class); List<StudentBook> lists = studentBookListVO.getBookList(); for(StudentBook studentBook : lists){ List<StudentSection> sections = studentBook.getSections(); if(sections!=null){ for (StudentSection studentSection : sections) { studentSectionMapper.insert(studentSection); } } studentBook.setBookImg("http://www.it211.com.cn/web/library/tu_new/"+studentBook.getBookImg()); studentBook.setStatus(status); studentBookMapper.insert(studentBook); } } catch (Exception e) { // TODO Auto-generated catch block e.printStackTrace(); } }
druid连接池及监控
说明:使用阿里的Druid数据源,是当前国内性能最好的数据库链接池.并且提供了数据的监控功能.
添加依赖:
<dependency> <groupId>com.alibaba</groupId> <artifactId>druid</artifactId> <version>1.0.29</version> </dependency>
<?xml version="1.0" encoding="UTF-8"?> <web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns="http://java.sun.com/xml/ns/javaee" xsi:schemaLocation="http://java.sun.com/xml/ns/javaee http://java.sun.com/xml/ns/javaee/web-app_2_5.xsd" id="jt-manage" version="2.5"> <display-name>jt-jsoup</display-name> <!-- web应用状态监控过滤器 --> <filter> <filter-name>DruidWebStatFilter</filter-name> <filter-class>com.alibaba.druid.support.http.WebStatFilter</filter-class> <init-param> <param-name>exclusions</param-name> <param-value>*.js,*.gif,*.jpg,*.png,*.css,*.ico,/druid/*</param-value> </init-param> </filter> <filter-mapping> <filter-name>DruidWebStatFilter</filter-name> <url-pattern>/*</url-pattern> </filter-mapping> <!-- Druid监控视图Servlet --> <servlet> <servlet-name>DruidStatView</servlet-name> <servlet-class>com.alibaba.druid.support.http.StatViewServlet</servlet-class> <!-- 可选项 登陆的用户名和密码 --> <init-param> <param-name>loginUsername</param-name> <param-value>druid</param-value> </init-param> <init-param> <param-name>loginPassword</param-name> <param-value>druid</param-value> </init-param> </servlet> <servlet-mapping> <servlet-name>DruidStatView</servlet-name> <url-pattern>/druid/*</url-pattern> </servlet-mapping> <!--定义前端控制器 --> <servlet> <servlet-name>springmvc</servlet-name> <servlet-class>org.springframework.web.servlet.DispatcherServlet</servlet-class> <init-param> <param-name>contextConfigLocation</param-name> <param-value>classpath:/spring/applicationContext*.xml</param-value> </init-param> </servlet> <!--/表示拦截所有请求和静态资源 不拦截动态资源 --> <servlet-mapping> <servlet-name>springmvc</servlet-name> <url-pattern>/</url-pattern> </servlet-mapping> </web-app>
JDBC连接配置
jdbc.driverClassName=com.mysql.jdbc.Driver jdbc.url=jdbc:mysql://127.0.0.1:3306/jtdb?useUnicode=true&characterEncoding=UTF-8 jdbc.username=root jdbc.password=root #初始化连接数量 jdbc.initialSize=10 #最大并发连接数 jdbc.maxActive=100 #已经不再使用,配置了也没效果 jdbc.maxIdle=10 #最小空闲连接数 jdbc.minIdle=5 #获取连接等待超时的时间 jdbc.maxWait=5000 #用来检测连接是否有效的sql,要求是一个查询语句 jdbc.validationQuery=SELECT * FROM USER #单位:秒,检测连接是否有效的超时时间。底层调用jdbc Statement对象的void setQueryTimeout(int seconds)方法 jdbc.validationQueryTimeout=3 #申请连接的时候检测,如果空闲时间大于timeBetweenEvictionRunsMillis,执行validationQuery检测连接是否有效。 jdbc.testWhileIdle=true #申请连接时执行validationQuery检测连接是否有效,配置为true会降低性能 jdbc.testOnBorrow=false #归还连接时执行validationQuery检测连接是否有效,配置为true会降低性能 jdbc.testOnReturn=false #连接保活 #打开KeepAlive之后的效果: #1、初始化连接池时会填充到minIdle数量。 #2、连接池中的minIdle数量以内的连接,空闲时间超过minEvictableIdleTimeMillis,则会执行keepAlive操作。 #3、当网络断开等原因产生的由ExceptionSorter检测出来的死连接被清除后,自动补充连接到minIdle数量。 jdbc.keepAlive=true #对于建立时间超过removeAbandonedTimeout的连接强制关闭(连接泄露自动检测) jdbc.removeAbandoned=true #连接建立多长时间就需要被强制关闭(1800秒,也就是30分钟)(连接长时间没有使用,被认为发生泄露时长) jdbc.removeAbandonedTimeout=1800 #配置间隔多久才进行一次检测,检测需要关闭的空闲连接,单位是毫秒 #jdbc.timeBetweenEvictionRunsMillis=60000 jdbc.timeBetweenEvictionRunsMillis=60000 #连接保持空闲而不被驱逐的最长时间(Destory线程中如果检测到当前连接的最后活跃时间和当前时间的差值大于minEvictableIdleTimeMillis,则关闭当前连接)。单位是毫秒 #jdbc.minEvictableIdleTimeMillis=1800000 #jdbc.minEvictableIdleTimeMillis=300000 jdbc.minEvictableIdleTimeMillis=60000 #是否打开PreparedStatementCache,并且指定每个连接上PSCache的大小 jdbc.poolPreparedStatements=true #指定每个连接上PSCache的大小 jdbc.maxPoolPreparedStatementPerConnectionSize=500 #关闭abanded连接时输出错误日志 jdbc.logAbandoned=true #属性类型是字符串,通过别名的方式配置扩展插件,常用的插件有: 常用的插件有: 监控统计用的filter:stat 日志用的filter:log4j 防御sql注入的filter:wall jdbc.filters=stat,wall
springMVC配置
<?xml version="1.0" encoding="UTF-8"?> <beans xmlns="http://www.springframework.org/schema/beans" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:p="http://www.springframework.org/schema/p" xmlns:context="http://www.springframework.org/schema/context" xmlns:mvc="http://www.springframework.org/schema/mvc" xsi:schemaLocation="http://www.springframework.org/schema/beans http://www.springframework.org/schema/beans/spring-beans.xsd http://www.springframework.org/schema/mvc http://www.springframework.org/schema/mvc/spring-mvc-4.0.xsd http://www.springframework.org/schema/context http://www.springframework.org/schema/context/spring-context.xsd"> <!--开启mvc注解 --> <mvc:annotation-driven/> <!--开启包扫描 --> <context:component-scan base-package="com.tedu.druid.controller"/> <!--定义视图解析器 --> <bean class="org.springframework.web.servlet.view.InternalResourceViewResolver"> <!--定义前缀和后缀 --> <property name="prefix" value="/WEB-INF/"/> <property name="suffix" value=".jsp"/> </bean> <!--定义文件上传视图解析器 规定id的值必须为multipartResolver--> <bean id="multipartResolver" class="org.springframework.web.multipart.commons.CommonsMultipartResolver"> <!--定义文件上传最大值 10M 1024*1024*10 =10485760 --> <property name="maxUploadSize" value="10485760"/> <!--定义文件上传的编码 --> <property name="defaultEncoding" value="UTF-8"/> </bean> <!--放行静态资源文件 --> <mvc:default-servlet-handler/> </beans>
spring配置
<beans xmlns="http://www.springframework.org/schema/beans" xmlns:context="http://www.springframework.org/schema/context" xmlns:aop="http://www.springframework.org/schema/aop" xmlns:tx="http://www.springframework.org/schema/tx" xmlns:util="http://www.springframework.org/schema/util" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation=" http://www.springframework.org/schema/beans http://www.springframework.org/schema/beans/spring-beans-4.0.xsd http://www.springframework.org/schema/context http://www.springframework.org/schema/context/spring-context-4.0.xsd http://www.springframework.org/schema/aop http://www.springframework.org/schema/aop/spring-aop-4.0.xsd http://www.springframework.org/schema/tx http://www.springframework.org/schema/tx/spring-tx-4.0.xsd http://www.springframework.org/schema/util http://www.springframework.org/schema/util/spring-util-4.0.xsd"> <!--开启包扫描 --> <context:component-scan base-package="com.tedu.druid.service"/> <!--引入多个配置文件--> <bean id="propertyConfigurer" class="org.springframework.beans.factory.config.PropertyPlaceholderConfigurer"> <property name="locations"> <list> <value>classpath:jdbc.properties</value> </list> </property> </bean> <!--druid数据库连接 --> <bean id="dataSource" class="com.alibaba.druid.pool.DruidDataSource"> <property name="driverClassName" value="${jdbc.driverClassName}" /> <property name="url" value="${jdbc.url}" /> <property name="username" value="${jdbc.username}" /> <property name="password" value="${jdbc.password}" /> <property name="initialSize" value="${jdbc.initialSize}" /> <property name="maxActive" value="${jdbc.maxActive}" /> <property name="minIdle" value="${jdbc.minIdle}" /> <property name="maxWait" value="${jdbc.maxWait}" /> <property name="validationQuery" value="${jdbc.validationQuery}"/> <property name="validationQueryTimeout" value="${jdbc.validationQueryTimeout}"/> <property name="keepAlive" value="${jdbc.keepAlive}" /> <property name="testOnBorrow" value="${jdbc.testOnBorrow}" /> <property name="testOnReturn" value="${jdbc.testOnReturn}" /> <property name="testWhileIdle" value="${jdbc.testWhileIdle}" /> <property name="removeAbandoned" value="${jdbc.removeAbandoned}" /> <property name="removeAbandonedTimeout" value="${jdbc.removeAbandonedTimeout}" /> <property name="timeBetweenEvictionRunsMillis" value="${jdbc.timeBetweenEvictionRunsMillis}" /> <property name="minEvictableIdleTimeMillis" value="${jdbc.minEvictableIdleTimeMillis}" /> <!-- 关闭abanded连接时输出错误日志 --> <property name="logAbandoned" value="${jdbc.logAbandoned}" /> <!-- 监控数据库 --> <property name="filters" value="${jdbc.filters}" /> </bean> <!-- 配置druid监控spring jdbc --> <bean id="druid-stat-interceptor" class="com.alibaba.druid.support.spring.stat.DruidStatInterceptor"></bean> <bean id="druid-stat-pointcut" class="org.springframework.aop.support.JdkRegexpMethodPointcut" scope="prototype"> <property name="patterns"> <list> <!-- 针对项目中的Service层调用进行监控 --> <value>com.tedu.druid.service.*</value> </list> </property> </bean> <aop:config> <aop:advisor advice-ref="druid-stat-interceptor" pointcut-ref="druid-stat-pointcut" /> </aop:config> <!-- spring和MyBatis完美整合,不需要mybatis的配置映射文件 --> <bean id="sqlSessionFactory" class="org.mybatis.spring.SqlSessionFactoryBean"> <property name="dataSource" ref="dataSource" /> <!-- 开启别名包 --> <property name="typeAliasesPackage" value="com.tedu.druid.pojo"></property> <property name="configLocation" value="classpath:mybatis/mybatis-config.xml"></property> <!-- 自动扫描mapping.xml文件--> <property name="mapperLocations" value="classpath:mybatis/mappers/*.xml"></property> </bean> <!-- 配置扫描Dao接口包,动态实现Dao接口,注入到spring容器中 --> <bean class="org.mybatis.spring.mapper.MapperScannerConfigurer"> <property name="basePackage" value="com.tedu.druid.mapper" /> <property name="sqlSessionFactoryBeanName" value="sqlSessionFactory"></property> </bean> <!-- (事务管理)transaction manager --> <bean id="transactionManager" class="org.springframework.jdbc.datasource.DataSourceTransactionManager"> <property name="dataSource" ref="dataSource" /> </bean> <!-- 第一种方式: 注解方式配置事物 --> <!-- <tx:annotation-driven transaction-manager="transactionManager" /> --> <!-- 第二种方式: 拦截器方式配置事物 --> <tx:advice id="transactionAdvice" transaction-manager="transactionManager"> <tx:attributes> <tx:method name="save*" propagation="REQUIRED" rollback-for="Exception" /> <tx:method name="update*" propagation="REQUIRED" rollback-for="Exception" /> <tx:method name="delete*" propagation="REQUIRED" rollback-for="Exception"/> <tx:method name="insert*" propagation="REQUIRED" rollback-for="Exception"/> <tx:method name="get*" propagation="SUPPORTS" read-only="true"/> <tx:method name="select*" propagation="SUPPORTS" read-only="true"/> <tx:method name="*" propagation="SUPPORTS" read-only="true"/> </tx:attributes> </tx:advice> <!-- Spring AOP config 解释一下 (* com.evan.crm.service.*.*(..)) 中几个通配符的含义: --> <!-- 第一个 * —— 通配 任意返回值类型 --> <!-- 第二个 * —— 通配 包com.evan.crm.service下的任意class --> <!-- 第三个 * —— 通配包com.evan.crm.service下的任意class的任意方法 --> <!-- 第四个 .. —— 通配 方法可以有0个或多个参数 --> <!-- 事务控制位置,一般在业务层service --> <aop:config> <aop:pointcut id="transactionPointcut" expression="execution(* com.tedu.druid.service.*.*(..))" /> <!-- 多个 expression="(execution(* com.weixin.web.service..*Impl.*(..)))or(execution(* org.weixin.service..*Impl.*(..)))" --> <aop:advisor pointcut-ref="transactionPointcut" advice-ref="transactionAdvice" /> </aop:config> </beans>
mybatis-config配置
<?xml version="1.0" encoding="UTF-8" ?> <!DOCTYPE configuration PUBLIC "-//mybatis.org//DTD Config 3.0//EN" "http://mybatis.org/dtd/mybatis-3-config.dtd"> <configuration> <settings> <!-- 开启驼峰自动映射 --> <setting name="mapUnderscoreToCamelCase" value="true" /> <!-- 二级缓存的总开关,被redis替代 --> <setting name="cacheEnabled" value="false" /> </settings> <plugins> <!-- 通用Mapper插件 --> <plugin interceptor="com.github.abel533.mapperhelper.MapperInterceptor"> <!--主键自增回写方法,默认值MYSQL,详细说明请看文档 --> <property name="IDENTITY" value="MYSQL" /> <!--通用Mapper接口,多个通用接口用逗号隔开 --> <property name="mappers" value="com.jt.common.mapper.SysMapper" /> </plugin> </plugins> </configuration>
访问地址:http://localhost:8097/druid/