jsoup爬虫技术+druid连接池

 

介绍:

 

 优点:

  1、与java形成良好的支持

  2、jsoup技术类似于

同类型产品:

  1、入门 级:八爪鱼提取工具

  2、jsoup:java原生提供的爬取工具

入门案例:

  爬虫原理:模拟http请求,然后从目标网站或整个或者json数据/xml数据

  爬虫步骤:

    1、定位目标网站url

    2、模拟http请求爬取数据

    3、分析处理页面信息

    4、将数据封装特定的格式后入库

 获取静态数据

    @Test
    public void test01() throws IOException{
        String url = "http://www.it211.com.cn/web/index_new.html?tedu";
        Document dom = Jsoup.connect(url).get();
        Element element1 = dom.select(".b_search").get(0);
        Element element2 = element1.select("div h2").get(0);
        String result = element2.text();
        System.out.println(result);
    }
获取静态数据

 

获取动态数据

  有些网站出于安全性和交互性的考虑,采用了动态的数据获取的方式,进行数据加载!

  1、通过浏览器的开发者工具分析网站的js请求,根据js的返回值获取需要的数据

@Test
    public void test03() throws IOException{
        String url = "http://www.it211.com.cn/boutiqueSeries/findSeriesCourseByCourseId?courseId=1000";
        String result = Jsoup.connect(url).ignoreContentType(true).execute().body();
        //通过objectMapper解析json串
        JsonNode node = objectMapper.readTree(result);
        String data = node.get("obj").get("bookNum").asText();
        System.out.println(data);
    }
获取动态数据

 

获得json数据并进行处理

public void insert(String url, int status) {
        try {
            //通过url获取json数据,在截取前需要对获取的数据进行分析
            String data = Jsoup.connect(url).ignoreContentType(true).execute().body();
            StudentBookListVO studentBookListVO = objectMapper.readValue(data, StudentBookListVO.class);
            List<StudentBook> lists = studentBookListVO.getBookList();
            for(StudentBook studentBook : lists){
                List<StudentSection> sections = studentBook.getSections();
                if(sections!=null){
                    for (StudentSection studentSection : sections) {
                        studentSectionMapper.insert(studentSection);
                    }
                }                
                studentBook.setBookImg("http://www.it211.com.cn/web/library/tu_new/"+studentBook.getBookImg());
                studentBook.setStatus(status);
                studentBookMapper.insert(studentBook);
            }
        } catch (Exception e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }
处理爬到孤数据

 

druid连接池及监控

说明:使用阿里的Druid数据源,是当前国内性能最好的数据库链接池.并且提供了数据的监控功能.

添加依赖:

<dependency>
      <groupId>com.alibaba</groupId>
      <artifactId>druid</artifactId>
      <version>1.0.29</version>
</dependency>
<?xml version="1.0" encoding="UTF-8"?>
<web-app xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xmlns="http://java.sun.com/xml/ns/javaee"
    xsi:schemaLocation="http://java.sun.com/xml/ns/javaee http://java.sun.com/xml/ns/javaee/web-app_2_5.xsd"
    id="jt-manage" version="2.5">
    <display-name>jt-jsoup</display-name>

    <!-- web应用状态监控过滤器 -->
    <filter>
        <filter-name>DruidWebStatFilter</filter-name>
        <filter-class>com.alibaba.druid.support.http.WebStatFilter</filter-class>
        <init-param>
            <param-name>exclusions</param-name>
            <param-value>*.js,*.gif,*.jpg,*.png,*.css,*.ico,/druid/*</param-value>
        </init-param>
    </filter>
    
    <filter-mapping>
        <filter-name>DruidWebStatFilter</filter-name>
        <url-pattern>/*</url-pattern>
    </filter-mapping>
    
    <!-- Druid监控视图Servlet -->
    <servlet>
        <servlet-name>DruidStatView</servlet-name>
        <servlet-class>com.alibaba.druid.support.http.StatViewServlet</servlet-class>
        <!-- 可选项 登陆的用户名和密码 -->
        <init-param>
            <param-name>loginUsername</param-name>
            <param-value>druid</param-value>
        </init-param>
        <init-param>
            <param-name>loginPassword</param-name>
            <param-value>druid</param-value>
        </init-param>
    </servlet>
    <servlet-mapping>
        <servlet-name>DruidStatView</servlet-name>
        <url-pattern>/druid/*</url-pattern>
    </servlet-mapping>
    
    <!--定义前端控制器  -->
    <servlet>
        <servlet-name>springmvc</servlet-name>
        <servlet-class>org.springframework.web.servlet.DispatcherServlet</servlet-class>
        <init-param>
            <param-name>contextConfigLocation</param-name>
            <param-value>classpath:/spring/applicationContext*.xml</param-value>
        </init-param>
    </servlet>
    
    <!--/表示拦截所有请求和静态资源 不拦截动态资源 -->
    <servlet-mapping>
        <servlet-name>springmvc</servlet-name>
        <url-pattern>/</url-pattern>
    </servlet-mapping>
    
</web-app>
web.xml

 

JDBC连接配置

jdbc.driverClassName=com.mysql.jdbc.Driver

jdbc.url=jdbc:mysql://127.0.0.1:3306/jtdb?useUnicode=true&characterEncoding=UTF-8

jdbc.username=root
jdbc.password=root
#初始化连接数量
jdbc.initialSize=10
#最大并发连接数
jdbc.maxActive=100
#已经不再使用,配置了也没效果
jdbc.maxIdle=10
#最小空闲连接数
jdbc.minIdle=5
#获取连接等待超时的时间
jdbc.maxWait=5000

#用来检测连接是否有效的sql,要求是一个查询语句
jdbc.validationQuery=SELECT * FROM USER
#单位:秒,检测连接是否有效的超时时间。底层调用jdbc Statement对象的void setQueryTimeout(int seconds)方法
jdbc.validationQueryTimeout=3
#申请连接的时候检测,如果空闲时间大于timeBetweenEvictionRunsMillis,执行validationQuery检测连接是否有效。
jdbc.testWhileIdle=true
#申请连接时执行validationQuery检测连接是否有效,配置为true会降低性能
jdbc.testOnBorrow=false
#归还连接时执行validationQuery检测连接是否有效,配置为true会降低性能
jdbc.testOnReturn=false

#连接保活
#打开KeepAlive之后的效果:
#1、初始化连接池时会填充到minIdle数量。
#2、连接池中的minIdle数量以内的连接,空闲时间超过minEvictableIdleTimeMillis,则会执行keepAlive操作。
#3、当网络断开等原因产生的由ExceptionSorter检测出来的死连接被清除后,自动补充连接到minIdle数量。
jdbc.keepAlive=true

#对于建立时间超过removeAbandonedTimeout的连接强制关闭(连接泄露自动检测)
jdbc.removeAbandoned=true
#连接建立多长时间就需要被强制关闭(1800秒,也就是30分钟)(连接长时间没有使用,被认为发生泄露时长)
jdbc.removeAbandonedTimeout=1800

#配置间隔多久才进行一次检测,检测需要关闭的空闲连接,单位是毫秒
#jdbc.timeBetweenEvictionRunsMillis=60000
jdbc.timeBetweenEvictionRunsMillis=60000
#连接保持空闲而不被驱逐的最长时间(Destory线程中如果检测到当前连接的最后活跃时间和当前时间的差值大于minEvictableIdleTimeMillis,则关闭当前连接)。单位是毫秒
#jdbc.minEvictableIdleTimeMillis=1800000
#jdbc.minEvictableIdleTimeMillis=300000
jdbc.minEvictableIdleTimeMillis=60000

#是否打开PreparedStatementCache,并且指定每个连接上PSCache的大小
jdbc.poolPreparedStatements=true
#指定每个连接上PSCache的大小
jdbc.maxPoolPreparedStatementPerConnectionSize=500

#关闭abanded连接时输出错误日志
jdbc.logAbandoned=true
#属性类型是字符串,通过别名的方式配置扩展插件,常用的插件有: 常用的插件有: 监控统计用的filter:stat     日志用的filter:log4j   防御sql注入的filter:wall
jdbc.filters=stat,wall
jdbc.properties

springMVC配置

<?xml version="1.0" encoding="UTF-8"?>
<beans xmlns="http://www.springframework.org/schema/beans"
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xmlns:p="http://www.springframework.org/schema/p"
    xmlns:context="http://www.springframework.org/schema/context"
    xmlns:mvc="http://www.springframework.org/schema/mvc"
    xsi:schemaLocation="http://www.springframework.org/schema/beans http://www.springframework.org/schema/beans/spring-beans.xsd
        http://www.springframework.org/schema/mvc http://www.springframework.org/schema/mvc/spring-mvc-4.0.xsd
        http://www.springframework.org/schema/context http://www.springframework.org/schema/context/spring-context.xsd">


    <!--开启mvc注解  -->
    <mvc:annotation-driven/>
    
    <!--开启包扫描  -->
    <context:component-scan base-package="com.tedu.druid.controller"/>
    
    <!--定义视图解析器  -->
    <bean class="org.springframework.web.servlet.view.InternalResourceViewResolver">
        <!--定义前缀和后缀  -->
        <property name="prefix" value="/WEB-INF/"/>
        <property name="suffix" value=".jsp"/>
    </bean>
    
    <!--定义文件上传视图解析器  规定id的值必须为multipartResolver-->
    <bean id="multipartResolver" class="org.springframework.web.multipart.commons.CommonsMultipartResolver">
        <!--定义文件上传最大值 10M   1024*1024*10 =10485760 -->
        <property name="maxUploadSize" value="10485760"/>
        
        <!--定义文件上传的编码  -->
        <property name="defaultEncoding" value="UTF-8"/>
    </bean>
    
    
    <!--放行静态资源文件  -->
    <mvc:default-servlet-handler/>    
    
</beans>
applicationContext-mvc.xml

spring配置

<beans xmlns="http://www.springframework.org/schema/beans"
    xmlns:context="http://www.springframework.org/schema/context"
    xmlns:aop="http://www.springframework.org/schema/aop" 
    xmlns:tx="http://www.springframework.org/schema/tx"
    xmlns:util="http://www.springframework.org/schema/util"
    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
    xsi:schemaLocation="
    http://www.springframework.org/schema/beans http://www.springframework.org/schema/beans/spring-beans-4.0.xsd
    http://www.springframework.org/schema/context http://www.springframework.org/schema/context/spring-context-4.0.xsd
    http://www.springframework.org/schema/aop http://www.springframework.org/schema/aop/spring-aop-4.0.xsd 
    http://www.springframework.org/schema/tx http://www.springframework.org/schema/tx/spring-tx-4.0.xsd
    http://www.springframework.org/schema/util http://www.springframework.org/schema/util/spring-util-4.0.xsd">
                        
    <!--开启包扫描  -->
    <context:component-scan base-package="com.tedu.druid.service"/>  

    <!--引入多个配置文件-->
    <bean id="propertyConfigurer"  
        class="org.springframework.beans.factory.config.PropertyPlaceholderConfigurer">
        <property name="locations">
            <list>
                <value>classpath:jdbc.properties</value>
            </list>
        </property>  
    </bean>  

    <!--druid数据库连接  -->
     <bean id="dataSource" class="com.alibaba.druid.pool.DruidDataSource">
        <property name="driverClassName" value="${jdbc.driverClassName}" />
        <property name="url" value="${jdbc.url}" />
        <property name="username" value="${jdbc.username}" />
        <property name="password" value="${jdbc.password}" />
        <property name="initialSize" value="${jdbc.initialSize}" />
        <property name="maxActive" value="${jdbc.maxActive}" />
        <property name="minIdle" value="${jdbc.minIdle}" />
        <property name="maxWait" value="${jdbc.maxWait}" />
        <property name="validationQuery" value="${jdbc.validationQuery}"/>
        <property name="validationQueryTimeout" value="${jdbc.validationQueryTimeout}"/> 
        <property name="keepAlive" value="${jdbc.keepAlive}" />
        <property name="testOnBorrow" value="${jdbc.testOnBorrow}" />
        <property name="testOnReturn" value="${jdbc.testOnReturn}" />
        <property name="testWhileIdle" value="${jdbc.testWhileIdle}" />
        <property name="removeAbandoned" value="${jdbc.removeAbandoned}" />
        <property name="removeAbandonedTimeout" value="${jdbc.removeAbandonedTimeout}" />
        <property name="timeBetweenEvictionRunsMillis" value="${jdbc.timeBetweenEvictionRunsMillis}" />
        <property name="minEvictableIdleTimeMillis" value="${jdbc.minEvictableIdleTimeMillis}" />

        <!-- 关闭abanded连接时输出错误日志 -->
        <property name="logAbandoned" value="${jdbc.logAbandoned}" />
        <!-- 监控数据库 -->
        <property name="filters" value="${jdbc.filters}" />
    </bean>

    <!-- 配置druid监控spring jdbc -->
    <bean id="druid-stat-interceptor" class="com.alibaba.druid.support.spring.stat.DruidStatInterceptor"></bean>
    <bean id="druid-stat-pointcut" class="org.springframework.aop.support.JdkRegexpMethodPointcut" scope="prototype">
        <property name="patterns">
            <list>
                <!-- 针对项目中的Service层调用进行监控 -->
                <value>com.tedu.druid.service.*</value>
            </list>
        </property>
    </bean>
    
    <aop:config>
        <aop:advisor advice-ref="druid-stat-interceptor" pointcut-ref="druid-stat-pointcut" />
    </aop:config>
    
    
    <!-- spring和MyBatis完美整合,不需要mybatis的配置映射文件 -->  
    <bean id="sqlSessionFactory" class="org.mybatis.spring.SqlSessionFactoryBean">  
        <property name="dataSource" ref="dataSource" />
        <!-- 开启别名包  -->
        <property name="typeAliasesPackage" value="com.tedu.druid.pojo"></property>
        <property name="configLocation" value="classpath:mybatis/mybatis-config.xml"></property>  
        
        <!-- 自动扫描mapping.xml文件-->  
        <property name="mapperLocations" value="classpath:mybatis/mappers/*.xml"></property> 
    </bean>  

    <!-- 配置扫描Dao接口包,动态实现Dao接口,注入到spring容器中 -->  
    <bean class="org.mybatis.spring.mapper.MapperScannerConfigurer">  
        <property name="basePackage" value="com.tedu.druid.mapper" />  
        <property name="sqlSessionFactoryBeanName" value="sqlSessionFactory"></property>  
    </bean>  

    <!-- (事务管理)transaction manager -->  
    <bean id="transactionManager"  
        class="org.springframework.jdbc.datasource.DataSourceTransactionManager">  
        <property name="dataSource" ref="dataSource" />  
    </bean>
    <!-- 第一种方式: 注解方式配置事物 -->
    <!-- <tx:annotation-driven transaction-manager="transactionManager" /> -->

    <!-- 第二种方式: 拦截器方式配置事物 -->

    <tx:advice id="transactionAdvice" transaction-manager="transactionManager">
        <tx:attributes>
            <tx:method name="save*" propagation="REQUIRED" rollback-for="Exception" />
            <tx:method name="update*" propagation="REQUIRED" rollback-for="Exception" />
            <tx:method name="delete*" propagation="REQUIRED" rollback-for="Exception"/>
            <tx:method name="insert*" propagation="REQUIRED" rollback-for="Exception"/>
            <tx:method name="get*" propagation="SUPPORTS" read-only="true"/>
            <tx:method name="select*" propagation="SUPPORTS" read-only="true"/>
            <tx:method name="*" propagation="SUPPORTS" read-only="true"/>
        </tx:attributes>
    </tx:advice>

    <!-- Spring AOP config 解释一下 (* com.evan.crm.service.*.*(..)) 中几个通配符的含义: -->
    <!-- 第一个 * —— 通配 任意返回值类型 -->
    <!-- 第二个 * —— 通配 包com.evan.crm.service下的任意class -->
    <!-- 第三个 * —— 通配包com.evan.crm.service下的任意class的任意方法 -->
    <!-- 第四个 .. —— 通配 方法可以有0个或多个参数 -->
    <!-- 事务控制位置,一般在业务层service -->

   <aop:config>
        <aop:pointcut id="transactionPointcut" expression="execution(* com.tedu.druid.service.*.*(..))" />
        
        <!-- 多个 expression="(execution(* com.weixin.web.service..*Impl.*(..)))or(execution(* org.weixin.service..*Impl.*(..)))" -->
        <aop:advisor pointcut-ref="transactionPointcut" advice-ref="transactionAdvice" />
    </aop:config>
</beans>
applicationContext.xml

mybatis-config配置

<?xml version="1.0" encoding="UTF-8" ?>
<!DOCTYPE configuration
  PUBLIC "-//mybatis.org//DTD Config 3.0//EN"
  "http://mybatis.org/dtd/mybatis-3-config.dtd">
<configuration>

    <settings>
        <!-- 开启驼峰自动映射 -->
        <setting name="mapUnderscoreToCamelCase" value="true" />
        <!-- 二级缓存的总开关,被redis替代 -->
        <setting name="cacheEnabled" value="false" />
    </settings>
    
    <plugins>
        <!-- 通用Mapper插件 -->
        <plugin interceptor="com.github.abel533.mapperhelper.MapperInterceptor">
            <!--主键自增回写方法,默认值MYSQL,详细说明请看文档 -->
            <property name="IDENTITY" value="MYSQL" />
            <!--通用Mapper接口,多个通用接口用逗号隔开 -->
            <property name="mappers" value="com.jt.common.mapper.SysMapper" />
        </plugin>
    </plugins>
</configuration>
mybatis-config.xml

 

访问地址:http://localhost:8097/druid/

 

 

 

 

 

 

 

  

posted @ 2018-03-21 12:22  项羽齐  阅读(358)  评论(0编辑  收藏  举报