随笔分类 - technology
摘要:1.导入jar包包括(1)mybatis框架包:mybatismybatis-3.0.5.jar (2)数据库驱动:mysql-connector-java-5.1.7-bin.jar(以mysql为例)2.建立conf包,在其下建立配置文件:mybatis.xml 1 <?xml version="1.0" encoding="UTF-8"?> 2 <!DOCTYPE configuration PUBLIC "-//mybatis.org//DTD Config 3.0//EN" 3 "http://m
阅读全文
摘要:过滤所有非中文非英文字符 :replaceAll("[^\\u4e00-\\u9fa5|A-Za-z]", " ") 过滤标点符号:replaceAll("[\\pP‘’“”]", " ")判断获得的每个字符的unicode编码,汉字是有范围的,具体是\u4E00-\u9FA5 和 \uF900-\uFA2D 不在这个范围中的就不是汉字。 \u表示是16进制
阅读全文
摘要:weka的默认字符集编码是Cp1252,所以如果你导入的数据中有中文字符,就会出现乱码的情况,所以需要修改weka的RunWeka.ini文件方法:将"fileEncoding=cp1252"替换成你的数据对应的字符集编码,比如utf-8,cp936(简体中文),cp950(繁体中文)。问题解决
阅读全文
摘要:去除标点符号:replaceAll("[\\pP‘’“”]","")
阅读全文
摘要:<?xml version="1.0" encoding="UTF-8"?><!DOCTYPE configuration PUBLIC "-//mybatis.org//DTD Config 3.0//EN" "http://mybatis.org/dtd/mybatis-3-config.dtd"><configuration> <properties> <property name="username" value="root
阅读全文
摘要:windows下mysql命令:1.客户端连接MySQL数据库服务器(bin目录下执行):mysql -h 数据库服务器IP -u 用户名 -p 数据库名称eg登陆本地:D:\AppServ\MySQL\bin>mysql -h localhost -u root -p2.显示当前数据库服务器上所有的数据库:show databases;3.选中某个指定的数据库:use 数据库名称4.查询选定的数据库中存在的所有表:show tables(已经使用use命令指定了某个数据库)或者show tables from 数据库名称5.查看数据库中某个表结构:describe 表名6.导出某个数据
阅读全文
摘要:文本分类实验流程设计:1)下载搜狗语料 地址:http://www.sogou.com/labs/dl/c.html2)下载中科院分词系统(ictclas)包 地址:http://ictclas.org/ictclas_download.aspx3)对应每个分类选择部分搜狗语料作为训练集,使用ictclas包对该部分语料进行分词4)编码对分词结果进行预处理,处理结果为各个单词的出现频率,并对各个分类进行数据库建表5)剩下的搜狗语料作为测试集,重复步骤3~46)将训练集和测试集分别实例化,处理成arff文件7)编码调用weka的api对训练集和测试集进行文本分类8)根据结果得出对应结论
阅读全文

浙公网安备 33010602011771号