樟樟22

2018年10月17日

Java在dos界面运行java源文件编译成功，但运行虚拟机时出现错误：“找不到或无法加载主类”的问题

摘要：（一）首先检查环境变量配置有没有问题， 1PATH为%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin; 2CLASSSPATH为.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar 3JAVA_HOME为C:\Program Fi 阅读全文

posted @ 2018-10-17 14:39 樟樟22 阅读(892) 评论(0) 推荐(0)

2018年10月11日

中文手机评论情感分类系列（三）

摘要：第三部分，手机各属性评论的情感分类，分类器是之前训练好的效果最好的朴素贝叶斯分类器。结果展示各属性评论的正负情感分布。分类结果如下：阅读全文

posted @ 2018-10-11 17:48 樟樟22 阅读(768) 评论(0) 推荐(0)

中文手机评论情感分析系列（二）

摘要：第二部分是评论基于属性词典的分类，分类原则是只要评论中属性词典中的分词，那么评论就分到该属性类中去。阅读全文

posted @ 2018-10-11 17:45 樟樟22 阅读(1170) 评论(2) 推荐(1)

中文手机评论情感分类系列（一）

摘要：因为写论文需要，准备做手机评论的情感分析，依据现有的工具可以很容易中文评论进行去重复评论，分词，去停用词，向量化，然后用sklearn中的一款分类器来对数据进行情感分类。但是，由于本人打算依据手机不同的属性对评论文本进行情感分析，如“电池”，‘相机’，‘处理器’等属性的评论。很难过的是，这些针对手机阅读全文

posted @ 2018-10-11 17:39 樟樟22 阅读(1236) 评论(2) 推荐(0)

2018年9月30日

百度词汇检索，计算PMI值

摘要： '''词汇检索百度返回值,并且计算PMI值的类''' from bs4 import BeautifulSoup import requests import re import pandas as pd import time import numpy as np class PMI(): def __init__(self): self.url = 'https:/... 阅读全文

posted @ 2018-09-30 18:53 樟樟22 阅读(868) 评论(0) 推荐(0)

2018年8月29日

Python中的编码和解码问题

摘要：关于Python中遇到的中文字符串的读取和输入时总是遇到一堆问题，到现在还不是特别明白，只是有了一个大概率的理解，就是：字符串是用什么编码格式编码的，就用什么编码格式来解码。 encode()对字符串st进行编码，按照制定的编码格式编码。编码后为字节流，bytes。编码是从中间编码格式Unicode 阅读全文

posted @ 2018-08-29 20:51 樟樟22 阅读(2909) 评论(0) 推荐(0)

2018年8月19日

自然语言分析——实验记录

摘要： 1.第一次试验：朴素贝叶斯，采用统计词数量方式处理数据conutVectorizer() (1)训练集12695条，正向：8274 负向：4221 哈工大停词表：df=3,正确率0.899， df=1,正确率0.9015 四川大学停词表：df=1,正确率0.90035 (2)训练集19106条正阅读全文

posted @ 2018-08-19 13:08 樟樟22 阅读(303) 评论(0) 推荐(0)

2018年8月17日

sklearn中的分词函数countVectorizer()的改动--保留长度为1的字符串

摘要： 1简述问题使用countVectorizer()将文本向量化时发现，文本中长度唯一的字符串会被自动过滤掉，这对于我在做的情感分析来讲，一些表较重要的表达情感倾向的词汇被过滤掉，比如文本'没用的东西，可把我可把我坑的不轻，越用越觉得这个手机真的废'。用结巴分词的精确模式分词，然后我用空格连接这些分阅读全文

posted @ 2018-08-17 15:17 樟樟22 阅读(7665) 评论(0) 推荐(3)

2018年8月10日

CountVectorizer()类解析

摘要：主要可以参考下面几个链接： 1.sklearn文本特征提取 2.使用scikit-learn tfidf计算词语权重 3.sklearn官方中文文档 4.sklearn.feature_extraction.text.CountVectorizer 补充一下：CounterVectorizer()类阅读全文

posted @ 2018-08-10 12:00 樟樟22 阅读(7476) 评论(0) 推荐(0)

2018年8月8日

自然语言处理--中文文本向量化counterVectorizer()

摘要： 1.载入文档 2.加载停用词把停用词典的停用词存到列表里，下面去停用词要用到 3.文本分词这里有两个切分词的函数，第一个是手动去停用词，第二个是下面在CountVectorizer()添加stop_words参数去停用词。两种方法都可用。 4.对文本进行分词，向量化（1）对文本进行分词，并且将阅读全文

posted @ 2018-08-08 19:10 樟樟22 阅读(5957) 评论(0) 推荐(0)

公告