会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
樟樟22
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
下一页
2018年10月17日
Java在dos界面运行java源文件编译成功,但运行虚拟机时出现错误:“找不到或无法加载主类”的问题
摘要: (一)首先检查环境变量配置有没有问题, 1PATH为%JAVA_HOME%\bin;%JAVA_HOME%\jre\bin; 2CLASSSPATH为.;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar 3JAVA_HOME为C:\Program Fi
阅读全文
posted @ 2018-10-17 14:39 樟樟22
阅读(892)
评论(0)
推荐(0)
2018年10月11日
中文手机评论情感分类系列(三)
摘要: 第三部分,手机各属性评论的情感分类,分类器是之前训练好的效果最好的朴素贝叶斯分类器。结果展示各属性评论的正负情感分布。 分类结果如下:
阅读全文
posted @ 2018-10-11 17:48 樟樟22
阅读(764)
评论(0)
推荐(0)
中文手机评论情感分析系列(二)
摘要: 第二部分是评论基于属性词典的分类,分类原则是只要评论中属性词典中的分词,那么评论就分到该属性类中去。
阅读全文
posted @ 2018-10-11 17:45 樟樟22
阅读(1169)
评论(2)
推荐(1)
中文手机评论情感分类系列(一)
摘要: 因为写论文需要,准备做手机评论的情感分析,依据现有的工具可以很容易中文评论进行去重复评论,分词,去停用词,向量化,然后用sklearn中的一款分类器来对数据进行情感分类。但是,由于本人打算依据手机不同的属性对评论文本进行情感分析,如“电池”,‘相机’,‘处理器’等属性的评论。很难过的是,这些针对手机
阅读全文
posted @ 2018-10-11 17:39 樟樟22
阅读(1218)
评论(2)
推荐(0)
2018年9月30日
百度词汇检索,计算PMI值
摘要: '''词汇检索百度返回值,并且计算PMI值的类''' from bs4 import BeautifulSoup import requests import re import pandas as pd import time import numpy as np class PMI(): def __init__(self): self.url = 'https:/...
阅读全文
posted @ 2018-09-30 18:53 樟樟22
阅读(864)
评论(0)
推荐(0)
2018年8月29日
Python中的编码和解码问题
摘要: 关于Python中遇到的中文字符串的读取和输入时总是遇到一堆问题,到现在还不是特别明白,只是有了一个大概率的理解,就是:字符串是用什么编码格式编码的,就用什么编码格式来解码。 encode()对字符串st进行编码,按照制定的编码格式编码。编码后为字节流,bytes。编码是从中间编码格式Unicode
阅读全文
posted @ 2018-08-29 20:51 樟樟22
阅读(2905)
评论(0)
推荐(0)
2018年8月19日
自然语言分析——实验记录
摘要: 1.第一次试验:朴素贝叶斯,采用统计词数量方式处理数据conutVectorizer() (1)训练集12695条, 正向:8274 负向:4221 哈工大停词表:df=3,正确率0.899, df=1,正确率0.9015 四川大学停词表:df=1,正确率0.90035 (2)训练集19106条 正
阅读全文
posted @ 2018-08-19 13:08 樟樟22
阅读(302)
评论(0)
推荐(0)
2018年8月17日
sklearn中的分词函数countVectorizer()的改动--保留长度为1的字符串
摘要: 1简述问题 使用countVectorizer()将文本向量化时发现,文本中长度唯一的字符串会被自动过滤掉,这对于我在做的情感分析来讲,一些表较重要的表达情感倾向的词汇被过滤掉,比如文本'没用的东西,可把我可把我坑的不轻,越用越觉得这个手机真的废'。 用结巴分词的精确模式分词,然后我用空格连接这些分
阅读全文
posted @ 2018-08-17 15:17 樟樟22
阅读(7660)
评论(0)
推荐(3)
2018年8月10日
CountVectorizer()类解析
摘要: 主要可以参考下面几个链接: 1.sklearn文本特征提取 2.使用scikit-learn tfidf计算词语权重 3.sklearn官方中文文档 4.sklearn.feature_extraction.text.CountVectorizer 补充一下:CounterVectorizer()类
阅读全文
posted @ 2018-08-10 12:00 樟樟22
阅读(7467)
评论(0)
推荐(0)
2018年8月8日
自然语言处理--中文文本向量化counterVectorizer()
摘要: 1.载入文档 2.加载停用词 把停用词典的停用词存到列表里,下面去停用词要用到 3.文本分词 这里有两个切分词的函数,第一个是手动去停用词,第二个是下面在CountVectorizer()添加stop_words参数去停用词。两种方法都可用。 4.对文本进行分词,向量化 (1)对文本进行分词,并且将
阅读全文
posted @ 2018-08-08 19:10 樟樟22
阅读(5930)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
下一页
公告