[置顶] R语言进行中文分词和聚类

摘要: 目标:对大约6w条微博进行分类环境:R语言由于时间较紧,且人手不够,不能采用分类方法,主要是没有时间人工分类一部分生成训练集……所以只能用聚类方法,聚类最简单的方法无外乎:K-means与层次聚类。尝试过使用K-means方法,但结果并不好,所以最终采用的是层次聚类,也幸亏结果还不错……⊙﹏⊙分词(Rwordseg包):分词采用的是Rwordseg包,具体安装和一些细节请参考作者首页 http://jliblog.com/app/rwordseg。请仔细阅读该页提供的使用说明pdf文档,真是有很大帮助。安装:P.S.由于我是64位机,但是配置的rj包只能在32bit的R上使用,而且Rwords 阅读全文
posted @ 2013-09-11 21:47 zach_Emrys 阅读(11599) 评论(0) 推荐(0) 编辑

Python图形用户界面 wxPython+Boa-constructor

摘要: wxPython和Boa-constructor安装后会在\Python\Lib\site-packages中。对于使用eclipse+pydev的用户来说,假如安装完python包后,在eclipse中加载不上,但是在命令行中可以成功,在Preferences-PyDev-Interpreter中移除使用的python,再重新添加,即可解决。wxPython请下载unicode版本,这样可以显示中文~Boa-constructor的运行文件为\Python\Lib\site-packages\boa-constructor\Boa.py先写这么多吧,弄了一下午太累了,还剩下打包的部分,周末再 阅读全文
posted @ 2013-12-13 20:37 zach_Emrys 阅读(1446) 评论(0) 推荐(0) 编辑

Hadoop Streaming 运行Python脚本

摘要: 若出现如下错误,java.lang.RuntimeException: PipeMapRed.waitOutputThreads(): subprocess failed with code 2将#!/usr/bin/env python插入到python脚本的顶端即可解决。#mapper.py#!/usr/bin/env pythonimport sysdic = {}for line in sys.stdin: line = line.strip().split() for key in line: if dic.has_key(key): ... 阅读全文
posted @ 2013-12-12 18:06 zach_Emrys 阅读(934) 评论(0) 推荐(0) 编辑

linux安装与配置Hadoop

摘要: 操作系统:CentosHadoop:1.1.21.安装jdk1.6输入java -version验证是否安装成功。vim /etc/profile#set JAVA Enviromentexport JAVA_HOME=/usr/.../jdkexport CLASSPATH=CLASSPATH$.:JAVA_HOME/libexport PATH=$PATH:JAVA_HOME/若新版本java改为系统默认java,做如下更改:update-alternatives --install /usr/bin/java java /usr.../jdk/bin/java 300update-alt 阅读全文
posted @ 2013-10-28 16:24 zach_Emrys 阅读(472) 评论(0) 推荐(0) 编辑

R语言:各种零碎

摘要: 1、变量名中含有参数例如,有如下变量:a1,a2,a3想用循环提取这些变量的值,或对这些变量进行赋值,该怎么办呢?SAS中可以用宏变量解决,R语言中只需get()与assign()函数就可以解决~a1=1get(paste("a","1",sep=""))但get()函数只是在环境中搜索该变量名的变量,如果该变量不存在则返回异常。对变量进行赋值的话需使用assign()函数:assign(paste("a","1",sep=""),2)a1具体的还请阅读函数的帮助文档~2、扩 阅读全文
posted @ 2013-09-12 18:12 zach_Emrys 阅读(1389) 评论(0) 推荐(0) 编辑

Mysql 导入导出csv 中文乱码解决

摘要: 导入csv:load data infile '/test.csv' into table table_name fields terminated by ',' optionally enclosed by '"' escaped by '"' lines terminated by '\r\n' ignore 1 lines;导出csv:SELECT * INTO OUTFILE '/test.csv' FIELDS TERMINATED BY ',' OPT 阅读全文
posted @ 2013-09-10 14:35 zach_Emrys 阅读(3432) 评论(0) 推荐(0) 编辑

写在最前面

摘要: 随着工作、学习的内容越来越多,很多事情真是过一阵就遗忘了,诸如各种冗杂的配置、错误排查等等。一直想建个博客,记录各种零零碎碎以后备查。貌似真正的大牛们都是自己搭站,无奈我懒得学wordpress,现在估计也没那个时间,所以就想着找一个现成的博客来用。选择的标准很简单:简单,没广告。其实我有个blogbus的博客的,那个界面倒是比较喜欢,可是那个感觉不适合程序这种东西。前一阵倒是想试试csdn的,结果登陆界面死活点不进去……好吧,既然你抛弃我,我也只能抛弃你了,而且我看了一下,还是觉得那里不够简单。那么,就从这里开始吧。 阅读全文
posted @ 2013-09-10 14:23 zach_Emrys 阅读(213) 评论(0) 推荐(0) 编辑