随笔分类 - 机器学习
摘要:这段时间需要部署tensorflow到linux上,由于堡垒机不能连外网,所以pip、apt-get、wget、git统统不能用,然后就是各种调试了,下面整理了一些遇到的问题和解决方案,供大家参考(CentOS/Python3.4),有什么遗漏的问题还望大家补充。 1、Putty、XShell、Se
阅读全文
摘要:转眼间已经工作了一段时间了,回想起2014年初学机器学习时的付出、艰苦和努力,感觉都是值得的。从现在往前看,我是沿着“计算机->统计学->数据分析->数据挖掘->机器学习->文本挖掘”的路径走过来的,我觉得这个思路还是属于比较传统的进阶方法,学习的内容有不少的冗余,但相对来说更稳健一些。今天写这篇文...
阅读全文
摘要:最近在用CRF做未登录技能词识别,虽然艰难,但是感觉很爽,效率非常高。(1)数据准备:选取30000行精语料作为训练数据。每一个br作为一条数据。使用已有的技能词典对数据进行无标注分词。(2)训练数据标注:对分词后的语料进行标注。如果某分词结果在技能词典中,则该词作为技能词进行标注;如果某分词结果不...
阅读全文
摘要:最近工作了一段时间,今天跟大家讨论一下关于“规则与模型”的问题。 大家肯定都知道,机器学习方法主要分两类,一类是基于统计的方法,比如贝叶斯、KNN等,都是对数据的某种特征进行归类计算得到数据划分的依据的;另一类是基于规则的方法,比如,语义规则,语法规则或者业务规则等等,这些规则主要是根据数...
阅读全文
摘要:算算时间,从开始到现在,做机器学习算法也将近八个月了。虽然还没有达到融会贯通的地步,但至少在熟悉了算法的流程后,我在算法的选择和创造能力上有了不小的提升。实话说,机器学习很难,非常难,要做到完全了解算法的流程、特点、实现方法,并在正确的数据面前选择正确的方法再进行优化得到最优效果,我觉得没有个...
阅读全文
摘要:话说微博面世已经很久了,但对于微博信息的挖掘却才刚刚起步,这其中的原因当然有信息挖掘的技术还不成熟,但我觉得主要问题还是在于中文信息处理的技术还处于萌芽的阶段。中文语言本身信息量就很大,歧义性词汇多,再加上微博语言语义不整、微博媒介本体中夹杂着大量的标签,导致微博技术发展缓慢。在现在的网络上,用...
阅读全文
摘要:语言模型的作用在于构建为字符串s的概率分布p(s),也即是一个字符串作为一个句子出现的概率。语言模型与句子是否合法没有关系,即便一句话是符合逻辑的,但仍可以认为其出现的概率为零。但反过来不成立,即如果一句话不符合逻辑,那么直接认为这句话出现的概率为零。 对于一个有m个词的句子s=sw1w2w...
阅读全文

浙公网安备 33010602011771号