摘要:原文转自:http://longriver.me/?p=23machine learning 的一点基本知识,三个基本元素:训练集(training set)、模型(model)、测试集(test set)。还记得数理统计上的线性回归吗?根据已有的数据,设定惩罚函数,对线性函数进行参数估计,得到的线性函数就是model,然后在测试集上验证model的预测准确性。很简单。当今互联网公司大量使用machine learning方法。最简单的例子,使用google搜索,输入china stroy,它会自动纠正你是不是搜索china story。后台的原理是:google储备了大量的先验数据(大量的文
阅读全文
摘要:转自:http://longriver.me/?p=146 之前在coursera上看过andrew ng的机器学习课程一些章节,感觉讲的清晰明了,展示方式也非常地直观,很喜欢,算是自己机器学习这个领域的入门课程了。最近无意中看了看网易公开课,看到andrew在stanford的cs229 机器学习课程现场录像,感触更加深刻,因为与coursera不同的是,网易的这些公开课是现场教学的录像,不仅在教学内容上较coursera上的更加丰富和深刻,更重要的是你还会有种置身standord的感受,与一群出色的同学一起同思考,共进步。看着andrew从一个黑板爬到另一个黑板,看他也是不停地范着一...
阅读全文
摘要:转自:http://longriver.me/?p=57方法1:单进程处理大规模的文件速度如(上million量级)比较慢,可以采用awk取模的方法,将文件分而治之,这样可以利用充分的利用多核CPU的优势 for((i=0;i output_$i 2>err_$i & done方法2:另外也可以使用split的方法,或者hashkey 的办法把大文件分而治之,该办法的缺陷是需要对大文件预处理,这个划分大文件的过程是单进程,也比较的耗时infile=$1opdir=querysopfile=ress=`date "+%s"`while read linedo i
阅读全文
摘要:转自:http://longriver.me/?p=96这个标题其实还有些不合适,因为目前还没有验证出这真的是否是个bug,在google上也没有发现这类问题的结果,但是在实际的使用中..经过多次的观察内存可以确定的确如此,有的人说这可能是numpy自己的内存分配,但是python不能回收这些内存。详情见:http://longriver.me/?p=96123for user,data in itertools.groupby(sys.stdin,operator.getitem(0))for d in data:pt = numpy.array(d[1:],dtype=float)内存一直
阅读全文
摘要:转自:http://longriver.me/?p=186
阅读全文
摘要:本文转自:http://longriver.me/?p=169问题源自公司的一个项目,上游数据的从原来的plain text变成了加密数据,然后我这边做数据处理的时候,需要解密这些数据,上游负责的同事给了我一个编译好的c++静态库文件以及头文件,我这边处理数据都是使用python,于是我需要把他的这些库,封装一下可以使用python调用...
阅读全文