2013 年 12月随笔档案 - Harveyaot

机器学习入门

摘要：原文转自：http://longriver.me/?p=23machine learning 的一点基本知识，三个基本元素：训练集（training set）、模型（model）、测试集（test set）。还记得数理统计上的线性回归吗？根据已有的数据，设定惩罚函数，对线性函数进行参数估计，得到的线性函数就是model，然后在测试集上验证model的预测准确性。很简单。当今互联网公司大量使用machine learning方法。最简单的例子，使用google搜索，输入china stroy，它会自动纠正你是不是搜索china story。后台的原理是：google储备了大量的先验数据（大量的文阅读全文

posted @ 2013-12-14 22:22 Harveyaot 阅读(216) 评论(0) 推荐(0)

stanford 机器学习课程（1）- 拓视野，看差距

摘要：转自：http://longriver.me/?p=146 之前在coursera上看过andrew ng的机器学习课程一些章节，感觉讲的清晰明了，展示方式也非常地直观，很喜欢，算是自己机器学习这个领域的入门课程了。最近无意中看了看网易公开课，看到andrew在stanford的cs229 机器学习课程现场录像，感触更加深刻，因为与coursera不同的是，网易的这些公开课是现场教学的录像，不仅在教学内容上较coursera上的更加丰富和深刻，更重要的是你还会有种置身standord的感受，与一群出色的同学一起同思考，共进步。看着andrew从一个黑板爬到另一个黑板，看他也是不停地范着一... 阅读全文

posted @ 2013-12-14 22:21 Harveyaot 阅读(223) 评论(0) 推荐(0)

shell脚本处理大数据系列之(一)方法小结

摘要：转自：http://longriver.me/?p=57方法1：单进程处理大规模的文件速度如（上million量级）比较慢，可以采用awk取模的方法，将文件分而治之，这样可以利用充分的利用多核CPU的优势 for((i=0;i output_$i 2>err_$i & done方法2：另外也可以使用split的方法，或者hashkey 的办法把大文件分而治之,该办法的缺陷是需要对大文件预处理，这个划分大文件的过程是单进程，也比较的耗时infile=$1opdir=querysopfile=ress=`date "+%s"`while read linedo i 阅读全文

posted @ 2013-12-14 22:15 Harveyaot 阅读(2015) 评论(0) 推荐(0)

numpy array中的内存泄露(memroy leak in numpy1.7.0 array)

摘要：转自：http://longriver.me/?p=96这个标题其实还有些不合适，因为目前还没有验证出这真的是否是个bug，在google上也没有发现这类问题的结果，但是在实际的使用中..经过多次的观察内存可以确定的确如此，有的人说这可能是numpy自己的内存分配，但是python不能回收这些内存。详情见：http://longriver.me/?p=96123for user,data in itertools.groupby(sys.stdin,operator.getitem(0))for d in data:pt = numpy.array(d[1:],dtype=float)内存一直阅读全文

posted @ 2013-12-14 22:13 Harveyaot 阅读(1031) 评论(0) 推荐(0)

python with 语句举例-计时器（timer）例子

摘要：转自：http://longriver.me/?p=186 阅读全文

posted @ 2013-12-14 18:23 Harveyaot 阅读(327) 评论(0) 推荐(0)

python调用c/c++库函数方法小结（c++和python的整合）

摘要：本文转自：http://longriver.me/?p=169问题源自公司的一个项目，上游数据的从原来的plain text变成了加密数据，然后我这边做数据处理的时候，需要解密这些数据，上游负责的同事给了我一个编译好的c++静态库文件以及头文件，我这边处理数据都是使用python，于是我需要把他的这些库，封装一下可以使用python调用... 阅读全文

posted @ 2013-12-14 17:35 Harveyaot 阅读(501) 评论(0) 推荐(0)

Trouble & Time are both my friends

12 2013 档案