摘要: 设置LC_ALL=C,可以让sort按照字节排序; 阅读全文
posted @ 2014-07-11 10:06 常小小 阅读(501) 评论(0) 推荐(0) 编辑
摘要: Question 1:Given an array of integers, find two numbers such that they add up to a specific target number.The function twoSum should return indices of... 阅读全文
posted @ 2014-05-16 13:48 常小小 阅读(328) 评论(0) 推荐(0) 编辑
摘要: 特征选择的常用方法之一是卡方检验,作为一个filter model的代表,卡方检验属于简单易计算的Feature weight algorithm(通过一定的measure方法给特征赋上一定的weight来表征与类别之间的相关度,通过weight大于一定阈值或选取topk个weight来进行特征选择)。卡方检验和信息增益是feature weight algorithm常用且效果较优的算法。 卡方检验是概率论与数理统计中常用的假设检验的思想:通过观察实际值和理论值的偏差来确定原假设是否成立。首先假设两个变量是独立的(此为原假设),然后观察实际值和理论值之间的偏差程度,若偏差足够小,则认为... 阅读全文
posted @ 2014-01-16 11:05 常小小 阅读(14178) 评论(0) 推荐(0) 编辑
摘要: 经常使用:%s/oldstring/newstring/g 及 :%s/oldstring/newstring/gc将vim中的oldstring替换为newstring。今天在标注样本时,搜索了一下vim更多的替换操作,整理如下:1、:%s/oldstring/newstring/ 替换所有行中首次出现的oldstring /gc是选择是否替换2、:%s/oldstring/newstring/g 替换所有行中所有的oldstring /gc同上3、:n,$s/oldstring/newstring/g 替换从第n行开始到最后一行的所有oldstring ($表示最后一行,可以是m,表示第. 阅读全文
posted @ 2013-07-11 10:58 常小小 阅读(516) 评论(0) 推荐(0) 编辑
摘要: 删除文件第一行: sed '1d' filename删除文件最后一列: awk '{print $NF}' filenameawk删除重复行的命令:awk '{if (!seen[$0]++) {print $0;}}' filename比较文件的两种方法:1)comm -3 --nocheck-order file1 file22) grep -v -f file1 file2 :输出file2中有file1中没有的行当然还有diff file1 file2贴一段昨天写的shell脚本~#!/bin/bashdate_time=`date +& 阅读全文
posted @ 2013-06-28 17:40 常小小 阅读(8874) 评论(0) 推荐(0) 编辑
摘要: 1.采用awkawk '{$1="";print $0}' file2.采用sedsed -e 's/[^]* //' filesort -R file 随机排列文件更多linux sort命令:http://www.cnblogs.com/51linux/archive/2012/05/23/2515299.html 阅读全文
posted @ 2013-06-26 19:35 常小小 阅读(2682) 评论(0) 推荐(0) 编辑
摘要: 并行迭代:同时并行遍历两个列表for line1,line2 in zip(line1_list, line2_list): ...无聊,贴一段刚才的代码: 1 import sys 2 import string 3 4 expected="" 5 result="" 6 7 if sys.argv[1] == '--help': 8 print 'example: --expected=expected --result=result' 9 if len(sys.argv) < 3:10 print 'p 阅读全文
posted @ 2013-06-26 19:33 常小小 阅读(898) 评论(1) 推荐(1) 编辑
摘要: linux下,要使用静态链接库lib**.a,编译生成可执行文件binary时,可以直接使用lib作为src。静态链接库不能包含静态链接库,也就是说,静态链接库不能使用.a文件继续生成.a文件,开发需要使用第三方的静态链接库,打包生成.a,找了很多资料,涉及gcc的flags、动态链接库.so等等,最后使用方法如下:1)使用ar -x lib**.a解压得到多个目标文件.o2) 使用多个.a文件生成的.o作为src重新生成自己的libmark~参考:ar命令详解:http://blog.163.com/xychenbaihu@yeah/blog/static/13222965520112109 阅读全文
posted @ 2013-06-08 18:46 常小小 阅读(663) 评论(0) 推荐(0) 编辑
摘要: date -d"-1 day" +`%Y-%m-%d %H:%M:%S` 前一天的此时此刻更多:http://www.justwinit.cn/post/1724/crontab -e:注意command中的路径要是绝对路径command 1>log 2>&1重定向到文件command >>log 2>&1 重定向到文件(追加) 阅读全文
posted @ 2013-06-04 20:54 常小小 阅读(3237) 评论(0) 推荐(0) 编辑
摘要: 项目需要,要将繁体中文转换为简体中文,纠结了很久,各种iconv转换编码、wchar_t与char转换等等都尝试了,总结一下:1、繁体中文为big5编码,简体中文如gbk、utf等。iconv.h提供编码间的转换。 wchar_t 到 char的转换见上篇文2、开源lib:opencc下载地址:https://code.google.com/p/opencc/opencc提供繁体到简体的转换,解压后运行release.sh得到lib使用demo:http://hi.baidu.com/runningon/item/7acd387eddb5aa346cc37ce4 (http://ibadbo. 阅读全文
posted @ 2013-05-16 15:34 常小小 阅读(5753) 评论(0) 推荐(0) 编辑