kaggle CTR预估

摘要: 参考涛哥之前做过的CTR预估project,学习下CTR预估的相关知识:http://blog.csdn.net/hero_fantao/article/category/6877765 目标:本周末完成CTR预估项目 阅读全文
posted @ 2017-05-18 10:54 chybot 阅读(225) 评论(0) 推荐(0) 编辑

基于大规模语料的新词发现算法【转自matix67】

摘要: 最近需要对商品中的特有的词识别,因此需新词发现算法,matrix的这篇算法很好。 对中文资料进行自然语言处理时,我们会遇到很多其他语言不会有的困难,例如分词——汉语的词与词之间没有空格,那计算机怎么才知道“已结婚的和尚未结婚的”究竟是“已/结婚/的/和/尚未/结婚/的”,还是“已/结婚/的/和尚/未 阅读全文
posted @ 2016-07-18 17:08 chybot 阅读(834) 评论(0) 推荐(0) 编辑

vim E437: terminal capability "cm" required

摘要: 报错E437: terminal capability "cm" required 解决方法:# export TERM=xterm 阅读全文
posted @ 2016-05-13 13:01 chybot 阅读(575) 评论(0) 推荐(0) 编辑

makefile 中的符号替换($@、$^、$<、$?)

摘要: Makefile $@, $^, $< $@ 表示目标文件$^ 表示所有的依赖文件$< 表示第一个依赖文件$? 表示比目标还要新的依赖文件列表 如一个目录下有如下文件: $ lshello.c hi.c main.c Makefile 按照 Makefile 的一般写法: main: main.o 阅读全文
posted @ 2016-05-09 16:36 chybot 阅读(697) 评论(0) 推荐(0) 编辑

【转】Makefile 中:= ?= += =的区别

摘要: 最近接触使用C++项目,需要使用Makefile,因此需要好好学习下。 【转自】:http://www.cnblogs.com/wanqieddy/archive/2011/09/21/2184257.html 在Makefile中我们经常看到 = := ?= +=这几个赋值运算符,那么他们有什么区 阅读全文
posted @ 2016-05-06 15:07 chybot 阅读(206) 评论(0) 推荐(0) 编辑

python urljoin问题

摘要: 如何去除url拼接的时候存在的遗留的'../'问题,可以参考如下的强制去除方法: def fix_URL(urlstring): parts = list(urlparse.urlparse(urlstring)) parts[2] = os.path.normpath(parts[2].repla 阅读全文
posted @ 2016-03-11 16:07 chybot 阅读(596) 评论(0) 推荐(0) 编辑

python 写文件刷新缓存

摘要: 搞爬虫的时候,结果是通过file.write(strs)写入文件的。 带来的问题是,进程如果是被杀死的时候,最后一条结果总是缺损的,因为缓存的部分还未写入文件。 解决办法是每次写入文件时,都刷新缓存,直接将缓存数据全部写入文件: fi = open('file', 'wb') fi.write('s 阅读全文
posted @ 2016-02-01 19:31 chybot 阅读(10171) 评论(0) 推荐(0) 编辑

python Popen卡死问题

摘要: 程序经常卡死,定位了半天才定位到原因,原来是Popen导致的卡死; 程序如下: s = subprocess.Popen([*,*,*], stdout=subprocess.PIPE) ret = s.stdout.read() return ret 官方文档的解释是: This will dea 阅读全文
posted @ 2016-02-01 19:26 chybot 阅读(7276) 评论(0) 推荐(1) 编辑

nohup 日志切割

摘要: 最近遇到日志切割的问题,即程序是通过命令: nohup python *.py & 放到后台执行的,这样程序的日志输出到了nohup自动生成的nohup.out文件。 问题就来了,nohup.out文件越来越大,如何清理它呢? 解决方法很简单: cat /dev/null > nohup.out 即 阅读全文
posted @ 2016-02-01 13:07 chybot 阅读(2714) 评论(0) 推荐(0) 编辑

换行和回车野史

摘要: 关于“回车”(carriage return)和“换行”(line feed)这两个概念的来历和区别。 在计算机还没有出现之前,有一种叫做电传打字机(Teletype Model 33)的玩意,每秒钟可以打10个字符。但是它有一个问题,就是打完一行换行的时候,要用去0.2秒,正好可以打两个字符。要是 阅读全文
posted @ 2016-01-28 19:46 chybot 阅读(218) 评论(0) 推荐(0) 编辑