随笔分类 -  折腾

摘要:经历过昨天的打击,今天上午我把数剧又重新整理了一遍。在网上看说如果用load("")的方法可以载入的数据量大一些,所以我就打算直接从.csv文件转化到.mat文件,首先我随便写了个矩阵存在.mat文件中:octave> x = [1 2, 3, 4; 5, 6, 7, 8]x = 1 2 3 4 5 6 7 8octave> save("x.mat", "x")然后用文本的方式把这个x.mat文件打开是这样的:# Created by Octave 3.6.2, Mon Feb 17 12:27:52 2014 CST # 阅读全文

posted @ 2014-02-23 23:03 SnakeHunt2012 阅读(175) 评论(0) 推荐(0)

摘要:早上来图书馆之后就开始准备训练,首先是照抄Andrew Ng的代码,包括sigmoid函数:function g = sigmoid(z)%SIGMOID Compute sigmoid functoon% J = SIGMOID(z) computes the sigmoid of z.% You need to return the following variables correctly g = zeros(size(z));% ====================== YOUR CODE HERE ======================% Instructions: Com 阅读全文

posted @ 2014-02-18 17:08 SnakeHunt2012 阅读(250) 评论(0) 推荐(0)

摘要:今天主要就是写了两个观察特征的画图函数,一个是用于观察一个变量的分布的,0高度红色十字是正例,1高度行蓝色十字是反例,第一个参数是特征值,第二个是正反例标签,两个都是n*1的列向量:function plotFeature(Feature, label) pos = find(label == 1); neg = find(label == 0); figure; hold on; X_low = min([min(Feature(pos)), min(Feature(neg))]); X_high = max([max(Feature(pos)), max(Feature(neg))]); 阅读全文

posted @ 2014-02-18 17:07 SnakeHunt2012 阅读(160) 评论(0) 推荐(0)

摘要:早上来图书馆发现昨天的数据有问题,就是正规化之后的数据有一列一直是NaN,然后查找原因。我从网上找了个去掉带NaN的行的函数,把含有NaN的行全部去掉:function [X] = removeNaNRows(X) X(any(isnan(X),2),:) = [];end然后将norm_1载入进来,在剔除带NaN的行,果然全都美没有了,说明确实有一列全都是NaN。接着我把train_1载入进来,whos一下一共20000行数据,然后在进行踢出NaN的行,然后再whos发现一点都没有边,还是20000行,说明数据中并没有NaN。在原始数据中是有NULL的,这很奇怪,也许是Matlab在输入的时 阅读全文

posted @ 2014-02-18 16:58 SnakeHunt2012 阅读(163) 评论(0) 推荐(0)

摘要:早上七点多就起来了,然后去食堂吃饭,充饭卡,回寝室交网费,然后来到图书馆。首先导入数据,由于octave内存吃紧,每次大概只能导入20000条数据。所以我是将整个train分成6份,每份20000条数据,最后一份5471条数剧。octave> train_1 = dlmread("train_v2.csv", ",", [1, 1, 20000, 778]);octave> save("train_1.mat", "train_1")octave> train_2 = dlmread(" 阅读全文

posted @ 2014-02-18 16:57 SnakeHunt2012 阅读(215) 评论(0) 推荐(0)

摘要:记得网上说学习东西的时候,“使用”是记得最牢的,所以我打算开始着手用Matlab写一个Kaggle。之前一直不知道kaggle上面的题目是怎么分 类的,就是不知道Feature、Musters、Recruiting、Research etc.是怎么分类的,后来在Google上找到一个官方的介绍“Welcome to Kaggle”讲这方面的。现在决定选个简单一点直接一点的题目:Loan Default Prediction - Imperial College London,觉得这个题目比较入手,基本上就是简单的“分类+回归”问题。题目是预测贷款能否还清的问题,以前贷款还清就预测能不能还清就好 阅读全文

posted @ 2014-02-18 16:54 SnakeHunt2012 阅读(263) 评论(0) 推荐(0)

摘要:今天来自斯坦福的王孟秋来实验室例会,其中提到这样几点我表在意他在读的时候间断过,还有过在中国创业的经验,不过中国创业 环境非常差,虽然机会很多,但是垄断主义很严重。他认为创业最关键的是可以在I那么短的时间内能找到那么一堆人能够知道怎么快速build你的想法,要做 的东西要尽快做出来,然后在慢慢改,builde出来的慢了,就没有用了。而且投资人真的是在帮助你而非像中国一样,就给你钱,然后你就负责赚回来多少这 样。但是他觉得大公司内部是很厉害的,他觉得腾讯真的很厉害,能够吸纳一个团队进来然后发展的很好。在 斯坦福对文章发表的数量没有硬条件,什么时候毕业全靠你跟老板你们两个的感觉。但在斯坦福压力却很 阅读全文

posted @ 2014-02-18 16:46 SnakeHunt2012 阅读(1187) 评论(0) 推荐(0)

摘要:下午接受了天猫某高管的交叉面试,在图书馆电面的,感觉面的不怎么好,他先问了我飞天的情况,还有我做了什么,他感觉和我聊不到一起去,我感觉应该是下午在地下铁喝的那杯咖啡让我慌了神,后来他又问了大数组抽取最大十个数的问题,我没答上来,反正就是感觉不会再爱了。。。晚上值班的时候,跟大师兄关于OpenNER在会议室碰头,确定了OpenNER大的方向就是两个工期:一期:对任意领域X,仅用X领域实体进行训练,然后输入一个X领域实体能够分类(是不是X领域实体)。二期:用自然文本提高准确度。然后确定了一期初期目前的两个阶段:第一步.实体内部词语间紧密度:这个效果想做成这样,就是用现成的实体当做训练,然后拿来一个 阅读全文

posted @ 2014-02-18 16:34 SnakeHunt2012 阅读(287) 评论(0) 推荐(0)

摘要:上午看计算机网络,下午做计算机实验。晚上写计算机实验报告,还有OpenStack的实验报告。写完之后跟师兄讨论了一下OpenNER的事情,觉得OpenNE很像是化学物质,里面很多都可以构成原子团,原子团与原子团之间有结合关系,内部紧密性也有的强有的若,我们可以进一步利用这种结合关系构建成图谱,我觉得这个图谱会有很大用处。我觉得在我脑海里,实体如果是一块石头的话,他的每部分都是结合的比较紧密的,但紧密归紧密,之间还存在着裂缝,这种裂缝的粗细,方向,都是重要的信息。我一直在想如何把这种感觉表达出来。总的来说还是不甘于仅仅用子串、公共字串来描述实体的结构,差很多,一个灵感吧,算是。 阅读全文

posted @ 2014-02-17 19:34 SnakeHunt2012 阅读(181) 评论(0) 推荐(0)

摘要:今天收到中秋的邮件。KDD结果出来了,Zhongqiu Wang & Jingwen Huang 15th/561。 阅读全文

posted @ 2014-02-17 19:26 SnakeHunt2012 阅读(181) 评论(0) 推荐(0)

摘要:今天晚上跟师兄讨论,这那几篇论文,对于《领域多词表 达翻译对的自动抽取及其应用》那篇,我的感觉是跟实体识别不太吻合。他的大概意思就是先讲所有有可能的多词表达都找出来,然后在用C-value、上下文 熵、北京语料库等手段进行过滤,不过我看了前面生成预选集合的地方就觉得不太对劲。因为多词表达跟实体差别还是挺大的,实体对于内部结构有依赖,他的方法 就是连续统计一句话每词之间的相关联度,然后将最大的一个一个接着规约合并,合并的中间产物和最终产物都算是有可能的多词表达,整个规约过程可以被表达成 一颗树。但是这样并不好,因为对于多词表达来说这样做也许能够奏效,因为多词表达对于结构依赖的不是那么多,然而对于 阅读全文

posted @ 2014-02-17 19:15 SnakeHunt2012 阅读(308) 评论(0) 推荐(0)

摘要:果然看中文材料就比较顺利,才半个小时就看完了一篇非常简单的综述《命名实体识别研究进展综述》(孙镇、王惠临)。这个是2010年的文章,其实就是一个 科普文章,简述了国内外NER这块的历史如何。这篇文章算是线头吧,因为我感觉对我的意义最大就是他所引出来的那些文献,尤其是中文NER的文献,我觉得 很有必要拓扑下去。意外收获是,在看的时候发现浅层句法分析这个东西也许会对我们产生比较大的帮助,因为要挖掘实体的结构,所以可能会需要一些部分句法的分析,具体还要找学长科普一下。 阅读全文

posted @ 2014-02-17 19:14 SnakeHunt2012 阅读(152) 评论(0) 推荐(0)

摘要:看完睡不觉得世间有点虚度,然后就构思了一下带带回儿去找中秋要跟她说的事情,大概就是这样的:我打算用paper来计算人与人之间的距离,比如说我跟郑茂和写过一篇文章,然后郑茂根韩冰和写过一篇文章,这样我跟韩冰的距离比较近,这样如果我在一篇文章中跟其他两个id有名称歧义的话而且其中韩冰又是其中一个无歧义作者,那没看我这个id跟韩冰这么近,肯定是我写的文章。晚上八点多快九点的时候给中求发短信,然后他说现在可以过去,我就过去了。过去之后我跟她说了这个想法没他说有问题,具体问题就是我是我们最初的想法是正确的,后来改的不对,而且基本上不能对着id来弄。他觉得官方给的validit数据本身就是内涵bug的,在 阅读全文

posted @ 2014-02-17 19:09 SnakeHunt2012 阅读(238) 评论(0) 推荐(0)

摘要:实验室例会,上到一半之后发现今天下午第二节课是Android,上次两节Android都没跟中秋碰头,这次又不能碰头了,然 后就赶紧给中秋发了个短信,说我在开会,晚上约个时间再谈。正好也称这一下午加一晚上的时间把那三篇论文温习一遍,然后把CRF、MRF再看看,不过果然 还是没于看懂,晚上吃完饭回来打算找学长问,不过学长吃饭去了还没有回来,就自己看那篇综述。等学瑞吉师兄回来之后就跟师兄到会议室讨MRF还有这个题目。其实之前对MRF一直存在误解,这是主要障碍,以前一直以为每个节点都代表一种lable configuration,这样不同的Y之间会有概率关系,而且满足马尔科夫性,不过越想越不对劲。后来 阅读全文

posted @ 2014-02-17 19:07 SnakeHunt2012 阅读(263) 评论(0) 推荐(0)

摘要:下午去上刘杨老师的机器学习课,今天讲的"朴素被噎死",他本想当场举个例子,结果读了好半天才吧关系都拼凑上,他说明天给我们带来个精彩的,回去之后夜里把朴素贝叶斯自己又脑补了一下,发现贝叶斯原理(后验)就是个很简单的因果现象。正常的因果现象是,给你一个起因,可能会有不同的结果,而每种结果的概率是P(果|因)。而所谓的"后验过程"就是当你看到结果是这样的时候,问最可能是哪种原因造成现在这个结果。这 里我想到了一年前理学院的王勇老师给他们学上讲课的时候用过的一个例子:说你是某工厂的厂长,一共有甲、乙、丙三个车间,都生产相同的零件。事情是这样 的,今天国家领导过来视察,临走的时候从集装箱的一堆零件随手拿 阅读全文

posted @ 2014-02-17 19:04 SnakeHunt2012 阅读(230) 评论(0) 推荐(0)

摘要:昨天下午的时候中秋给我发短信"待会儿上课吧?上课讨论下?",然后我回复"嗯,好的。"然后上课的时候中秋说那个方案也许不太好执行,因为他后来看数据了,数据库里面这种"可以从从协同作者进行判断"的例子并不多。所以不能只靠那个。然后今天早上还在床上没起来,就接到了瑞吉师兄打来的电话,才发现今天我们约好一起写NER的,结果被我忘了,是在非常囧。然后就跑过去了,然后找出之前写好的代码,过一会儿师兄就过来了,跟我一起看代码,师兄的意思是在上面直接该,不过我的想法是还是重写吧,我说用状态机重写,因为之前的那个代码实在写得太搓了,才三个多月之前写的代码,今天看起来竟然那么的不堪入目。我觉得这应该是侧面看出来我 阅读全文

posted @ 2014-02-17 19:03 SnakeHunt2012 阅读(236) 评论(0) 推荐(0)

摘要:今天上午把昨天的想法给中秋发过去了,然后我就开始科普随机森林:随机森林是一种比较新的机器学习模型。经典的机器学习模型是神经网络,有半个多世纪的历史了。神经网络预测精确,但是计算量很大。上世纪八十年代Breiman等人发明分类树的算法(Breiman et al. 1984),通过反复二分数据进行分类或回归,计算量大大降低。2001年Breiman把分类树组合成随机森林(Breiman 2001a),即在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树的结果。随机森林在运算量没有显著提高的前提下提高了预测精度。随机森林对多元公线性不敏感,结果对缺失数据和非平衡的数据比 阅读全文

posted @ 2014-02-17 19:01 SnakeHunt2012 阅读(332) 评论(0) 推荐(0)

摘要:今天早上来了之后就处理语料,然后发现处理好后的gbk编码的语料在HPC上没法训,而utf8在上面训练可以。后来就让它在上面训着,学长还没来。学长回来之后问他怎么回事,他说不应该,然后我们看了一下第一条的gbk语料,发现可以,然后学长说认为是我处理出来的语料还是有问题,还需要在继续检查。下午回来之后,就看到了秋哥的邮件:差不多是这个意思,第三点需要注意的。不仅仅是建立哈工大的高文的这一类,还需要建立中科院的高文的一类,或者另外一个高文的一类。思路跟附件中Name Disambiguation Using Atomic Clusters很像,可以参考一下,可行的话你就用这个方法做吧。这篇文章Dis 阅读全文

posted @ 2014-02-17 19:00 SnakeHunt2012 阅读(440) 评论(0) 推荐(0)

摘要:早上来实验室,本来打算向秦师兄要文献的,不过秦师兄上午不在,所以就没有联系他。于是就开始调试郑茂的代码,发现原来那个itoa函数不是标准库里面 的,所以可能只有windows上可以用。然后我就在打电脑上变异了一下果然就是可以。不过运行结果最有一行有一个大大的ERROR,还在调试中。下午开例会的时候,上面汇报工作,我就在下面想KDD怎么用CoAuthor,一般开会的时候灵感特别丰富,于是果然就有了一个点子。大概是这样的:首先样例程序那个最后一个特征粒度不够,我可以细化这个特征,就用社会挖掘。方法的核心是这样的,比如我跟郑茂都是新手,如果用最后一个特征来看,我俩共同 发表的文章很可能就会被判定为不 阅读全文

posted @ 2014-02-17 18:53 SnakeHunt2012 阅读(338) 评论(0) 推荐(0)

摘要:今天上午在图书馆写FIrst集,真心没写出来,算法是昨天找好的,不过实现的话还是需要很大的代码量,然后就打算用郑茂或者韩冰的代码了。晚上图书馆快关门的时候开始思考KDD的问题, 我一开始打算给中秋发邮件来着,因为我开始觉得他给我的Co-Author好像跟“与当前文章合作的Co-Authro的历来合作的文章总数”那个SQL特征没什么改进,大概就是一样的,只不过可能粒度小。不过在发邮件之前我还是有打算再调研调研,于是就上网搜了一下社会计算、DBscan...没什么头绪。晚上回寝室之后,继续到自习室,看了看秦海龙师兄的那篇论文,果然还是中国人写的英文论文比较好读。感觉秦师兄在相关工作那节讲的几个相关 阅读全文

posted @ 2014-02-17 18:51 SnakeHunt2012 阅读(232) 评论(0) 推荐(0)