2014年2月23日

摘要: 经历过昨天的打击,今天上午我把数剧又重新整理了一遍。在网上看说如果用load("")的方法可以载入的数据量大一些,所以我就打算直接从.csv文件转化到.mat文件,首先我随便写了个矩阵存在.mat文件中:octave> x = [1 2, 3, 4; 5, 6, 7, 8]x = 1 2 3 4 5 6 7 8octave> save("x.mat", "x")然后用文本的方式把这个x.mat文件打开是这样的:# Created by Octave 3.6.2, Mon Feb 17 12:27:52 2014 CST # 阅读全文

posted @ 2014-02-23 23:03 SnakeHunt2012 阅读(167) 评论(0) 推荐(0) 编辑

2014年2月18日

摘要: 早上来图书馆之后就开始准备训练,首先是照抄Andrew Ng的代码,包括sigmoid函数:function g = sigmoid(z)%SIGMOID Compute sigmoid functoon% J = SIGMOID(z) computes the sigmoid of z.% You need to return the following variables correctly g = zeros(size(z));% ====================== YOUR CODE HERE ======================% Instructions: Com 阅读全文

posted @ 2014-02-18 17:08 SnakeHunt2012 阅读(241) 评论(0) 推荐(0) 编辑

摘要: 今天主要就是写了两个观察特征的画图函数,一个是用于观察一个变量的分布的,0高度红色十字是正例,1高度行蓝色十字是反例,第一个参数是特征值,第二个是正反例标签,两个都是n*1的列向量:function plotFeature(Feature, label) pos = find(label == 1); neg = find(label == 0); figure; hold on; X_low = min([min(Feature(pos)), min(Feature(neg))]); X_high = max([max(Feature(pos)), max(Feature(neg))]); 阅读全文

posted @ 2014-02-18 17:07 SnakeHunt2012 阅读(149) 评论(0) 推荐(0) 编辑

摘要: 早上来图书馆发现昨天的数据有问题,就是正规化之后的数据有一列一直是NaN,然后查找原因。我从网上找了个去掉带NaN的行的函数,把含有NaN的行全部去掉:function [X] = removeNaNRows(X) X(any(isnan(X),2),:) = [];end然后将norm_1载入进来,在剔除带NaN的行,果然全都美没有了,说明确实有一列全都是NaN。接着我把train_1载入进来,whos一下一共20000行数据,然后在进行踢出NaN的行,然后再whos发现一点都没有边,还是20000行,说明数据中并没有NaN。在原始数据中是有NULL的,这很奇怪,也许是Matlab在输入的时 阅读全文

posted @ 2014-02-18 16:58 SnakeHunt2012 阅读(155) 评论(0) 推荐(0) 编辑

摘要: 早上七点多就起来了,然后去食堂吃饭,充饭卡,回寝室交网费,然后来到图书馆。首先导入数据,由于octave内存吃紧,每次大概只能导入20000条数据。所以我是将整个train分成6份,每份20000条数据,最后一份5471条数剧。octave> train_1 = dlmread("train_v2.csv", ",", [1, 1, 20000, 778]);octave> save("train_1.mat", "train_1")octave> train_2 = dlmread(" 阅读全文

posted @ 2014-02-18 16:57 SnakeHunt2012 阅读(207) 评论(0) 推荐(0) 编辑

摘要: 记得网上说学习东西的时候,“使用”是记得最牢的,所以我打算开始着手用Matlab写一个Kaggle。之前一直不知道kaggle上面的题目是怎么分 类的,就是不知道Feature、Musters、Recruiting、Research etc.是怎么分类的,后来在Google上找到一个官方的介绍“Welcome to Kaggle”讲这方面的。现在决定选个简单一点直接一点的题目:Loan Default Prediction - Imperial College London,觉得这个题目比较入手,基本上就是简单的“分类+回归”问题。题目是预测贷款能否还清的问题,以前贷款还清就预测能不能还清就好 阅读全文

posted @ 2014-02-18 16:54 SnakeHunt2012 阅读(251) 评论(0) 推荐(0) 编辑

摘要: 今天来自斯坦福的王孟秋来实验室例会,其中提到这样几点我表在意他在读的时候间断过,还有过在中国创业的经验,不过中国创业 环境非常差,虽然机会很多,但是垄断主义很严重。他认为创业最关键的是可以在I那么短的时间内能找到那么一堆人能够知道怎么快速build你的想法,要做 的东西要尽快做出来,然后在慢慢改,builde出来的慢了,就没有用了。而且投资人真的是在帮助你而非像中国一样,就给你钱,然后你就负责赚回来多少这 样。但是他觉得大公司内部是很厉害的,他觉得腾讯真的很厉害,能够吸纳一个团队进来然后发展的很好。在 斯坦福对文章发表的数量没有硬条件,什么时候毕业全靠你跟老板你们两个的感觉。但在斯坦福压力却很 阅读全文

posted @ 2014-02-18 16:46 SnakeHunt2012 阅读(1173) 评论(0) 推荐(0) 编辑

摘要: 如果每天思考12小时,那么365天共思考4380小时那么两年半共思考10950小时,多出来的950小时可以平均分配给最初的半年,那么大四每天要在实验室花费的时间为9.5个小时。相当白天挤出三个半小时,这可以从上课的时候挤出来,然后晚上从六点工作到十一点。另外今天在图书馆看到有本书叫做《可视化数据》,上面记载了一个工具叫做processing,看上面的介绍是一种可交互式的数据可是话语言,支持鼠标点击、放大等交互事件。而非R语言这种非交互式的。目前还不清楚细节,需要调查一下。在三楼看书的时候还做出个打算,就是继续码典计划,明天把电脑带到图书馆所在柜子里,每天复习到累的时候就去三楼写码典。码典计划当 阅读全文

posted @ 2014-02-18 16:35 SnakeHunt2012 阅读(241) 评论(0) 推荐(0) 编辑

摘要: 下午接受了天猫某高管的交叉面试,在图书馆电面的,感觉面的不怎么好,他先问了我飞天的情况,还有我做了什么,他感觉和我聊不到一起去,我感觉应该是下午在地下铁喝的那杯咖啡让我慌了神,后来他又问了大数组抽取最大十个数的问题,我没答上来,反正就是感觉不会再爱了。。。晚上值班的时候,跟大师兄关于OpenNER在会议室碰头,确定了OpenNER大的方向就是两个工期:一期:对任意领域X,仅用X领域实体进行训练,然后输入一个X领域实体能够分类(是不是X领域实体)。二期:用自然文本提高准确度。然后确定了一期初期目前的两个阶段:第一步.实体内部词语间紧密度:这个效果想做成这样,就是用现成的实体当做训练,然后拿来一个 阅读全文

posted @ 2014-02-18 16:34 SnakeHunt2012 阅读(263) 评论(0) 推荐(0) 编辑

2014年2月17日

摘要: 上午看计算机网络,下午做计算机实验。晚上写计算机实验报告,还有OpenStack的实验报告。写完之后跟师兄讨论了一下OpenNER的事情,觉得OpenNE很像是化学物质,里面很多都可以构成原子团,原子团与原子团之间有结合关系,内部紧密性也有的强有的若,我们可以进一步利用这种结合关系构建成图谱,我觉得这个图谱会有很大用处。我觉得在我脑海里,实体如果是一块石头的话,他的每部分都是结合的比较紧密的,但紧密归紧密,之间还存在着裂缝,这种裂缝的粗细,方向,都是重要的信息。我一直在想如何把这种感觉表达出来。总的来说还是不甘于仅仅用子串、公共字串来描述实体的结构,差很多,一个灵感吧,算是。 阅读全文

posted @ 2014-02-17 19:34 SnakeHunt2012 阅读(173) 评论(0) 推荐(0) 编辑