SnakeHunt2012 - 博客园

2014.2.17 - 贷款预测第六天

摘要：经历过昨天的打击，今天上午我把数剧又重新整理了一遍。在网上看说如果用load("")的方法可以载入的数据量大一些，所以我就打算直接从.csv文件转化到.mat文件，首先我随便写了个矩阵存在.mat文件中：octave> x = [1 2, 3, 4; 5, 6, 7, 8]x = 1 2 3 4 5 6 7 8octave> save("x.mat", "x")然后用文本的方式把这个x.mat文件打开是这样的：# Created by Octave 3.6.2, Mon Feb 17 12:27:52 2014 CST # 阅读全文

posted @ 2014-02-23 23:03 SnakeHunt2012 阅读(167) 评论(0) 推荐(0) 编辑

2014.2.16 - 贷款预测第五天

摘要：早上来图书馆之后就开始准备训练，首先是照抄Andrew Ng的代码，包括sigmoid函数：function g = sigmoid(z)%SIGMOID Compute sigmoid functoon% J = SIGMOID(z) computes the sigmoid of z.% You need to return the following variables correctly g = zeros(size(z));% ====================== YOUR CODE HERE ======================% Instructions: Com 阅读全文

posted @ 2014-02-18 17:08 SnakeHunt2012 阅读(241) 评论(0) 推荐(0) 编辑

2014.2.15 - 贷款预测第四天

摘要：今天主要就是写了两个观察特征的画图函数，一个是用于观察一个变量的分布的，0高度红色十字是正例，1高度行蓝色十字是反例，第一个参数是特征值，第二个是正反例标签，两个都是n*1的列向量：function plotFeature(Feature, label) pos = find(label == 1); neg = find(label == 0); figure; hold on; X_low = min([min(Feature(pos)), min(Feature(neg))]); X_high = max([max(Feature(pos)), max(Feature(neg))]); 阅读全文

posted @ 2014-02-18 17:07 SnakeHunt2012 阅读(149) 评论(0) 推荐(0) 编辑

2014.2.14 - 贷款预测第三天

摘要：早上来图书馆发现昨天的数据有问题，就是正规化之后的数据有一列一直是NaN，然后查找原因。我从网上找了个去掉带NaN的行的函数，把含有NaN的行全部去掉：function [X] = removeNaNRows(X) X(any(isnan(X),2),:) = [];end然后将norm_1载入进来，在剔除带NaN的行，果然全都美没有了，说明确实有一列全都是NaN。接着我把train_1载入进来，whos一下一共20000行数据，然后在进行踢出NaN的行，然后再whos发现一点都没有边，还是20000行，说明数据中并没有NaN。在原始数据中是有NULL的，这很奇怪，也许是Matlab在输入的时阅读全文

posted @ 2014-02-18 16:58 SnakeHunt2012 阅读(155) 评论(0) 推荐(0) 编辑

2014.2.13 - 贷款预测第二天

摘要：早上七点多就起来了，然后去食堂吃饭，充饭卡，回寝室交网费，然后来到图书馆。首先导入数据，由于octave内存吃紧，每次大概只能导入20000条数据。所以我是将整个train分成6份，每份20000条数据，最后一份5471条数剧。octave> train_1 = dlmread("train_v2.csv", ",", [1, 1, 20000, 778]);octave> save("train_1.mat", "train_1")octave> train_2 = dlmread(" 阅读全文

posted @ 2014-02-18 16:57 SnakeHunt2012 阅读(207) 评论(0) 推荐(0) 编辑

2014.2.12 - 贷款预测第一天

摘要：记得网上说学习东西的时候，“使用”是记得最牢的，所以我打算开始着手用Matlab写一个Kaggle。之前一直不知道kaggle上面的题目是怎么分类的，就是不知道Feature、Musters、Recruiting、Research etc.是怎么分类的，后来在Google上找到一个官方的介绍“Welcome to Kaggle”讲这方面的。现在决定选个简单一点直接一点的题目：Loan Default Prediction - Imperial College London，觉得这个题目比较入手，基本上就是简单的“分类+回归”问题。题目是预测贷款能否还清的问题，以前贷款还清就预测能不能还清就好阅读全文

posted @ 2014-02-18 16:54 SnakeHunt2012 阅读(251) 评论(0) 推荐(0) 编辑

2013.10.8 - 王孟秋来访实验室

摘要：今天来自斯坦福的王孟秋来实验室例会，其中提到这样几点我表在意他在读的时候间断过，还有过在中国创业的经验，不过中国创业环境非常差，虽然机会很多，但是垄断主义很严重。他认为创业最关键的是可以在I那么短的时间内能找到那么一堆人能够知道怎么快速build你的想法，要做的东西要尽快做出来，然后在慢慢改，builde出来的慢了，就没有用了。而且投资人真的是在帮助你而非像中国一样，就给你钱，然后你就负责赚回来多少这样。但是他觉得大公司内部是很厉害的，他觉得腾讯真的很厉害，能够吸纳一个团队进来然后发展的很好。在斯坦福对文章发表的数量没有硬条件，什么时候毕业全靠你跟老板你们两个的感觉。但在斯坦福压力却很阅读全文

posted @ 2014-02-18 16:46 SnakeHunt2012 阅读(1173) 评论(0) 推荐(0) 编辑

2013.9.25 - 10000小时计划

摘要：如果每天思考12小时，那么365天共思考4380小时那么两年半共思考10950小时，多出来的950小时可以平均分配给最初的半年，那么大四每天要在实验室花费的时间为9.5个小时。相当白天挤出三个半小时，这可以从上课的时候挤出来，然后晚上从六点工作到十一点。另外今天在图书馆看到有本书叫做《可视化数据》，上面记载了一个工具叫做processing，看上面的介绍是一种可交互式的数据可是话语言，支持鼠标点击、放大等交互事件。而非R语言这种非交互式的。目前还不清楚细节，需要调查一下。在三楼看书的时候还做出个打算，就是继续码典计划，明天把电脑带到图书馆所在柜子里，每天复习到累的时候就去三楼写码典。码典计划当阅读全文

posted @ 2014-02-18 16:35 SnakeHunt2012 阅读(241) 评论(0) 推荐(0) 编辑

2013.9.3 - OpenNER第十一天

摘要：下午接受了天猫某高管的交叉面试，在图书馆电面的，感觉面的不怎么好，他先问了我飞天的情况，还有我做了什么，他感觉和我聊不到一起去，我感觉应该是下午在地下铁喝的那杯咖啡让我慌了神，后来他又问了大数组抽取最大十个数的问题，我没答上来，反正就是感觉不会再爱了。。。晚上值班的时候，跟大师兄关于OpenNER在会议室碰头，确定了OpenNER大的方向就是两个工期：一期：对任意领域X，仅用X领域实体进行训练，然后输入一个X领域实体能够分类（是不是X领域实体）。二期：用自然文本提高准确度。然后确定了一期初期目前的两个阶段：第一步.实体内部词语间紧密度：这个效果想做成这样，就是用现成的实体当做训练，然后拿来一个阅读全文

posted @ 2014-02-18 16:34 SnakeHunt2012 阅读(263) 评论(0) 推荐(0) 编辑

2013.6.29 - OpenNER第九天

摘要：上午看计算机网络，下午做计算机实验。晚上写计算机实验报告，还有OpenStack的实验报告。写完之后跟师兄讨论了一下OpenNER的事情，觉得OpenNE很像是化学物质，里面很多都可以构成原子团，原子团与原子团之间有结合关系，内部紧密性也有的强有的若，我们可以进一步利用这种结合关系构建成图谱，我觉得这个图谱会有很大用处。我觉得在我脑海里，实体如果是一块石头的话，他的每部分都是结合的比较紧密的，但紧密归紧密，之间还存在着裂缝，这种裂缝的粗细，方向，都是重要的信息。我一直在想如何把这种感觉表达出来。总的来说还是不甘于仅仅用子串、公共字串来描述实体的结构，差很多，一个灵感吧，算是。阅读全文

posted @ 2014-02-17 19:34 SnakeHunt2012 阅读(173) 评论(0) 推荐(0) 编辑