上一页 1 2 3 4 5 6 7 ··· 9 下一页

2014年2月17日

摘要: 今天早上来了之后就处理语料,然后发现处理好后的gbk编码的语料在HPC上没法训,而utf8在上面训练可以。后来就让它在上面训着,学长还没来。学长回来之后问他怎么回事,他说不应该,然后我们看了一下第一条的gbk语料,发现可以,然后学长说认为是我处理出来的语料还是有问题,还需要在继续检查。下午回来之后,就看到了秋哥的邮件:差不多是这个意思,第三点需要注意的。不仅仅是建立哈工大的高文的这一类,还需要建立中科院的高文的一类,或者另外一个高文的一类。思路跟附件中Name Disambiguation Using Atomic Clusters很像,可以参考一下,可行的话你就用这个方法做吧。这篇文章Dis 阅读全文

posted @ 2014-02-17 19:00 SnakeHunt2012 阅读(435) 评论(0) 推荐(0)

摘要: 今天把昨天的思路整理了一下,给中秋发过去了,还没回我。然后就全天看代码了,把NER跟LTP的接口又过了一下。晚上师兄跟我约好这周六一起把LTP写完,到时候我们俩都早点过来。这之前需要做的有:1、处理预料。之前用的语料不知道放哪了,打算重新训练语料。2、训练模型。这回用HPC训练预料,估计会比台式机或者笔记本快一些。3、找代码。之前LTP的代码不知道放哪里去了,需要找到之前写好的逻辑。然后晚上就一直在处理语料了,洗了好久,最后还是有问题,打算明天早上来了继续洗,明天是周四,我的班。 阅读全文

posted @ 2014-02-17 18:58 SnakeHunt2012 阅读(120) 评论(0) 推荐(0)

摘要: 早上来实验室,本来打算向秦师兄要文献的,不过秦师兄上午不在,所以就没有联系他。于是就开始调试郑茂的代码,发现原来那个itoa函数不是标准库里面 的,所以可能只有windows上可以用。然后我就在打电脑上变异了一下果然就是可以。不过运行结果最有一行有一个大大的ERROR,还在调试中。下午开例会的时候,上面汇报工作,我就在下面想KDD怎么用CoAuthor,一般开会的时候灵感特别丰富,于是果然就有了一个点子。大概是这样的:首先样例程序那个最后一个特征粒度不够,我可以细化这个特征,就用社会挖掘。方法的核心是这样的,比如我跟郑茂都是新手,如果用最后一个特征来看,我俩共同 发表的文章很可能就会被判定为不 阅读全文

posted @ 2014-02-17 18:53 SnakeHunt2012 阅读(336) 评论(0) 推荐(0)

摘要: 今天上午在图书馆写FIrst集,真心没写出来,算法是昨天找好的,不过实现的话还是需要很大的代码量,然后就打算用郑茂或者韩冰的代码了。晚上图书馆快关门的时候开始思考KDD的问题, 我一开始打算给中秋发邮件来着,因为我开始觉得他给我的Co-Author好像跟“与当前文章合作的Co-Authro的历来合作的文章总数”那个SQL特征没什么改进,大概就是一样的,只不过可能粒度小。不过在发邮件之前我还是有打算再调研调研,于是就上网搜了一下社会计算、DBscan...没什么头绪。晚上回寝室之后,继续到自习室,看了看秦海龙师兄的那篇论文,果然还是中国人写的英文论文比较好读。感觉秦师兄在相关工作那节讲的几个相关 阅读全文

posted @ 2014-02-17 18:51 SnakeHunt2012 阅读(232) 评论(0) 推荐(0)

摘要: 下午上Android课,我看中秋也选这个课了,然后在上半节的时候速补了一下秦海龙师兄的那篇文章。中间休息的时候窜到了中秋那里,然后讨论了半节课现在的情况。现在的情况是这样的:中秋开始是没有进行主题建模,直接用跟样例相同的特征训练了四个分类器,分别是LVM、LR、RF、GBDT,然后对这四个分类器进行组合,不过效果不是很理想,LVM、LR、RF这三个分类器单独工作的时候不如GBDT,而且这四个组合起来的效果还不如GBDT单独的效果,所以他还在研究。另一方面他现在在写主题建模的程序,基本上写的差不多了。思路是这样的,对每一篇文章每一个字进行主题映射,会映射出来一个比较稀疏的向量,每一个分量代表一个 阅读全文

posted @ 2014-02-17 18:50 SnakeHunt2012 阅读(231) 评论(0) 推荐(0)

摘要: 今天早上,中秋给我发了一个压缩包,里面有战德臣的课件,昨天我说我SQL没学好,他说给我发战徳臣课件,然后说我SQL不会的话可以看这个,还有两篇文 章《LDA数学八卦》以及《A Note on EM Algorithm and PLSA》,分别是讲LDA和PLSA的。让我看说明:1.有个文件里面有专门讲sql的;2.LDA和PLSA的文件,可以看一下,大概了解下输入输出,算法过程。我建议你现在想想共同作者或者机构的问题,了解下主题模型可能会有帮助,找出作者的topic这个我正在做(可能会去微软学术搜索里面去抓取会议的信息,比如ICML这个会对应MachineLearning and Patter 阅读全文

posted @ 2014-02-17 18:48 SnakeHunt2012 阅读(176) 评论(0) 推荐(0)

摘要: 今天晚上郭宇航师兄从外面回来问我那天找他什么事,然后我们就开始讨论KDD的第一个题目,其实第一个题目跟郭师兄的课题不太相关,本来想问他关于语义消 岐的那道题(第二道),不过第二题的内容我给忘了,然后我们就开始讨论第一道题,第一道题的内容说清楚了,然后师兄要看一下示例代码,但是关键的地 方,SQL语句抽出来的特征分别代表什么被我忘记了,非常尴尬。讨论的结果大概是这样的:可以test驱动那种,但是别太过火,容易过拟合,当前榜上排前几名都已靖97%的那几个队有可能就已经过拟合了,因为他们尝试的次数太多。可以采用交叉验证,留一块训练样本用来测试,然后将测试的错误于标准答案对比,尽量找到最有共性的错误, 阅读全文

posted @ 2014-02-17 18:47 SnakeHunt2012 阅读(196) 评论(0) 推荐(0)

摘要: 其实昨天KDD就开始了,不过今天算是我跟KDD的第一天。昨天夜里就短信跟中秋聊了一会儿,然后中秋说他一天都在弄数据库,连不上怒了。然后我跟他说明天我来。于是今天就在图书馆弄KDD,数据是用数据库存储的而 不是文件,数据库用的PostgreSQL,然后就在Linux上搭建PostgreSQL,没什么问题。就是最后在载入样例数据备份的时候数据一直下载 不下来,然后就到中秋哪里拿数据。在中秋那里看了一下他的错误,其实没解决,我的感觉还是他的安装包的问题,貌似PostgreSQL对Windows支持并不太好,说安装有错误,读不了或者没有那个.conf文件,然后就在他的虚拟机上试了一下,果然就可以正常。 阅读全文

posted @ 2014-02-17 18:46 SnakeHunt2012 阅读(225) 评论(0) 推荐(0)

2013年2月20日

摘要: 第六个实验其实非常简单,然而一开始我的思路就是错误的,我过分依赖于sunner的实验指导书,而不是自己的判断,把太多注意力放在 keyboard.S上,以为真的就像sunner说的:“所以每次按键有动作,keyboard_interrupt函数就会被调用,它在文件 kernel/chr_drv/keyboard.S(注意,扩展名 是大写的S)中实现。所有与键盘输入相关的功能都是在此文件中实现的,所以本实验的部分功能也可以在此文件中实现。详读《注释》一书中对此文件的注解会大 有裨益。”而我却走偏了路,导致一晚上都没做出来,还是第二天下午看到王意林的日志才做出来。这 个实验的内容是用F12作为开关 阅读全文

posted @ 2013-02-20 14:33 SnakeHunt2012 阅读(490) 评论(0) 推荐(0)

摘要: 今天早上完成了第五次实验的第二部分,这部分要求在ubuntu上用共享内存模拟生产者消费者问题,期间要用到之前的信号量。producer.c 中,我用shmget开出一页内存共享,其返回值是一个比较大的整数,这个整数在整个系统中都是通用的,其他程序都可一通过这个id来共享我开出的这一页 内存,用于进程间的交流。用shmat函数来获得这个共享页的使用权限,申请使用这个页,然后这个函数会返回给你一个*buf的八位地址值,这个地址值就 是所有程序共用的共享内存地址,正常的程序,如果不采用共享内存,那么他们即使对同一个地址进行操作都是互补相干的,因为他们索访问到的地址都是相对自己 段地址的偏移量,每个程 阅读全文

posted @ 2013-02-20 14:31 SnakeHunt2012 阅读(302) 评论(0) 推荐(0)

上一页 1 2 3 4 5 6 7 ··· 9 下一页