2014年2月17日

摘要: 上午看计算机网络,下午做计算机实验。晚上写计算机实验报告,还有OpenStack的实验报告。写完之后跟师兄讨论了一下OpenNER的事情,觉得OpenNE很像是化学物质,里面很多都可以构成原子团,原子团与原子团之间有结合关系,内部紧密性也有的强有的若,我们可以进一步利用这种结合关系构建成图谱,我觉得这个图谱会有很大用处。我觉得在我脑海里,实体如果是一块石头的话,他的每部分都是结合的比较紧密的,但紧密归紧密,之间还存在着裂缝,这种裂缝的粗细,方向,都是重要的信息。我一直在想如何把这种感觉表达出来。总的来说还是不甘于仅仅用子串、公共字串来描述实体的结构,差很多,一个灵感吧,算是。 阅读全文

posted @ 2014-02-17 19:34 SnakeHunt2012 阅读(180) 评论(0) 推荐(0)

摘要: 今天收到中秋的邮件。KDD结果出来了,Zhongqiu Wang & Jingwen Huang 15th/561。 阅读全文

posted @ 2014-02-17 19:26 SnakeHunt2012 阅读(181) 评论(0) 推荐(0)

摘要: 今例会的时候看CRF,突然感觉到ANN模型可能没有问题了,问题出在评价函数,不能接过好就说好,或者说收敛方法有问题,并不是打得对就答得好。还有就是我们应该让他能够根据需要而自己产生问题,问我们,然后我们回答他,这样来提高收敛速度,或者收敛方向、收敛效果。今天看NER的时候感觉是不是应该对一些模型进行深入,总是在边边角角想办法是不是不够彻底,最近看的论文都相当于在打补丁,而模型还是基本的模型CRF、隐马尔可夫随机场。但是看到CRF的时候又感觉是不是难度太大了,再看看再说。。。下午全体例会。师姐讲了矛盾信息的检测和分析,师兄讲了社会媒体预测案例。 阅读全文

posted @ 2014-02-17 19:16 SnakeHunt2012 阅读(162) 评论(0) 推荐(0)

摘要: 今天晚上跟师兄讨论,这那几篇论文,对于《领域多词表 达翻译对的自动抽取及其应用》那篇,我的感觉是跟实体识别不太吻合。他的大概意思就是先讲所有有可能的多词表达都找出来,然后在用C-value、上下文 熵、北京语料库等手段进行过滤,不过我看了前面生成预选集合的地方就觉得不太对劲。因为多词表达跟实体差别还是挺大的,实体对于内部结构有依赖,他的方法 就是连续统计一句话每词之间的相关联度,然后将最大的一个一个接着规约合并,合并的中间产物和最终产物都算是有可能的多词表达,整个规约过程可以被表达成 一颗树。但是这样并不好,因为对于多词表达来说这样做也许能够奏效,因为多词表达对于结构依赖的不是那么多,然而对于 阅读全文

posted @ 2014-02-17 19:15 SnakeHunt2012 阅读(302) 评论(0) 推荐(0)

摘要: 果然看中文材料就比较顺利,才半个小时就看完了一篇非常简单的综述《命名实体识别研究进展综述》(孙镇、王惠临)。这个是2010年的文章,其实就是一个 科普文章,简述了国内外NER这块的历史如何。这篇文章算是线头吧,因为我感觉对我的意义最大就是他所引出来的那些文献,尤其是中文NER的文献,我觉得 很有必要拓扑下去。意外收获是,在看的时候发现浅层句法分析这个东西也许会对我们产生比较大的帮助,因为要挖掘实体的结构,所以可能会需要一些部分句法的分析,具体还要找学长科普一下。 阅读全文

posted @ 2014-02-17 19:14 SnakeHunt2012 阅读(152) 评论(0) 推荐(0)

摘要: 下午去实验室继续写实验报告,跟伟杰要了一个实验报告,然后大师兄叫我,我们在走廊唠了一会儿。大师兄想做Open NE,他说这个会比较难,目前没有人做,因为还没有发现相关的文章,大家研究的都是指定了哪种实体之后的识别,这种Open的还不是很成熟,目前的想法就是挖掘实体结构,然后来确定实体边界。目前想让我在几个现成的实体上试试能不能挖掘出来有效的结构,或者其他有效的方法。所以今天的任务有这些:做实验写报告YY一下OpenNE晚上跟家伟吃饭的时候也讨论了一下如果是他,他怎么办,因为他是分析图像的,所以就相当于给几个图片,中间标出主题的轮廓。比如给几个猫的图片和房子的图片,标出来,然后让他识别车图片和人 阅读全文

posted @ 2014-02-17 19:13 SnakeHunt2012 阅读(206) 评论(0) 推荐(0)

摘要: 看完睡不觉得世间有点虚度,然后就构思了一下带带回儿去找中秋要跟她说的事情,大概就是这样的:我打算用paper来计算人与人之间的距离,比如说我跟郑茂和写过一篇文章,然后郑茂根韩冰和写过一篇文章,这样我跟韩冰的距离比较近,这样如果我在一篇文章中跟其他两个id有名称歧义的话而且其中韩冰又是其中一个无歧义作者,那没看我这个id跟韩冰这么近,肯定是我写的文章。晚上八点多快九点的时候给中求发短信,然后他说现在可以过去,我就过去了。过去之后我跟她说了这个想法没他说有问题,具体问题就是我是我们最初的想法是正确的,后来改的不对,而且基本上不能对着id来弄。他觉得官方给的validit数据本身就是内涵bug的,在 阅读全文

posted @ 2014-02-17 19:09 SnakeHunt2012 阅读(238) 评论(0) 推荐(0)

摘要: 实验室例会,上到一半之后发现今天下午第二节课是Android,上次两节Android都没跟中秋碰头,这次又不能碰头了,然 后就赶紧给中秋发了个短信,说我在开会,晚上约个时间再谈。正好也称这一下午加一晚上的时间把那三篇论文温习一遍,然后把CRF、MRF再看看,不过果然 还是没于看懂,晚上吃完饭回来打算找学长问,不过学长吃饭去了还没有回来,就自己看那篇综述。等学瑞吉师兄回来之后就跟师兄到会议室讨MRF还有这个题目。其实之前对MRF一直存在误解,这是主要障碍,以前一直以为每个节点都代表一种lable configuration,这样不同的Y之间会有概率关系,而且满足马尔科夫性,不过越想越不对劲。后来 阅读全文

posted @ 2014-02-17 19:07 SnakeHunt2012 阅读(259) 评论(0) 推荐(0)

摘要: 下午去上刘杨老师的机器学习课,今天讲的"朴素被噎死",他本想当场举个例子,结果读了好半天才吧关系都拼凑上,他说明天给我们带来个精彩的,回去之后夜里把朴素贝叶斯自己又脑补了一下,发现贝叶斯原理(后验)就是个很简单的因果现象。正常的因果现象是,给你一个起因,可能会有不同的结果,而每种结果的概率是P(果|因)。而所谓的"后验过程"就是当你看到结果是这样的时候,问最可能是哪种原因造成现在这个结果。这 里我想到了一年前理学院的王勇老师给他们学上讲课的时候用过的一个例子:说你是某工厂的厂长,一共有甲、乙、丙三个车间,都生产相同的零件。事情是这样 的,今天国家领导过来视察,临走的时候从集装箱的一堆零件随手拿 阅读全文

posted @ 2014-02-17 19:04 SnakeHunt2012 阅读(230) 评论(0) 推荐(0)

摘要: 昨天下午的时候中秋给我发短信"待会儿上课吧?上课讨论下?",然后我回复"嗯,好的。"然后上课的时候中秋说那个方案也许不太好执行,因为他后来看数据了,数据库里面这种"可以从从协同作者进行判断"的例子并不多。所以不能只靠那个。然后今天早上还在床上没起来,就接到了瑞吉师兄打来的电话,才发现今天我们约好一起写NER的,结果被我忘了,是在非常囧。然后就跑过去了,然后找出之前写好的代码,过一会儿师兄就过来了,跟我一起看代码,师兄的意思是在上面直接该,不过我的想法是还是重写吧,我说用状态机重写,因为之前的那个代码实在写得太搓了,才三个多月之前写的代码,今天看起来竟然那么的不堪入目。我觉得这应该是侧面看出来我 阅读全文

posted @ 2014-02-17 19:03 SnakeHunt2012 阅读(235) 评论(0) 推荐(0)

摘要: 今天上午把昨天的想法给中秋发过去了,然后我就开始科普随机森林:随机森林是一种比较新的机器学习模型。经典的机器学习模型是神经网络,有半个多世纪的历史了。神经网络预测精确,但是计算量很大。上世纪八十年代Breiman等人发明分类树的算法(Breiman et al. 1984),通过反复二分数据进行分类或回归,计算量大大降低。2001年Breiman把分类树组合成随机森林(Breiman 2001a),即在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树的结果。随机森林在运算量没有显著提高的前提下提高了预测精度。随机森林对多元公线性不敏感,结果对缺失数据和非平衡的数据比 阅读全文

posted @ 2014-02-17 19:01 SnakeHunt2012 阅读(329) 评论(0) 推荐(0)

摘要: 今天早上来了之后就处理语料,然后发现处理好后的gbk编码的语料在HPC上没法训,而utf8在上面训练可以。后来就让它在上面训着,学长还没来。学长回来之后问他怎么回事,他说不应该,然后我们看了一下第一条的gbk语料,发现可以,然后学长说认为是我处理出来的语料还是有问题,还需要在继续检查。下午回来之后,就看到了秋哥的邮件:差不多是这个意思,第三点需要注意的。不仅仅是建立哈工大的高文的这一类,还需要建立中科院的高文的一类,或者另外一个高文的一类。思路跟附件中Name Disambiguation Using Atomic Clusters很像,可以参考一下,可行的话你就用这个方法做吧。这篇文章Dis 阅读全文

posted @ 2014-02-17 19:00 SnakeHunt2012 阅读(435) 评论(0) 推荐(0)

摘要: 今天把昨天的思路整理了一下,给中秋发过去了,还没回我。然后就全天看代码了,把NER跟LTP的接口又过了一下。晚上师兄跟我约好这周六一起把LTP写完,到时候我们俩都早点过来。这之前需要做的有:1、处理预料。之前用的语料不知道放哪了,打算重新训练语料。2、训练模型。这回用HPC训练预料,估计会比台式机或者笔记本快一些。3、找代码。之前LTP的代码不知道放哪里去了,需要找到之前写好的逻辑。然后晚上就一直在处理语料了,洗了好久,最后还是有问题,打算明天早上来了继续洗,明天是周四,我的班。 阅读全文

posted @ 2014-02-17 18:58 SnakeHunt2012 阅读(120) 评论(0) 推荐(0)

摘要: 早上来实验室,本来打算向秦师兄要文献的,不过秦师兄上午不在,所以就没有联系他。于是就开始调试郑茂的代码,发现原来那个itoa函数不是标准库里面 的,所以可能只有windows上可以用。然后我就在打电脑上变异了一下果然就是可以。不过运行结果最有一行有一个大大的ERROR,还在调试中。下午开例会的时候,上面汇报工作,我就在下面想KDD怎么用CoAuthor,一般开会的时候灵感特别丰富,于是果然就有了一个点子。大概是这样的:首先样例程序那个最后一个特征粒度不够,我可以细化这个特征,就用社会挖掘。方法的核心是这样的,比如我跟郑茂都是新手,如果用最后一个特征来看,我俩共同 发表的文章很可能就会被判定为不 阅读全文

posted @ 2014-02-17 18:53 SnakeHunt2012 阅读(336) 评论(0) 推荐(0)

摘要: 今天上午在图书馆写FIrst集,真心没写出来,算法是昨天找好的,不过实现的话还是需要很大的代码量,然后就打算用郑茂或者韩冰的代码了。晚上图书馆快关门的时候开始思考KDD的问题, 我一开始打算给中秋发邮件来着,因为我开始觉得他给我的Co-Author好像跟“与当前文章合作的Co-Authro的历来合作的文章总数”那个SQL特征没什么改进,大概就是一样的,只不过可能粒度小。不过在发邮件之前我还是有打算再调研调研,于是就上网搜了一下社会计算、DBscan...没什么头绪。晚上回寝室之后,继续到自习室,看了看秦海龙师兄的那篇论文,果然还是中国人写的英文论文比较好读。感觉秦师兄在相关工作那节讲的几个相关 阅读全文

posted @ 2014-02-17 18:51 SnakeHunt2012 阅读(232) 评论(0) 推荐(0)

摘要: 下午上Android课,我看中秋也选这个课了,然后在上半节的时候速补了一下秦海龙师兄的那篇文章。中间休息的时候窜到了中秋那里,然后讨论了半节课现在的情况。现在的情况是这样的:中秋开始是没有进行主题建模,直接用跟样例相同的特征训练了四个分类器,分别是LVM、LR、RF、GBDT,然后对这四个分类器进行组合,不过效果不是很理想,LVM、LR、RF这三个分类器单独工作的时候不如GBDT,而且这四个组合起来的效果还不如GBDT单独的效果,所以他还在研究。另一方面他现在在写主题建模的程序,基本上写的差不多了。思路是这样的,对每一篇文章每一个字进行主题映射,会映射出来一个比较稀疏的向量,每一个分量代表一个 阅读全文

posted @ 2014-02-17 18:50 SnakeHunt2012 阅读(231) 评论(0) 推荐(0)

摘要: 今天早上,中秋给我发了一个压缩包,里面有战德臣的课件,昨天我说我SQL没学好,他说给我发战徳臣课件,然后说我SQL不会的话可以看这个,还有两篇文 章《LDA数学八卦》以及《A Note on EM Algorithm and PLSA》,分别是讲LDA和PLSA的。让我看说明:1.有个文件里面有专门讲sql的;2.LDA和PLSA的文件,可以看一下,大概了解下输入输出,算法过程。我建议你现在想想共同作者或者机构的问题,了解下主题模型可能会有帮助,找出作者的topic这个我正在做(可能会去微软学术搜索里面去抓取会议的信息,比如ICML这个会对应MachineLearning and Patter 阅读全文

posted @ 2014-02-17 18:48 SnakeHunt2012 阅读(176) 评论(0) 推荐(0)

摘要: 今天晚上郭宇航师兄从外面回来问我那天找他什么事,然后我们就开始讨论KDD的第一个题目,其实第一个题目跟郭师兄的课题不太相关,本来想问他关于语义消 岐的那道题(第二道),不过第二题的内容我给忘了,然后我们就开始讨论第一道题,第一道题的内容说清楚了,然后师兄要看一下示例代码,但是关键的地 方,SQL语句抽出来的特征分别代表什么被我忘记了,非常尴尬。讨论的结果大概是这样的:可以test驱动那种,但是别太过火,容易过拟合,当前榜上排前几名都已靖97%的那几个队有可能就已经过拟合了,因为他们尝试的次数太多。可以采用交叉验证,留一块训练样本用来测试,然后将测试的错误于标准答案对比,尽量找到最有共性的错误, 阅读全文

posted @ 2014-02-17 18:47 SnakeHunt2012 阅读(196) 评论(0) 推荐(0)

摘要: 其实昨天KDD就开始了,不过今天算是我跟KDD的第一天。昨天夜里就短信跟中秋聊了一会儿,然后中秋说他一天都在弄数据库,连不上怒了。然后我跟他说明天我来。于是今天就在图书馆弄KDD,数据是用数据库存储的而 不是文件,数据库用的PostgreSQL,然后就在Linux上搭建PostgreSQL,没什么问题。就是最后在载入样例数据备份的时候数据一直下载 不下来,然后就到中秋哪里拿数据。在中秋那里看了一下他的错误,其实没解决,我的感觉还是他的安装包的问题,貌似PostgreSQL对Windows支持并不太好,说安装有错误,读不了或者没有那个.conf文件,然后就在他的虚拟机上试了一下,果然就可以正常。 阅读全文

posted @ 2014-02-17 18:46 SnakeHunt2012 阅读(225) 评论(0) 推荐(0)