随笔分类 -  仅仅是日志

1

摘要:今天主要写了NER,原来之前的NER是从外部输入是Unicode的,他在内部转换为GBK再处理的,最后又转换为Unicode输出的。原来在 Windows上,直接写在代码里的是Unicode的。因为如果字符串常量前面加上大写的L就表示这个字符串是Unicode编码。然后就是解决最后头 疼的问题,就是怎么把wchar_t传给crf++,因为crf++传进去的应该是char型变量,而我现在是unicode的wchar_t,所以就涉 及到一个转换的问题,还好在网上找到了一个解决方案:把char*转换为wchar_t*用stdlib.h中的mbstowcs_s函数,可以通过下面的例子了解其用法:cha 阅读全文

posted @ 2013-02-18 16:56 SnakeHunt2012 阅读(386) 评论(0) 推荐(0)

摘要:今天晚上大概把之前的NER代码熟悉了以下,估计这几天就要在Windows下过了,直到把Win下的NER写完。晚上把那几个无关的工程都去 掉了。就剩下一个NER的工程,而这个NER的工程里面其实还有很多代码是可以去掉的,师兄说下学期要往里加一些比如规则等功能,所以有关的代码我就没 删,一方面是留着以后也许会供来参考另一方面我也并不是非常熟悉代码结构。目前为止,略改过一遍的函数有:NER_DLL.cpp里面的int LoadResource(const char* path) - 这是用来输入模型路径的void* CreateNErecoger() - 这是用来创建IRNErecog那个对象的vo 阅读全文

posted @ 2013-02-18 16:55 SnakeHunt2012 阅读(205) 评论(0) 推荐(0)

摘要:需要广泛借鉴其他领域的思想,只在一个领域思考,再聪明的人也都是被局限着的,大自然本为一体,况且计算机有关领域还都是人的贡献更多,所以非常有必要吸纳其他领域的精神。神经网络,现在人们对他的认识是,一层一层进行学习知道最后出结果,最开始是一个结果,也就是classification问题,后来输出层可以有很多节点,也就是multi-classification问题,但渐渐地人们会逐渐意识到,其实每个节点都有自己的意义。如果想真正模拟大脑,就需要将不同问题的神经网络嵌合在一起,虽然彼此是解决不同问题的,但期内部很有可能都在遵循着同样的道理,或许应该让他们共享相同的输入层,然后就如同common lis 阅读全文

posted @ 2013-02-18 16:53 SnakeHunt2012 阅读(163) 评论(0) 推荐(0)

摘要:应该写一本算法代码集,因为从过去的经验看来,每次写代码都要参照之前写过的代码,例如结构体怎么设计、变量取什么名、那个变量什么类型好。更多情况是为了追寻统一的风格比如C要写成K&R型的,并且遵循硬件资源最省,比如sunner有一课就讲了:for (i = 0; i < n; ++i) for (j = 0; j < n; ++j) num[i][j] = 0;与for (j = 0; j < n; ++j) for (i = 0; i < n; ++i) num[i][j] = 0;的复杂度虽然一样,但耗费的时间和资源仍然相差非常大,这是因为CPU的内存分页管理的 阅读全文

posted @ 2013-02-18 16:44 SnakeHunt2012 阅读(152) 评论(0) 推荐(0)

摘要:晚上对CRF++的效果做了一下测试,结果证明这个CRF++比较厉害,我不知道其他算法效果怎么阿越难过,但是这个结果我觉的比较高了就:third: 42322forth: 41785third_and_forth: 41785P value is: 1.000000R value is: 0.987312F value is: 0.993615一共投放了42322个实体共召回41785个实体而且这41785个实体全部正确准确率 100.00%召回率 98.73%F值 99.36%另外在这次实测中,尝试过下面几种方法来匹配Unicode全角字符:$full_width = qr/[\x{1100} 阅读全文

posted @ 2013-02-18 16:42 SnakeHunt2012 阅读(143) 评论(0) 推荐(0)

摘要:今天郭江师兄讲例会,将他在普林斯顿的研究和见闻,高手啊。他说他的老师跟他说过:“任何科学都是基于问题的,不是基于公式的”。这点深有体会, 从高中到现在,学的所有东西,包括数学,尤其是物理,都是看上去就是这套公式就是核心,所有问题都是符合这个公式的,这确实,但这个看法扭曲了很多同学的 观念,好像公式是核心,宇宙中所有运行都由这个理论产生似的。事实上恰恰相反,我们是先有的现象,然后从现象中抽象出来一个理论来拟合这个公式,而且这个 拟合要求是非常严格的,即必须对任意一个现象都成立。然而,理论充其量只不过是对现象的一种解释,然后根据这个解释我么可以预测或者创造。比如说当年的经典力学,学的时候我就认为宇 阅读全文

posted @ 2013-02-18 16:41 SnakeHunt2012 阅读(136) 评论(0) 推荐(0)

摘要:今天上午看了一上午的Emacs,在看正则搜索的时候书上说如果想对正则表达式做深入研究的 话请参考《sed & awk》,然后就搜了相关的一些资料,发现Unix上的正则表达式方案其实有挺多的,也可以用sed + awk + grep这种,还有的使用python,据说python是用来连接高级语言(Bash,Perl)和低级语言(C/C++,Java),好吧编程语言演化到现在连Java和C++都已经沦落到低级语言的地步了,可想而知这两年都发生了什么。的这段时间净是正则表达式主题相关,好吧今年就用正则表达式来开头吧。回自习室之后继续看正则表达式,昨天晚上看到Unicode那里,其实SCIR的 阅读全文

posted @ 2013-02-18 16:39 SnakeHunt2012 阅读(102) 评论(0) 推荐(0)

摘要:今天上午,应一佳大神的号召,下午两点多去实验室的机房那边收拾屋子去了。实验室前两天磁盘阵列坏了,丢了好多数据,明天请人来修复数据,所以我们要把两个电脑运过去,并且打扫一下卫生。这 个机房应该已经很久没人收拾了,用神童的话说就是再这样原封不动一百年就是博物馆了。然后我们费了九牛二虎之力把这里简单打扫了一下,把两台电脑安上了。 出来之后一家给我们几个一人买了瓶茉莉花茶算犒劳了。出来的时候正是四点,用一佳的话说就是"这个时间很令人尴尬",回实验室的话回去就要出来吃饭了,直 接出去吃饭的话又太早。然后他们决定回实验室,我就顺道去图书馆了。因为来的时候打算把那几本过期的书还了,然后好借本Windows编 阅读全文

posted @ 2013-02-18 16:36 SnakeHunt2012 阅读(154) 评论(0) 推荐(0)

摘要:上午来到实验室就看到凌晨一点左右大师兄给我留的言, 说让我用CRF++的标准模版。一开始我不太明白,因为这里面没找到什么标准模版,后来问了师兄才知道就是职业上给出的那个示例,然后就开始亲测,发现有 错误,然后我就只用前面几百行,可以正确运行。而如果给的数据太多的话 ,没有错误,但是迭代的时候卡在某个地方然后Windows就把我程序给关了。于是我把这个问题问大师兄,大势行初步判断可能语料的格式有错误。一开始我不知道是怎么错的,也不知道为什么错误在整体数据的时候回报错,然后等喂一半数据的时候就不报错,取而代之的是在迭代的时候卡机,然后 被Windows强制杀死。于是我自己判断有可能是数据太大了,因 阅读全文

posted @ 2013-02-18 16:27 SnakeHunt2012 阅读(261) 评论(0) 推荐(0)

摘要:今天又编译了一天,而且连第六章都没有编出去,其中GCC编了一中午,耗时五十多个SBU,果然够费劲。直到要走的时候才刚刚编到6.46的Xz。第六章 一共是62个软件,再加上额外需要安装一个lfs_next_helpers已公示63个软件,还剩17个,明天继续努力吧。如果非常顺利的话,明天也许 可以装完。不过今天是边看公开课边编译的,所以编译的时候也算没闲着。后面几个软件装起来基本上不消耗脑细胞,在上午就全都装完了,好吧,虽然我的上午是指午休之前,所以今天的上午指的是下午两点之前第六章全都装完,等我一觉醒来已经是五点多了,到了实验室已经是六点多了。 阅读全文

posted @ 2013-02-18 16:24 SnakeHunt2012 阅读(110) 评论(0) 推荐(0)

摘要:昨天晚上把语料处理好了,打算今天上午继续进行下一阶段,但是早上给大师兄发gtalk他没理我,然后才反应过来,这大过年的打扰人家一家团圆是不太好,于是我就开始编译我的LFS了。今天相当于编了一天LFS,第六章开始那段,就是配置工具连那段没太看懂,等下次装的是时候再详细看吧。这次寒假回家打算用真电脑编译一个LFS,因为我妈说小电脑修好了,等我编好LFS就可以有三个电脑同时工作了。中午的时候向sunner问好,祝他节日快乐,告诉他我现在已经在scir了,感谢他的引荐,然后他回复说,他当年也有一次机会去scir但是当时没去,他说他非常后悔,说自己当时太年轻,然后告诉我一定要好好干。我说那必须的。这么一 阅读全文

posted @ 2013-02-18 16:22 SnakeHunt2012 阅读(120) 评论(0) 推荐(0)

摘要:今天上午是任老师给我打电话叫我去答疑的,感觉非常愧疚。。。我跟他说清我的LFS的情况之后,他让我把这个LFS需要的所有软件包给他考一份,他今天晚上在自己的电脑里搭一遍,然后让我等他电话。于是我觉得这老师特别的够意思。后来他还跟我介绍了LFScript,他说他现在用的就是这个方法,然后还说如果我有兴趣的花还可以尝试一下Slackware,Slackware的提供的软件包都是源码,内含安装的脚本,但是需要的包依赖都只提供了一个清单,至于安装就得自己动手了,然后我就觉得他特别的高估我了。下午去联欢,临走前看了LFS那本书上介绍的各种软件包管理机制,发现这可真是个大问题,以前软件都由apt管理没觉得这 阅读全文

posted @ 2013-02-18 16:12 SnakeHunt2012 阅读(199) 评论(0) 推荐(0)

摘要:昨天晚上装到第五章,Gcc - Pass 2的时候出了问题,configure怎么都过不去,报错很短,说我的gcc无法生成可执行文件,然后就在网上搜来搜去,初步判定有两种可能的原因:1、 可能是我之前Glibc出错的那个地方,修改的不对,虽然最后编译过去了,但是很有可能不对。因为网上有跟我相似的错误(虽然不相同),他下面给出的回答 就是说之前可能在编译Glibc的时候不是独立编译的,用的是宿主机的什么什么。回想我确实在Glibc的地方出过错误,而且是我唯一出了问题的地方,所 以我断定60%的可能性是这个原因,如果是这个原因的话,就悲催了,首先我不得不全部重新来过,至少摇回溯到Glibc之前,那 阅读全文

posted @ 2013-02-18 16:11 SnakeHunt2012 阅读(131) 评论(0) 推荐(0)

摘要:晚上继续弄LFS,在弄version-check.sh的时候竟然发现我现在的sh竟然是dash,这是什么东西?然后上网百度才发现 “buntu6.10已将先前默认的bashshell更换为了dash。其表现是/bin/sh链接到了/bin/dash而不是传统的/bin /bash”,而更改过来的方法是:shell> sudo dpkg-reconfigure dash然后系统会询问你是否将dash用作默认shell,选择“否”就会改回正常的bash了。然后试图搭建LFS,在读LFS-BOOK的时候发现创建LFS通常需要一个新的分区,但好在他给出了一个文档,上面写了如何在当前系统正在使用的 阅读全文

posted @ 2013-02-18 16:10 SnakeHunt2012 阅读(299) 评论(0) 推荐(0)

摘要:昨天刚刚安装过Ubuntu12.04.0,刚装完就各种问题,然后立即就换了Ubuntu12.10,说实话问题也不小,自从12.04.0刚出来开始,就感觉越來越不满意,实在不行真得考虑换Debian了。今天中午,趁着排练还没开始,桶箍桶箍Emacs,在编辑配置文件的时候发现Emacs编辑文件有个毛病,就是每次一保存都给我自动备份一 个.emacs~文件,这个是备份文件,我今天在网上查了,在默认情况下,每当你给一个文件修改过试图保存的时候,Emacs都会将保存之前的源文件进行 一次备份,也就是生成或者更新.emacs~文件,保证每次都有当前版本和次当前版本。而每次都把我的文件夹改得乱糟糟,所以我打 阅读全文

posted @ 2013-02-18 16:08 SnakeHunt2012 阅读(192) 评论(0) 推荐(0)

摘要:虽然英语用词没有汉语丰富,但是英文的科学文献,英语还是很生动形象的,远远比汉语还用此丰富、表达形象,这一点尤其突出在数学上,而且在数学上尤其表现在离散数学中。这 一点明显说明了中国科研工作者和外国科研工作者的心态问题。外国老师想给你讲明白,所以用的是最贴心的话组织。而中国人更想给你讲蒙,即便这是下意识的而 不是在意识中的。所以给你讲得特别晦涩,讲得越难越好,给你讲得贼复杂,外国人就给你讲得贼简单。中国人这么做大概有这么两点原因我猜:1、 本身自己就不是很清楚,因为并不能驾轻就熟,对有的东西不是很确定,所以讲这种地方的时候就尽量采用书上的话,所以讲的就很书面,一看就感觉得出来是哪本 书上是这么说 阅读全文

posted @ 2013-02-18 16:06 SnakeHunt2012 阅读(125) 评论(0) 推荐(0)

摘要:今天佳伟买了本<机器学习>,Tom M.Mitchell写的那本,我拿来翻了翻,在引入的例子中他说道"目前多数机器学习都依赖于样例与测试样例分布一致这一假设",而我觉得,一个健全的学习 体制,是应该从一些其他领域的规律中学习经验的,也就是说应该有利用比喻来预测的能力。看着看着觉得:1、 当代高水平的人描述问题用的都是离散数学标准符号啊,比如说定义的时候他不说定义什么什么当什么什么且什么什么其中什么什么,而使用的数理逻辑中的蕴含, 然后用括号来区分层次结构,当且仅当用的是三层的等号。定义一些概念的时候用的也都是机和论通用语言这就更不用说了。2、机器学习这东西,至少说传统机器学习还是很有离散数学味 阅读全文

posted @ 2013-02-18 16:05 SnakeHunt2012 阅读(498) 评论(0) 推荐(0)

摘要:上午跟学姐问了一会儿论文,顿时发现四六级啊什么的简直若爆了,晚上她打电话过来问我如果觉得比较难可以换一个比较简单的,有中文文献的来作,她说这个论文的级别很高,也很新,几乎没有相关的论文资料。当然我的态度还是”就做这个“,反正我这也不是毕业设计,没有什么压力,应付的话我反倒不喜欢,我就是 喜欢这种挑战的感觉。所以最后跟她说明不用跟刘老师说换别的,我就做这个。下午终于把原NER调试通过了。输入:问/v 天/n 公司/n 北京/ns , /wp 与/p 哈工大/j 信息/n 检索/v 研究室/n 自然/n 语言/n 处理组/n 有/v 密切/a 合作/v 。/wp输出:问/v <locatio 阅读全文

posted @ 2013-02-18 16:01 SnakeHunt2012 阅读(215) 评论(0) 推荐(0)

摘要:今天听丁肇中报告,前面全都是他的AMS-02,在回答我们最后一个问题的时候,他讲了他的故事,很短,但是看上去是他非常想说的,因为我们并没有问那么多。他说,对他今天最大的贡献的是米西里根大学,因为在那所大学给了他最大得便捷,使得他没有经过任何考试,没有经过任何阻拦,直接从工科的大一,直接读上了博士。故事是这样的。本科时候他念得是工科大学机械工程系,后来转为理科的,网上说的情况是这样的:“”,然而他跟我们道出了实情,他说那个时候没有计算机,学工程绘图的时候有三视图那种东西,他怎么看都看不出来,完全学不明白,最后老师找他谈话,说你这样不能学工科,你只能学理科了。老师在劝他离开工科的同时也为他准备了另 阅读全文

posted @ 2013-02-18 15:56 SnakeHunt2012 阅读(204) 评论(0) 推荐(0)

摘要:今天排日程,发现数理逻辑和算法去还有四周又截课了,现在居然已经是第16周了,这学期过得好快啊,一下子就过去了。晚上不知道该做什么,就继续读上一会儿<把时间当作朋友>,在作者分析自己早年去少年宫学编程的态度时,我好像感觉到,真正的所谓的心智,应该就是当你面对 一件完全陌生的事情的时候,你的第一意识是积极跟进还是消极回避。至少这种一念之差,就是所谓"心智"的作用原理。(书里的原话是"我们已经看到了,面对相同的问题,--"为什么要学习"、新制的能力差异竟然会使人们因为相同的理由--"不知道为什么学习"--而做出竟然完全相反的选择。"。P31最后一 句话)心智弱的人的第一反应是"可拉倒吧",心智强的人 阅读全文

posted @ 2013-02-18 15:54 SnakeHunt2012 阅读(135) 评论(0) 推荐(0)

1