随笔分类 -  将科普进行到底

摘要:看的第二篇文章是《A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence》,这是AI领域的开山之作,是当年达特茅斯会议上各路大牛们为期两个月的讨论结果。边看这篇文章边在wiki上科普这些年AI 这个领域到底发生了什么。当时会议总结出了七个方向。Automatic Computers这条结论到今天仍然适用,他说他们坚信任何一个人类可以做的工作,都可一写出一个程序来自动完成。即使的计算能力有限(当年),但内存,速度什么的都不是问题,问题是我们能否利用好这些资源。当时的计算能力跟今天的计算能力相比 阅读全文

posted @ 2013-02-18 21:18 SnakeHunt2012 阅读(1276) 评论(0) 推荐(0)

摘要:回家之后读了两篇文章,第一篇是以前老师推荐的《A Few Useful Things to Know About Machine Learning》,里面介强调了几个机器学习领域一些书上学不到的重要常识,还有一些需要特别注意的地方。Learning = Representation + Evaluation + Optimization学习 = 表示 + 评价 + 优化,这没什么可说的了。表示方法确定了你能表示的空间是哪些,取决于你的问题是什么。而评价函数为你的优化过程提供方向,其实就是一种衡量,衡量你现在的状况:好,有多好;坏,有多坏,而且通常都用你的失真程度来衡量(J(theta) = 预 阅读全文

posted @ 2013-02-18 21:08 SnakeHunt2012 阅读(1738) 评论(0) 推荐(0)

摘要:今天主要写了NER,原来之前的NER是从外部输入是Unicode的,他在内部转换为GBK再处理的,最后又转换为Unicode输出的。原来在 Windows上,直接写在代码里的是Unicode的。因为如果字符串常量前面加上大写的L就表示这个字符串是Unicode编码。然后就是解决最后头 疼的问题,就是怎么把wchar_t传给crf++,因为crf++传进去的应该是char型变量,而我现在是unicode的wchar_t,所以就涉 及到一个转换的问题,还好在网上找到了一个解决方案:把char*转换为wchar_t*用stdlib.h中的mbstowcs_s函数,可以通过下面的例子了解其用法:cha 阅读全文

posted @ 2013-02-18 16:56 SnakeHunt2012 阅读(385) 评论(0) 推荐(0)

摘要:训练模型是需要数据足够的,我们把训练数据看作是能量。那对于一个10次多项式的模型来说,在训练的过程中可以看做其中有10个数据的能量是用来搭建模型 的,然后剩余的数据能量是用来调整这个模型使之优良,也就是使之对训练样例全体的误差合最小。然而如果你所拥有的能量小于十个独立点的能量,也就是没有达 到建立模型的那个临界。那么你训练出来的根本就不是一个模型,用这个东西进行预测得出的结果也许就是随机数。众所周知,要猜一个二次多项式,需要至少三个点。要猜一个十次多项式,需要至少十一个点。我认为对于训练过程来说,每一种模型都需要一个初始的能量来确定模型,然后剩余的能量才真是用来训练的。剩余数据越多,训练的效果 阅读全文

posted @ 2013-02-18 16:52 SnakeHunt2012 阅读(491) 评论(0) 推荐(0)

摘要:ps:这是我很久很久以前老段让我写的,他一直没发表,我想他自己心里也清楚,这个是分享会上的东西,要是写成文章的话根本就没有视听的效果。但我还是记下来吧,废水不留外人田。不过没想到的是,在人人上发出来排版这么恶心,还得改来改去。开场白今天跟大家做的这个分享会跟以往不同,今天我不跟大家讲技术。以我现在的功力,不具备什么特殊的技术,都是花拳绣腿,都是基本功,无非就是CSS HTML什么的,尤其今天学长们都在下面坐着,对他们来说我讲这些东西就好比回忆儿时的经历,我说我讲技术,那属于不知好歹。事实上我原打算真就是讲个什么什么技术的了,尤其在听过上几次的分享会,更觉得理所当然应该讲个什么技术。不过上个星期 阅读全文

posted @ 2013-02-14 00:09 SnakeHunt2012 阅读(2094) 评论(1) 推荐(1)