随笔档案「2013年5月」 - MrMission

一点点感悟

摘要：前天还在农林，昨天还在工大，今日已在大同济。已失眠近一个多月，昨日终于得以正常，豁然开朗，究其原因，是因为玩的太high，太累了，真是。不过，我也确实明白一些道道。在农林，三天，终日吃喝玩乐，打牌，打台球，聚餐，生活无节操，无规律，不过，倒也爽快，躺床即睡。我权当来这度假，不过，在这还是有正能量的。最后一次散伙饭，喝到最后，随处可听到鬼哭狼嚎的声音，我本是“局外人”，也不免触景生情。我发现农林确实适合短期度假，因为我会玩的很痛快，这里的人都很重感情，更倾向于“团队合作”，更喜欢一起，喜欢一起玩LOL，一起stay up，一起在答辩前夕打牌。而工大教会我的是另一样东西，那就是独立思考，独立学习，阅读全文

posted @ 2013-05-28 21:37 MrMission 阅读(193) 评论(0) 推荐(0)

2012Word公式自动编号

摘要：问题描述1、自动标号，如在（3-2）之前再插入公式，就变成（3-3）2、公式居中，编号右对齐具体操作1、首先有如下的公式2、在公式后面，选“插入题注”3、这里你可以新建标签“（”，再选标号“包含章节号”，再输入“）”4、就得到如下的的编号，去掉"（"和“4”直接的空格，美观点5、选中“视图”下面的“标尺”，就会显示标尺啦6、光标放在公式那行，点击标尺，移动到中间的位置7、点击下图中的制表符，改变到8、移动到最后边9、然后再公式前，敲入“Tab”键，在公式后敲入“Tab”键，结果如下阅读全文

posted @ 2013-05-23 15:33 MrMission 阅读(861) 评论(0) 推荐(0)

无词典分词

摘要：看了互联网时代的社会语言学：基于SNS的文本数据挖掘blog地址：http://www.matrix67.com/blog/archives/5044全文思路1、介绍了无词典分词，且要考虑两个因素，一是内部凝固程度，二是外部自由程度2、举例说明，使用后缀数组，以O（nlogn）的时间复杂度来实现该算法3、介绍应用场景白话文１、不需要词典就把这句话给分了，有两个重点考核，一是排除那些是因为字偶然碰在一起形成的“词”，比如“的电影”；二是排除那些扩展性差的“词”，比如“辈子”２、暂时不涉及３、暂时不涉及我的体会抛开应用背景不讲，我关心的还是无词典分词，以下讲讲我的理解从细节上讲，如何算该词的概率，阅读全文

posted @ 2013-05-19 21:20 MrMission 阅读(2140) 评论(0) 推荐(1)

Python Application

摘要：问题背景班长总是辛苦滴，是不是就得统计什么东西，每个人写好之后发到邮箱，一个个下载过来不说，还得一个个打开，复制黏贴，重复劳动呀，我们IT人，怎么能做这些如此简单的事，所以就想着简化点事，至少我下载过来，不用一个个打开复制黏贴，于是乎写个了python脚本。问题描述将一些列以数字命名的xls里面的内容，合并到一个xls中代码 1 import xlrd, xlwt, os, sys, re 2 #get the catalogue 3 filenames = os.listdir(os.getcwd()) 4 #new excel for write 5 newFile = xlwt.Work 阅读全文

posted @ 2013-05-18 15:59 MrMission 阅读(1887) 评论(0) 推荐(0)

李培根报告有感

摘要：非常荣幸，根叔来浙江工业大学做报告“从传统文化看中国教育”根叔通过传统文化，看教育的目的，内容，形式，并通过中西比较，最后得出一个结论，应该让每个人的“自由”发展。起初，我并不是很想去听讲座，一看是根叔，院士级别的，那肯定是要来的，确实不虚此行，不惑之年的人讲出的话就是不一样。印象中比较深刻的是，讲到传统文化有糟粕，有精华，传统文化中有把教育当成做官的工具的，也有把教育实现自我发展。另外印象比较深刻的是，讲“我和它”，“我和你”的关系，举了一个例子，你父母很爱你，但更多的时候会把你当成他们预期的工具，这就是“我和它”的关系；应该是让每个孩子自由发展，这才是“我和你”的关系。确实如此，可是这风险阅读全文

posted @ 2013-05-15 22:10 MrMission 阅读(289) 评论(0) 推荐(0)

A phone interview of Mircosoft Intern

只有注册用户登录后才能阅读该文。

posted @ 2013-05-14 15:08 MrMission 阅读(20) 评论(0) 推荐(0)

正则表达式之非捕获组

摘要：有什么用非捕获类，在正则很简单时，没什么用，只有在正则中大量使用()时才有用详细说明-举例说明匹配2013-05-07，你可以用\d{4}-\d{2}-\d{2}，你也可以加个括号(\d{4})-(\d{2})-(\d{2})，意思是完全一样的，但加了括号，就意味括号里面的东西，你捕获到了，你可以再使用，这就是捕获组的概念上面这种情况，你是没必要加括号，但是，有时候你必不得已要加括号，比如说匹配1-100的数字，你会用^([1-9]?[0-9]|100)$，但是这个时候，会默认把括号里的东西捕获过来以供你下次使用，其实，你只是用着正则匹配而已，因此就造成了内存浪费，当正则复杂时，效率更加低下，阅读全文

posted @ 2013-05-07 20:40 MrMission 阅读(5350) 评论(0) 推荐(0)

隐马尔可夫HMM中viterbi算法

摘要：引言viterbi算法简化最有可能的天气序列的运算过程，forward算法简化该该观察值的概率。问题描述你在中国，你朋友F在美国，F的作息有walk, shop, clean，但这选择跟天气有关，我们又知道Rainy的概率比Sunny的概率大这是初始概率这是天气转移矩阵这是在相应天气下发生相应事的概率分布然后，F这三天是walk，walk，shop，问最有可能的天气序列问题分析同样的，我们先用穷举法来算，即Sunny Sunny Sunny Sunny Sunny RainySunny Rainy SunnySunny Rainy RainyRainySunny SunnyRainySunny 阅读全文

posted @ 2013-05-07 16:41 MrMission 阅读(6233) 评论(0) 推荐(0)

隐马尔可夫HMM中Forward算法

摘要：引言隐马尔可夫中第一个问题是评估问题，评估该观察序列发生的概率，forward算法就是减少重复运算，其实你动动手算多了，你也会发现应该这么做，你如果生在那个时代，这个算法就是你发现的哦。问题描述你在中国，你朋友F在美国，F的作息有walk, shop, clean，但这选择跟天气有关，我们又知道Rainy的概率比Sunny的概率大这是初始概率这是天气转移矩阵这是在相应天气下发生相应事的概率分布然后，F这三天是walk，walk，shop，求{walk，walk，shop}的概率是多少问题分析我们先用穷举法来，即Sunny Sunny Sunny Sunny Sunny RainySunny R 阅读全文

posted @ 2013-05-07 10:07 MrMission 阅读(2300) 评论(0) 推荐(1)

隐马尔可夫模型(HMM模型)

摘要：引言想简单点，没这么复杂，上一篇，我们说天气就是马尔可夫模型，因为明天的天气只能今天有关，而跟之前的前天无关。一言以蔽之你在中国，那美国的天气就是隐马尔可夫模型，因为你不知道美国的天气，可是你知道其他条件，你有朋友在美国，他要么跑步，要么购物，而他的选择跟天气有关，你知道他这三天是跑步，跑步，购物，好了，描述完毕。再一个例子，你有一女朋友，她心情好时会唱歌，心情坏时会不接你电话，但是我们知道有时不接电话并不意味着她心情不好，另外女生不会说自己心情怎么样，而且我们认为女生的心情是符合马尔可夫模型的，即今天的心情只受昨天心情的影响，好了，这一天她对你唱歌了，接下来两天，她都不接你电话，这就是隐马尔阅读全文

posted @ 2013-05-05 20:45 MrMission 阅读(5487) 评论(0) 推荐(0)

马尔可夫模型

摘要：前言其实，很多东西其实很简单，学术就是拿这些“术语”来吓唬人。一言以蔽之马尔可夫就是告诉你，明天的天气只跟今天的天气有关，而跟昨天，前天，大前天的天气没半毛钱关系。拓展其实，想在了解的话，可以再看下去。那马尔可夫有什么用呢，在我看来就是一种思想，即把复杂的东西变简单了比如说上面这个天气，比如你要预测明天的天气Wether明天，公式如下，写的是啰嗦了点，其实很简单，就是上句话那意思P(天气明天| 天气今天, 天气昨天, 天气前天) = P(天气明天| 天气今天)本来，你要统计前面三天的天气，比如过去三天的天气，比如是下雨，下雨，晴朗，你会发现你要统计的很多，如果运用马尔可夫的话，你只需要统计前阅读全文

posted @ 2013-05-05 19:11 MrMission 阅读(1146) 评论(0) 推荐(0)

Python note

摘要：the blog is really fantistic http://www.cnblogs.com/taowen/articles/11239.aspxAfter hours of study, I think it's need to keep a note.1. when u want to add in a list, u should should use append, and u should know the mechanisation. list.append(a) mean link the address of a, so when the a is modif 阅读全文

posted @ 2013-05-04 21:39 MrMission 阅读(242) 评论(0) 推荐(0)

关联规则挖掘

摘要：关联规则挖掘这里的规则并不是放之四海而皆准的，而是这规则能满足大多数的情况，我们可以发现分类更侧重于科学研究，而这里规则已经显示出其商业价值。下面我们用大家都熟悉的啤酒和尿布来说明问题，那{啤酒} ->{尿布}这条规律是怎么发现的呢transaction表：事务表，表示每位顾客买的东西，比如甲顾客买了A,B，乙顾客买了B,Dcandidate表：候选表，表示可能的食物组合，比如超市一共有100件商品，我们可以发现这个组合数是2^100那我们的规则是这样的，集合A->集合B。因为我们的规则满足两条件，一是规则能适用于一定的范围，而是规则能有一定的准确性。为了满足第一点，我们引进了Fr 阅读全文

posted @ 2013-05-03 15:05 MrMission 阅读(331) 评论(0) 推荐(0)

分类器

摘要：基于实例的分类器（懒惰分类器）以K-nearest为例说明拿测试实例跟已有的实例的比较，若测试实例跟训练实例一模一样，那毫无疑问该测试实例就是属于这一类，但情况并未都是如此，大部分情况下，得选择该测试实例跟那个已有的实例的“距离”最短，这个距离就得根据具体情况具体分析了，在求两实例的“距离”前得先计算下，一实例在一个属性上表现出的多种特征之间的“距离”。所以得先定义来两特征之间的“距离”，再定义两实例的“距离”。这个分类效果是显著的，但是不足之处也是明显的，因为懒惰，来一个实例，就得计算与其他已有实例的距离，那代价是高。贝叶斯分类器P(C| A1，A2，...A3) 指事件C在事件A1A2A3 阅读全文

posted @ 2013-05-01 21:05 MrMission 阅读(337) 评论(0) 推荐(0)

Hadoop中文乱码

摘要：实验目的：使用wordcount实现中文无词典分词的功能实验背景：文件上传后，进行无词典分词，再进行统计中文词之后，结果在eclipse下显示为乱码针对乱码所做实验：0）文件直接上传，在eclipse打开显示正常，但结果显示乱码1）将文件格式改成UTF-8之后，再上传，结果发现在eclipse下打开是乱码，但在namenode:50070下打开是能显示的，2）在1）的基础上，无视eclipse乱码，在mapper中进行无词典切词，输出文件结果在eclipse乱码，而namenode:50070下均能正常显示，当结果不正确3）在workspace下，将gbk改成utf-8，输入文件除第一行乱码，阅读全文

posted @ 2013-05-01 20:07 MrMission 阅读(5317) 评论(0) 推荐(0)