摘要: 中文分词(Chinese Word Segmentation) 就是将连续的字序列按照一定的规范重新组合成词序列的过程。现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。准确度较高的是统计分词算法,常用的有最大概率法和隐式马尔科夫模型。阅读全文
posted @ 2015-11-14 23:49 ShangFR 阅读(1147) 评论(0) 编辑
摘要: 遗传算法将“优胜劣汰,适者生存”的生物进化原理引入优化参数形成的编码串联群体中,按所选择的适应度函数并通过遗传中的复制、交叉及变异对个体进行筛选,使适应度高的个体被保留下来,组成新的群体,新的群体既继承了上一代的信息,又优于上一代。这样周而复始,群体中个体适应度不断提高,直到满足一定的条件。遗传算法的算法简单,可并行处理,并能到全局最优解。阅读全文
posted @ 2015-10-28 21:08 ShangFR 阅读(678) 评论(3) 编辑
摘要: dplyr包是Hadley Wickham的新作,主要用于数据清洗和整理,该包专注dataframe数据格式,从而大幅提高了数据处理速度,并且提供了与其它数据库的接口;tidyr包的作者是Hadley Wickham, 该包用于“tidy”你的数据,这个包常跟dplyr结合使用。阅读全文
posted @ 2016-11-28 20:12 ShangFR 阅读(274) 评论(2) 编辑
摘要: 假设检验(hypothesis test)亦称显著性检验(significant test),是统计推断的另一重要内容,其目的是比较总体参数之间有无差别。假设检验的实质是判断观察到的“差别”是由抽样误差引起还是总体上的不同,目的是评价两种不同处理引起效应不同的证据有多强,这种证据的强度用概率P来度量和表示。除t分布外,针对不同的资料还有其他各种检验统计量及分布,如F分布、X2分布等,应用这些分布对不同类型的数据进行假设检验的步骤相同,其差别仅仅是需要计算的检验统计量不同。阅读全文
posted @ 2016-09-25 15:28 ShangFR 阅读(508) 评论(0) 编辑
摘要: 与传统的OLS只得到均值方程相比,分位数回归可以更详细地描述变量的统计分布。它是给定回归变量X,估计响应变量Y条件分位数的一个基本方法;它不仅可以度量回归变量在分布中心的影响,而且还可以度量在分布上尾和下尾的影响,因此较之经典的最小二乘回归具有独特的优势。阅读全文
posted @ 2016-08-04 16:25 ShangFR 阅读(856) 评论(0) 编辑
摘要: 背包问题(Knapsack problem) 背包问题(Knapsack problem)是一种组合优化的多项式复杂程度的非确定性问题(NP问题)。问题可以描述为:给定一组物品,每种物品都有自己的重量和价格,在限定的总重量内,我们如何选择,才能使得物品的总价格最高。问题的名称来源于如何选择最合适的物阅读全文
posted @ 2016-07-03 16:45 ShangFR 阅读(71) 评论(0) 编辑
摘要: 1. 重力感应器 手机重力感应技术:利用压电效应实现,简单来说是测量内部一片重物(重物和压电片做成一体)重力正交两个方向的分力大小,来判定水平方向。通过对力敏感的传感器,感受手机在变换姿势时,重心的变化,使手机光标变化位置从而实现选择的功能。 手机重力感应指的是手机内置重力摇杆芯片,支持摇晃切换所需阅读全文
posted @ 2016-06-14 22:17 ShangFR 阅读(45) 评论(0) 编辑