11 2015 档案

摘要:今日逛知乎,看到了学ML的步骤,看Ng的公开课,看PRML和《The Elements of Statistical Learning》,用《机器学习实战》和weka练手,做Kaggle和KDD Cup、天池平台。 ****************************************... 阅读全文
posted @ 2015-11-30 21:04 StevenLuke 阅读(86) 评论(0) 推荐(0)
摘要:- 1. N元文法模型 1.1 N元文法介绍 基于统计的方法理解一句话,就是要从一句话的每个位置全部候选字中选择一个最可能的句子,我们假定一个字只与前面的N-1个字有关,若没有N-1个音就补以空音。这种N-1阶的马尔可夫模型,在语音理解中又特别地被称为N元文法模型(N-gram Model)... 阅读全文
posted @ 2015-11-30 18:29 StevenLuke 阅读(1736) 评论(0) 推荐(0)
摘要:感觉进了鬼坑,掉进了地狱,沾上彷徨,身旁都是些小鬼,而自己渺小无依。 阅读全文
posted @ 2015-11-30 16:40 StevenLuke 阅读(72) 评论(0) 推荐(0)
摘要:按照自己的计划,了解完WEB安全之后应当转向逆向的学习了,这是自己之前很久就想学——却一直没付诸行动的目标,今天,重新拾起这个自己心中始终放不下的方向吧!在开始真正接触逆向之前,首先要具备一些汇编的基础知识,之所以说汇编的基础知识,是说搞逆向没有必要精通汇编,因为并不是要求我们成为汇编程序员;学... 阅读全文
posted @ 2015-11-30 15:41 StevenLuke 阅读(221) 评论(0) 推荐(0)
摘要:Java.IO File Class: Path Interface and Files Class is part of NIO System. AutoCloseable, Closeable, Flushable Interface Closeable, Flushable is par... 阅读全文
posted @ 2015-11-29 20:45 StevenLuke 阅读(104) 评论(0) 推荐(0)
摘要:Segmentation Reading List Word Segmentation and Word discovery Reference & Comment 1 Ogawa, Yasushi; Matsuda, Toru 1999 Overl... 阅读全文
posted @ 2015-11-26 20:26 StevenLuke 阅读(163) 评论(0) 推荐(0)
摘要:关于HMM模型的介绍,网上的资料已经烂大街,但是大部分都是在背书背公式,本文在此针对HMM模型在中文分词中的应用,讲讲实现原理。 尽可能的撇开公式,撇开推导。结合实际开源代码作为例子,争取做到雅俗共赏,童叟无欺。 没有公式,就没有伤害。 模型介绍 第一次听说HMM模型是从李开复的博文论文中听说... 阅读全文
posted @ 2015-11-26 16:14 StevenLuke 阅读(851) 评论(0) 推荐(1)
摘要:二元的叫bigram,三元的叫trigram。 以bigram来说: (1) Average(k) > Average(k 一1) &Average(k) > A verage(k + 1) ; 或者 (2 ) A verage(k) > = t, t是词边界 阀值 《基 于 N Gram 的无... 阅读全文
posted @ 2015-11-26 15:50 StevenLuke 阅读(446) 评论(0) 推荐(0)
摘要:常用统计语言模型,包括了N元文法统计模型(N-gram Model)、隐马尔科夫模型(Hidden Markov Model,简称HMM)、最大熵模型(Maximum Entropy Model)。 N-Gram这是一种依赖于上下文环境的词的概率分布的统计计算语言模型。 假定,在一个语句中第i个... 阅读全文
posted @ 2015-11-26 15:18 StevenLuke 阅读(459) 评论(0) 推荐(0)
摘要:#include int main() { __int64 n, ans; while(~scanf("%l64d", &n)) { n %= 10000; ans = (n*n*(n+1)*(n+1)) / 4; printf("%04d\n", ans%10000); } ret... 阅读全文
posted @ 2015-11-26 14:14 StevenLuke 阅读(80) 评论(0) 推荐(0)
摘要:#include int main() { int n, i, ans, flag=1; while(~scanf("%d", &n)) { ans = 0; while(n) { i = n % 10; if(i%2==0) ans += i; n /= 10; } ... 阅读全文
posted @ 2015-11-26 13:54 StevenLuke 阅读(94) 评论(0) 推荐(0)
摘要:我要稳稳的幸福,不管未来怎样的,时光总会,有一些启示。 阅读全文
posted @ 2015-11-26 13:38 StevenLuke 阅读(78) 评论(0) 推荐(0)
摘要:由于中文文本词与词之间没有像英文那样有空格分隔,因此很多时候中文文本操作都涉及切词,这里整理了一些中文分词工具。一般来说用CRF实现的分词工具的处理速度是比较慢的(训练CRF模型是非常耗时的),但是精度高,涉及CRF的分词工具有CRF++,Stanford分词工具。 Bakeof... 阅读全文
posted @ 2015-11-23 15:48 StevenLuke 阅读(762) 评论(0) 推荐(0)
摘要:如何提高阅读源代码的效率 记得在开源流行之前,我看过的代码紧限于所参与的项目,能有个几万行就不错哩。后来很多优秀开源项目都相继蹦出来了,阅读的代码量那叫一个大呀!不得不看。我现在掉到android这个大坑里,每天都要看很多源代码。以前做过J2EE,看Struts2、Lucene、OSW... 阅读全文
posted @ 2015-11-23 14:35 StevenLuke 阅读(111) 评论(0) 推荐(0)
摘要:打好jar包之后还需要更改清单文件的. 打开生成的jar,里面有一个MANIFEST.MF的文件把它打开. 然后有一行Main-Class,没有就加上。如: Manifest-Version: 1.0 Main-Class: 类的全地址 要在后面加上你的主main class文件.... 阅读全文
posted @ 2015-11-23 14:02 StevenLuke 阅读(149) 评论(0) 推荐(0)
摘要:中文分词 最短路分词 N-最短路分词 CRF分词 索引分词 极速词典分词 用户自定义词典 词性标注 命名实体识别 中国人名识别 音译人名识别 日本人名识别 地名识别 实体机构名识别 关键词提取 TextRank关键词提取... 阅读全文
posted @ 2015-11-23 12:50 StevenLuke 阅读(107) 评论(0) 推荐(0)
摘要:Contents What is Trie?What Does It Take to Implement a Trie?Tripple-Array TrieDouble-Array TrieSuffix CompressionKey InsertionKey DeletionDouble-Ar... 阅读全文
posted @ 2015-11-22 22:20 StevenLuke 阅读(168) 评论(0) 推荐(0)
摘要:分词、词性标注、命名实体识别、关键词提取、自动摘要、拼音、简繁转换、文本推荐 阅读全文
posted @ 2015-11-22 20:25 StevenLuke 阅读(92) 评论(0) 推荐(0)
摘要:指数分布族:伯努利分布、高斯分布、多项式分布、泊松分布、伽马分布。 伯努利分布用来对0-1问题进行建模 多项式分布用来对有K个结果的事件进行建模 泊松分布通常是用来对计数的过程进行建模 伽马分布和指数分布考虑的是正数的分布,经常被用来对间隔进行建模 β分布和迪利克雷分布通常用来对小数进行建模,... 阅读全文
posted @ 2015-11-22 15:21 StevenLuke 阅读(106) 评论(0) 推荐(0)
摘要:充分统计量 编辑 统计量是样本数据的函数,在统计学中,T(x) 为未知分布P的参数θ的充分统计量,当且仅当T(x)可以提供θ的全部信息,也就是说,没有统计量可以提供关于θ的额外信息。 统计量是实际上是一种对数据分布的压缩,在样本加工为统计量的过程中,样本中所含的信息可能有所损失,若... 阅读全文
posted @ 2015-11-22 12:59 StevenLuke 阅读(298) 评论(0) 推荐(0)
摘要:今天晚上不想看书,就写了一晚上Java,期间主要是在协调各个文件之间的调用。软件工程的知识:重要。 阅读全文
posted @ 2015-11-19 22:35 StevenLuke 阅读(81) 评论(0) 推荐(0)
摘要:int[] number = null; 这句不对,数组必须初始化才行,比如 int[] number = new int[3]; 别的类似。 久不写Java,手生了。 阅读全文
posted @ 2015-11-19 21:49 StevenLuke 阅读(500) 评论(0) 推荐(0)
摘要:AI里面大家比较公认的top conference. 下面同分的按字母序排列. IJCAI (1+): AI最好的综合性会议, 1969年开始, 每两年开一次, 奇数年开. 因为AI实在太大, 所以虽然每届基本上能录100多篇(现在已经到200多篇了),但分到每个领域就没几篇了,象machi... 阅读全文
posted @ 2015-11-19 17:55 StevenLuke 阅读(316) 评论(0) 推荐(0)
摘要:这个问题很囧,在外面定义了一个变量 xxx ,然后在python的一个函数里面引用这个变量,并改变它的值,结果报错local variable 'xxx' referenced before assignment,代码如下: view plaincopy to clipboard... 阅读全文
posted @ 2015-11-17 22:30 StevenLuke 阅读(316) 评论(0) 推荐(0)
摘要:第一种:剔除2 3 4 5 6 ... ... 的倍数 在i从2开始的增一变化过程中,剔除i的倍数即j*i(j是大于等于2的自然数,j的上限是问题规模M) 为了减少重复步骤,可以每当i递增到等于第一个没有被剔除的(素)数时再剔除该数的倍数, 重复上述过程至i到达问题规模m的平方根+1 需要... 阅读全文
posted @ 2015-11-16 14:15 StevenLuke 阅读(673) 评论(0) 推荐(0)
摘要:线性表(List) 线性表的顺序存储结构:用一段地址连续的存储单元依次存储 在任意时刻,List的长度 <= 数组的长度 List的存读时间复杂度为O(1);插入删除时间复杂度为O(n)。 线性表的链式存储结构: List的存读时间复杂度为O(n);插入删除时间复杂度为O(1)。 静态链表:... 阅读全文
posted @ 2015-11-15 20:40 StevenLuke 阅读(110) 评论(0) 推荐(0)
摘要:数据结构绪论: 逻辑结构: 是指数据对象中数据元素之间的相互关系。 集合结构: 集合结构中的元素除了桶属于一个集合外,没有其他关系。 线性结构: 一对一的关系 树形结构: 一对多的层次关系 图形结构: 多对多的关系 物理结构: 是指数据的逻辑结构在计算机中的存储形式 顺序存储结构: 存放在地址连... 阅读全文
posted @ 2015-11-15 19:49 StevenLuke 阅读(114) 评论(0) 推荐(0)
摘要:母函数,见杭电acm1028 #include int main() { int n, i, j, k; int ans[301], temp[301]; while(~scanf("%d", &n) && n) { for(i=0; i<=n; i++) { ans[i] = 1; ... 阅读全文
posted @ 2015-11-15 15:15 StevenLuke 阅读(104) 评论(0) 推荐(0)
摘要:母函数(Generating function) 在数学中,某个序列的母函数(Generating function,又称生成函数)是一种形式幂级数,其每一项的系数可以提供关于这个序列的信息。使用母函数解决问题的方法称为母函数方法。 母函数可分为很多种,包括普通母函数、指数母函数、L级数、... 阅读全文
posted @ 2015-11-15 15:02 StevenLuke 阅读(157) 评论(0) 推荐(0)
摘要:dp问题: ans[i] = max(ans[j]) + d[i],循环条件:d[j] #include int main() { int d[1001], ans[1001]; int n, i, j, flag, rst; while(~scanf("%d", &n) && n) { f... 阅读全文
posted @ 2015-11-15 13:49 StevenLuke 阅读(102) 评论(0) 推荐(0)
摘要:1.算法简述 分类是指分类器(classifier)根据已标注类别的训练集,通过训练可以对未知类别的样本进行分类。分类被称为监督学习(supervised learning)。如果训练集的样本没有标注类别,那么就需要用到聚类。聚类是把相似的样本聚成一类,这种相似性通常以距离来度量。聚类... 阅读全文
posted @ 2015-11-14 21:27 StevenLuke 阅读(205) 评论(0) 推荐(0)
摘要:节选一: package com.test.filetest; import java.io.File; import javax.swing.JFileChooser; import javax.swing.filechooser.FileFilter; public class F... 阅读全文
posted @ 2015-11-14 19:43 StevenLuke 阅读(822) 评论(0) 推荐(0)
摘要:今天试了一下HahsMap, 采用如下形似定义 (这个下面是用了csdn的一位同仁的文章,仅作为讲解参考,请见谅) HashMap map=new HashMap(); map.put(1,"a"); map.put(2,"b"); map.put(1,"aq"); System... 阅读全文
posted @ 2015-11-14 18:45 StevenLuke 阅读(163) 评论(0) 推荐(0)
摘要:1:使用HashMap的一个简单例子 [java] view plaincopy package com.pb.collection; import java.util.HashMap; import java.util.Iterator; import ... 阅读全文
posted @ 2015-11-14 15:00 StevenLuke 阅读(230) 评论(0) 推荐(0)
摘要:#include #include using namespace std;int main(){ int t; double x1,y1,x2,y2,x3,y3,a,k,s; cin>>t; while(t--) { cin>>x1>>y1>>x2>>y2>>x3>... 阅读全文
posted @ 2015-11-14 13:35 StevenLuke 阅读(132) 评论(0) 推荐(0)
摘要:/*002 【题意】 给定一棵树,标记一节点,则与该节点所连的边都被标记,问最少需要标记多少个节点使得所有边都被标记;003 或者说给定一个树型城堡,在交叉路口放一个士兵,则与该路口相连的路都被守住,004 问最少需要派遣多少个士兵来守住这个城堡005 006 ... 阅读全文
posted @ 2015-11-14 13:05 StevenLuke 阅读(153) 评论(0) 推荐(0)
摘要: 阅读全文
posted @ 2015-11-14 13:04 StevenLuke 阅读(85) 评论(0) 推荐(0)
摘要:凸多边形可以有以下三种定义: 一、没有任何一个内角是优角(Reflexive Angle)的多边形。 二、如果把一个多边形的所有边中,有一条边向两方无限延长成为一直线时,其他各边都在此直线的同旁,那么这个多边形就叫做凸多边形。 三、凸多边形是一个内部为凸集的简单多边形。简单多边形的下列性质与... 阅读全文
posted @ 2015-11-13 19:07 StevenLuke 阅读(169) 评论(0) 推荐(0)
摘要:#include int main() { long n, i, max, temp; while(~scanf("%d", &n) && n) { i = n - 1; while(n--) { scanf("%ld", &temp); if(n == i) { max =... 阅读全文
posted @ 2015-11-13 16:39 StevenLuke 阅读(132) 评论(0) 推荐(0)
摘要:著作权归作者所有。 商业转载请联系作者获得授权,非商业转载请注明出处。 作者:周知日 链接:http://www.zhihu.com/question/24740239/answer/28872069 来源:知乎 DVWA: Damn Vulerable Web Application DV... 阅读全文
posted @ 2015-11-09 18:17 StevenLuke 阅读(1489) 评论(0) 推荐(0)
摘要:K-Means聚类算法是一个NP难优化问题,无法获得global optimize,K-Means算法是一个贪心算法。 步骤: 1、选定初始聚类中心 2、根据数据对象与这些聚类中心的欧式距离,按距离最近的准则将他们分配给与其最形似的聚类中心所属的类 3、计算J(C)值 4、若J(C)值不未发生改... 阅读全文
posted @ 2015-11-07 19:23 StevenLuke 阅读(358) 评论(0) 推荐(0)
摘要:算法:回归算法、神经网络、SVM、聚类(K-Means)、降维算法、(PCA算法(主成分分析算法))、推荐算法 梯度下降法,主要运用在线型回归,逻辑回归,神经网络,推荐算法中;牛顿法,主要运用在线型回归中;BP算法,主要运用在神经网络中;SMO算法,主要运用在SVM中。 监督学习算... 阅读全文
posted @ 2015-11-07 15:28 StevenLuke 阅读(123) 评论(0) 推荐(0)
摘要:public void test(){ call(2,3); ... call2(2,3);}public void call(int i,int j){ int b=2; ...}public void call2(int i,int j){ int... 阅读全文
posted @ 2015-11-07 13:23 StevenLuke 阅读(211) 评论(0) 推荐(0)
摘要:#include #include #include int main() { int book[4001], d[1001], b[4001]; int c, n, k, i, j, temp, max, ids; scanf("%d", &c); while(c--) { scanf("... 阅读全文
posted @ 2015-11-06 22:35 StevenLuke 阅读(130) 评论(0) 推荐(0)
摘要:一、《基于hash算法的中文分词研究》2007 二、《基于文本挖掘的聚类算法研究》2011 三、《基于词典的汉语自动分词算法的改进》2006 论文一:汉语中4字以上的词已很少了,此论文说了一个4重的hash表、词次字记录结构,词索引表和词典组成的算法。 论文二:比较了K-means聚类算法和... 阅读全文
posted @ 2015-11-04 21:11 StevenLuke 阅读(128) 评论(0) 推荐(0)
摘要:中文分词一直都是中文自然语言处理领域的基础研究。目前,网络上流行的很多中文分词软件都可以在付出较少的代价的同时,具备较高的正确率。而且不少中文分词软件支持Lucene扩展。但不管实现如何,目前而言的分词系统绝大多数都是基于中文词典的匹配算法。 在这里我想介绍一下中文分词的一个最基础算法... 阅读全文
posted @ 2015-11-04 20:53 StevenLuke 阅读(1114) 评论(0) 推荐(0)
摘要:对于分词系统的实现来说,主要应集中在两方面的考虑上:一是对语料库的组织,二是分词策略的制订。 1. Tire树 Tire树,即字典树,是通过字串的公共前缀来对字串进行统计、排序及存储的一种树形结构。其具有如下三个性质: 1) 根节点不包含字符(或汉字),除根节点以外的每个节... 阅读全文
posted @ 2015-11-04 20:51 StevenLuke 阅读(267) 评论(0) 推荐(0)
摘要:#include #include int main() { int n, i, temp, max, flag, id; int book[1000000]; while(~scanf("%d", &n)) { memset(book, 0, sizeof(book)); max = -... 阅读全文
posted @ 2015-11-04 14:43 StevenLuke 阅读(138) 评论(0) 推荐(0)
摘要:看完了才发现作者是经济管理学院的。 这是篇08年的论文。 目前国内外对于中文分词的主要研究成果分为以下几种:正向最大匹配法、反向最大匹配方法、分词与词性标注一体化方法、最佳匹配法、专家系统方法、最少分词词频选择方法、神经网络方法等。 ICTCLAS( Institute of Com... 阅读全文
posted @ 2015-11-02 16:02 StevenLuke 阅读(148) 评论(0) 推荐(0)
摘要:全文检索技术 全文检索是一种面向全文和提供全文的检索技术, 其核心技术是将文档中所有基本元素的出现信息记录到索引库中, 检索时允许用户采用自然语言表达其检索需求, 并借助截词、邻词等匹配方法直接查阅文献原文信息, 最后将检索结果按相关度排序返回给用户。因而索引数据库的建立是... 阅读全文
posted @ 2015-11-02 15:32 StevenLuke 阅读(372) 评论(0) 推荐(0)
摘要:贪心 #include #include using namespace std;bool cmp(const int &a, const int &b) { return a > b;}int main() { int l, n, i, ans, ids, sum; int d[600]; ... 阅读全文
posted @ 2015-11-02 13:24 StevenLuke 阅读(187) 评论(0) 推荐(0)
摘要:贪心 #include #include using namespace std;struct jewelry { int price; int volume; bool operator A.price; } }buf[101];int main() { int v, n, i, ans... 阅读全文
posted @ 2015-11-02 13:09 StevenLuke 阅读(93) 评论(0) 推荐(0)
摘要:#include #include using namespace std;struct rice { double money; double weight; bool operator =w[ids].money * w[ids].weight) { n -= w[ids... 阅读全文
posted @ 2015-11-01 17:06 StevenLuke 阅读(123) 评论(0) 推荐(0)