摘要: 实现一下。IDQuestionDiffFreqData StructureAlgorithms1Two Sum25arraysortsetTwo Pointers2Add Two Numbers34linked listTwo PointersMath3Longest Substring Without Repeating Characters32stringTwo Pointershashtable4Median of Two Sorted Arrays53arrayBinary Search5Longest Palindromic Substring42string6ZigZag Conv 阅读全文
posted @ 2014-01-06 22:06 ywl925 阅读(4559) 评论(0) 推荐(1) 编辑
摘要: 问题:给定两个有序数组,求他们的中位数。(即合并后的中位数)算法简单描述:假设两个数组为:Orda_1,Orda_2。先对比这个数组的中间数的大小,假设Orda_1的中间数为a_1,Orda_2的中间数为a_2,如果a_1 >= a_2,那么两个数组的中间数肯定在Orda_1数组前半段和Orda_2数组后半段中,接着再把Orda_1前半段和Orda_2后半段当做新的两个有序数组,重复前面的步骤,直至递归结束。 复杂度应该是log2的。附加问题:如果是多个数组呢? 阅读全文
posted @ 2014-01-06 10:42 ywl925 阅读(2481) 评论(0) 推荐(0) 编辑
摘要: 距离本意就是两个目标的某一特征集从一个变成另一个需要的最小操作。广泛使用于相似度比较领域。机器学习中经常用的距离有:1. 欧氏距离 (Euclidean Distances)2. 曼哈顿距离3. 切比雪夫距离4. 闵可夫斯基距离5. 标准化欧氏距离6. 马氏距离7. 夹角余弦( Cosine Dis... 阅读全文
posted @ 2013-12-30 16:41 ywl925 阅读(8888) 评论(0) 推荐(0) 编辑
摘要: 矩阵的迹(trace)X∈P(n×n),X=(xii)的主对角线上的所有元素之和称之为X的迹,记为tr(X),即tr(X)=∑xii性质:(1)设有N阶矩阵A,那么矩阵A的迹(用tr(A)表示)就等于A的特征值的总和,也即A矩阵的主对角线元素的总和。1.迹是所有对角元的和2.迹是所有特征值的和3.某... 阅读全文
posted @ 2013-12-09 11:14 ywl925 阅读(13321) 评论(0) 推荐(0) 编辑
摘要: 使用WinEdt7避免跳出“注册对话框”在options菜单下点options…,在advancedconfiguration => EventHandlers 下点Exit,在End; 前添加一行RegDeleteValue('HKEY_CURRENT_USER', 'Software\WinEdt7', 'Inst');保存后在Exit点鼠标右键ExecuteScript即可。其实原理很简单,就是每次退出WinEdt时自动删除注册表中相关信息,试用期30天永不过期,可以再删除钱,查看注册表中的信息(通过regedit进入注册表,在HKE 阅读全文
posted @ 2013-12-04 15:51 ywl925 阅读(3300) 评论(0) 推荐(0) 编辑
摘要: JournalsACM TKDDhttp://tkdd.cs.uiuc.edu/DMKDhttp://www.springerlink.com/content/1573-756X/?p=859c3e83455d41679ef1be783e923d1d&pi=0IEEE TKDEhttp://www.ieee.org/organizations/pubs/transactions/tkde.htmACM TODShttp://www.acm.org/tods/VLDB Journalhttp://www.vldb.org/ACM Toishttp://www.acm.org/pubs/t 阅读全文
posted @ 2013-11-27 21:16 ywl925 阅读(2247) 评论(0) 推荐(0) 编辑
摘要: 王国维先生提出治学有"三种境界"“昨夜西风凋碧树,独上高楼,望尽天涯路”,此为第一种境界; “衣带渐宽终不悔,为伊消得人憔悴”,此为第二种境界; “众里寻他千百度,蓦然回首,那人却在,灯火阑珊处”,此为第三种境界 .下面具体谈谈每层境界的含义王国维在《人间词话》中说:“古之成大事业、大学问者必经过三种之境界。” 第一境界:“昨夜西风凋碧树,独上高楼,望尽天涯路。” (1) 萧瑟的秋风中,游子登高望远,怀念亲人,见不到又音信难通,就如一名学者刚开始在学问时那种对知识的惆怅迷惘的心情跃然纸上。(2) 作为一个做学问者,首先要高瞻远瞩认清前人所走的路,也就是说,总结和学习前人的经 阅读全文
posted @ 2013-10-25 20:38 ywl925 阅读(7561) 评论(0) 推荐(1) 编辑
摘要: 接上文:贝叶斯推断及其互联网应用(一):定理简介七、什么是贝叶斯过滤器?垃圾邮件是一种令人头痛的顽症,困扰着所有的互联网用户。正确识别垃圾邮件的技术难度非常大。传统的垃圾邮件过滤方法,主要有"关键词法"和"校验码法"等。前者的过滤依据是特定的词语;后者则是计算邮件文本的校验码,再与已知的垃圾邮件进行对比。它们的识别效果都不理想,而且很容易规避。2002年,Paul Graham提出使用"贝叶斯推断"过滤垃圾邮件。他说,这样做的效果,好得不可思议。1000封垃圾邮件可以过滤掉995封,且没有一个误判。另外,这种过滤器还具有自我学习的功能 阅读全文
posted @ 2013-10-25 10:56 ywl925 阅读(705) 评论(0) 推荐(0) 编辑
摘要: 一、什么是贝叶斯推断贝叶斯推断(Bayesian inference)是一种统计学方法,用来估计统计量的某种性质。它是贝叶斯定理(Bayes' theorem)的应用。英国数学家托马斯·贝叶斯(Thomas Bayes)在1763年发表的一篇论文中,首先提出了这个定理。贝叶斯推断与其他统计学推断方法截然不同。它建立在主观判断的基础上,也就是说,你可以不需要客观证据,先估计一个值,然后根据实际结果不断修正。正是因为它的主观性太强,曾经遭到许多统计学家的诟病。贝叶斯推断需要大量的计算,因此历史上很长一段时间,无法得到广泛应用。只有计算机诞生以后,它才获得真正的重视。人们发现,许多 阅读全文
posted @ 2013-10-25 10:52 ywl925 阅读(677) 评论(0) 推荐(0) 编辑
摘要: 分类模型尝试将各个实例(instance)划归到某个特定的类,而分类模型的结果一般是实数值,如逻辑回归,其结果是从0到1的实数值。这里就涉及到如何确定阈值(threshold value),使得模型结果大于这个值,划为一类,小于这个值,划归为另一类。考虑一个二分问题,即将实例分成正类(positive)或负类(negative)。对一个二分问题来说,会出现四种情况。如果一个实例是正类并且也被预测成正类,即为真正类(True positive),如果实例是负类被预测成正类,称之为假正类(False positive)。相应地,如果实例是负类被预测成负类,称之为真负类(True positive) 阅读全文
posted @ 2013-10-24 21:53 ywl925 阅读(1466) 评论(0) 推荐(0) 编辑
摘要: 现在cpu核心数、线程数越来越高,本文将带你了解如何确定一台服务器有多少个cpu、每个cpu有几个核心、每个核心有几个线程。工具/原料Linux服务器方法/步骤查看物理cpu个数grep 'physical id' /proc/cpuinfo | sort -u查看核心数量grep 'core id... 阅读全文
posted @ 2013-10-23 16:18 ywl925 阅读(4618) 评论(0) 推荐(1) 编辑
摘要: 编写matlab程序时,出现了“Attempt to execute SCRIPT mean as a function”,其实这是“Attempt to execute SCRIPT *** as a function”的一个具体案例,当遇到自己写的函数或者命名的文件和matlab自带的系统函数一样时,就会发生这种情况。例如:我写个一个mean.m的matlab程序,然后在里面用到了mean函数求平均值,当执行到这一行,系统不知道你请求的是mean.m文件还是系统mean函数,就会报出上述错误。解决方法:修改文件的名字。 阅读全文
posted @ 2013-10-13 18:44 ywl925 阅读(1706) 评论(0) 推荐(0) 编辑
摘要: 这几天试用了新出不久的WinEdt 6,结合PDF文件的阅读器SumatraPDF,感觉实现TeX文档和PDF文件之间的正反向搜索十分便利,故此向大家特别推荐!CTeX v2.8版本的一项重要功能是实现了TeX文档和PDF文件之间的正反向搜索,我一般习惯称之为相互跳转。这项功能是通过对synctex文件的解析实现的,具体研究内容CTeX论坛上有详述,这里就不多说了。由于现在PDF文件是主流,无论发表文章还是写作论文,最终都要以PDF文件的形式输出,加之PDFLaTeX编译现已支持eps图形格式(通过加载宏包 epstopdf 即可),因此实现和利用 TeXPDF 之间的相互跳转可以充分挖掘La 阅读全文
posted @ 2013-10-11 11:52 ywl925 阅读(7412) 评论(0) 推荐(0) 编辑
摘要: Code Analyzer and ProfilerMatlab中,对写在m文件(.m文件)里的代码有分析的工具,可以进行优化,这里做一个简单的介绍。Code AnalyzerCode Analyzer工具可以分析用户M文件中的错误或性能问题,使用时,用户先打开M文件,选择Tools菜单下的Code Analyzer项,然后Code Analyzer子菜单中选中“Show Code Analyzer Report”项即可,具体操作过程和结果可以看下图:实际上,Code Analyzer分析得到的问题报告,并不一定要消除,具体问题具体分析。当用户认可某条分析结果时,单击分析结果的行号,即可快速定 阅读全文
posted @ 2013-09-25 19:33 ywl925 阅读(3443) 评论(0) 推荐(0) 编辑
摘要: 理论:假设M是一个m×n阶矩阵,其中的元素全部属于域 K,也就是 实数域或复数域。如此则存在一个分解使得M = UΣV*,其中U是m×m阶酉矩阵;Σ是半正定m×n阶对角矩阵;而V*,即V的共轭转置,是n×n阶酉矩阵。这样的分解就称作M的奇异值分解。Σ对角线上的元素Σi,i即为M的奇异值。直观的解释在矩阵M的奇异值分解中 M = UΣV*·U的列(columns)组成一套对M的正交"输入"或"分析"的基向量。这些向量是M*M的特征向量。·V的列(columns)组成一套对M的正交"输出& 阅读全文
posted @ 2013-09-15 21:42 ywl925 阅读(1131) 评论(0) 推荐(0) 编辑
摘要: 其实,我感觉,tf-idf是特殊情况下的BM25。BM25算法,通常用来作搜索相关性平分。一句话概况其主要思想:对Query进行语素解析,生成语素qi;然后,对于每个搜索结果D,计算每个语素qi与D的相关性得分,最后,将qi相对于D的相关性得分进行加权求和,从而得到Query与D的相关性得分。BM2... 阅读全文
posted @ 2013-09-12 10:48 ywl925 阅读(2077) 评论(0) 推荐(0) 编辑
摘要: 著名的科学杂志《Nature》于1999年刊登了两位科学家D.D.Lee和H.S.Seung对数学中非负矩阵研究的突出成果。该文提出了一种新的矩阵分解思想――非负矩阵分解(Non-negative Matrix Factorization,NMF)算法,即NMF是在矩阵中所有元素均为非负数约束条件之下的矩阵分解方法。该论文的发表迅速引起了各个领域中的科学研究人员的重视:一方面,科学研究中的很多大规模数据的分析方法需要通过矩阵形式进行有效处理,而NMF思想则为人类处理大规模数据提供了一种新的途径;另一方面,NMF分解算法相较于传统的一些算法而言,具有实现上的简便性、分解形式和分解结果上的可解释. 阅读全文
posted @ 2013-09-11 21:56 ywl925 阅读(8443) 评论(0) 推荐(0) 编辑
摘要: 每次更新一点,慢慢增加nargin nargin是用来判断输入变量个数的函数,这样就可以针对不同的情况执行不同的功能。通常可以用他来设定一些默认值,如下面的函数。 例子,函数test1的功能是输出a和b的和。如果只输入一个变量,则认为另一个变量为0,如果两个变量都没有输入,则默认两者均为0。function y = testNargin(a,b)if nargin==0 a=0;b=0;elseif nargin==1 b=0;endy=a+b;end相关:varargout、nargout、vararginsubs这里subs的替换换就是元素替换调用格式: R = subs(S... 阅读全文
posted @ 2013-09-11 18:15 ywl925 阅读(878) 评论(0) 推荐(0) 编辑
摘要: TF-IDF前言前段时间,又具体看了自己以前整理的TF-IDF,这里把它发布在博客上,知识就是需要不断的重复的,否则就感觉生疏了。TF-IDF理解TF-IDF(term frequency–inverse document frequency)是一种用于资讯检索与资讯探勘的常用加权技术, TFIDF的主要思想是:如果某个词或短语在一篇文章中出现的频率TF高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。TFIDF实际上是:TF * IDF,TF词频(Term Frequency),IDF反文档频率(Inverse Document Frequency)。TF 阅读全文
posted @ 2013-08-26 15:20 ywl925 阅读(28306) 评论(10) 推荐(2) 编辑
摘要: 注:如果代码中有冗余,错误或者不规范,欢迎指正。Java简单实现:爬取网页并且保存 对于网络,我一直处于好奇的态度。以前一直想着写个爬虫,但是一拖再拖,懒得实现,感觉这是一个很麻烦的事情,出现个小错误,就要调试很多时间,太浪费时间。 后来一想,既然早早给自己下了保证,就先实现它吧,从简单开始,慢慢增加功能,有时间就实现一个,并且随时优化代码。 下面是我简单实现爬取指定网页,并且保存的简单实现,其实有几种方式可以实现,这里慢慢添加该功能的几种实现方式。UrlConnection爬取实现package html;import java.io.BufferedReader;import j... 阅读全文
posted @ 2013-08-20 20:03 ywl925 阅读(35794) 评论(6) 推荐(0) 编辑
摘要: Apache Http+PHP+Mysql环境搭配1. 先下载上述三个软件 都要下载对应系统的软件,mysql还可以再下载navicat for mysql.2. 安装Apache Http Server 选择custom安装,将其安装到c:/Apache/Apache版本号下,对于network,可以先都写localhost或者127.0.0.1,然后配置服务httpd.conf,在httpd.conf中,如果有网站,就找到DocumentRoot(网站根目录),修改后面的目录(注意用把目录中的”\”改成”/”),修改默认的索引,找到DirectoryIndex(目录索引,也就是在仅指定.. 阅读全文
posted @ 2013-08-19 18:58 ywl925 阅读(3092) 评论(0) 推荐(0) 编辑
摘要: 最近,自己爬取网页是,想着将爬取的网页保存先来,遇到了一个小小的问题,就是将InputStream保存到文件中,这里就先转换位String,再将其存储到文件中,先这样实现了,以后再探索新的方式。String to InputStreamInputStream String2InputStream(String str){ ByteArrayInputStream stream = new ByteArrayInputStream(str.getBytes()); return stream;}InputStream to Stringpublic static String inp... 阅读全文
posted @ 2013-08-18 22:07 ywl925 阅读(10113) 评论(0) 推荐(0) 编辑
摘要: 问题产生:重装系统后,换了个新版本的Eclipse,但是,使用以前的工程目录(工程目录重命名了)后,发现,一些工程上显示红叹号,仔细查看里面的代码,也没有错误问题原因:经过查看,是工程中,使用的包,其路径错误解决方案:右键项目名称 BuildPath --->Configure Build Path...中,然后上面有几个选项卡找到 Libraries中, 这里看到的就是你工程里面引用的所有的 jar,看看是不是在某个jar图标上有差号? 鼠标移动到上面最后有missing,其图如下:如果有的话就没错了, 先选中这个jar, 点击右边的 Remove> 点击OK,重新添加引用的包F 阅读全文
posted @ 2013-08-17 16:05 ywl925 阅读(4037) 评论(1) 推荐(0) 编辑
摘要: Precision & Recall先看下面这张图来理解了,后面再具体分析。下面用P代表Precision,R代表Recall通俗的讲,Precision 就是检索出来的条目中(比如网页)有多少是准确的,Recall就是所有准确的条目有多少被检索出来了。下面这张图介绍True Positive,False Negative等常见的概念,P和R也往往和它们联系起来。我们当然希望检索的结果P越高越好,R也越高越好,但事实上这两者在某些情况下是矛盾的。比如极端情况下,我们只搜出了一个结果,且是准确的,那么P就是100%,但是R就很低;而如果我们把所有结果都返回,那么必然R是100%,但是P很 阅读全文
posted @ 2013-08-17 10:55 ywl925 阅读(5631) 评论(1) 推荐(1) 编辑
摘要: MAP(Mean Average Precision):单个主题的平均准确率是每篇相关文档检索出后的准确率的平均值。主集合的平均准确率(MAP)是每个主题的平均准确率的平均值。MAP 是反映系统在全部相关文档上性能的单值指标。系统检索出来的相关文档越靠前(rank 越高),MAP就可能越高。如果系统没有返回相关文档,则准确率默认为0。例如:假设有两个主题,主题1有4个相关网页,主题2有5个相关网页。某系统对于主题1检索出4个相关网页,其rank分别为1, 2, 4, 7;对于主题2检索出3个相关网页,其rank分别为1,3,5。对于主题1,平均准确率为(1/1+2/2+3/4+4/7)/4=0 阅读全文
posted @ 2013-08-16 15:21 ywl925 阅读(11497) 评论(0) 推荐(0) 编辑
Copyright at 2012 yangwenlong