摘要: 2013-07-15 21:41:04 #本文的目的在于介绍回归建模时变量选择和正则化所用的R包,如glmnet,ridge,lars等。算法的细节尽量给文献,这个坑太大,hold不住啊。1.变量选择问题:从普通线性回归到lasso使用最小二乘法拟合的普通线性回归是数据建模的基本方法。其建模要点在于 阅读全文
posted @ 2017-02-07 12:31 佟学强 阅读(1203) 评论(0) 推荐(0) 编辑
摘要: 去年写过很多高质量的代码,由于没有时间写博客,这几天集中时间上传之。去年有一篇博客,详细介绍了CAS算法和ThreadPoolExecutor源代码。现在要上传的是,利用CAS算法和双检索机制解决缓存计算机制的代码。假设有1000个线程去调用公共计算类,这1000个线程传递的值是一样的,要求得出传递 阅读全文
posted @ 2017-02-04 22:03 佟学强 阅读(228) 评论(0) 推荐(0) 编辑
摘要: 去年3月份,写了一个平衡的三叉树算法包,还写了一个基于逆向最大匹配算法的中文分词算法包。现在,将平衡的三叉树算法包上传。首先看一下包结构: 1.chinese.utility.cfg代码: package chinese.utility.cfg;/** * 获得主词典、量词词典以及扩展词典和扩展停词 阅读全文
posted @ 2017-02-04 21:22 佟学强 阅读(913) 评论(0) 推荐(0) 编辑
摘要: package com.txq.test;public class BinarySearch { public int binarySearch(int []arr,int key){ return binarySearch(arr,0,arr.length-1,key); } private in 阅读全文
posted @ 2017-01-31 20:48 佟学强 阅读(169) 评论(0) 推荐(0) 编辑
摘要: http://blog.csdn.net/v_july_v/ 阅读全文
posted @ 2016-12-29 20:54 佟学强 阅读(168) 评论(0) 推荐(0) 编辑
摘要: package findMinNumIncludedTopN;/** * 小顶堆 * @author TongXueQiang * @date 2016/03/09 * @since JDK 1.8 */public class MinHeap { int[] heap; int heapsize; 阅读全文
posted @ 2016-12-12 18:07 佟学强 阅读(1492) 评论(0) 推荐(0) 编辑
摘要: Hadoop 作为MR 的开源实现,一直以动态运行解析文件格式并获得比MPP数据库快上几倍的装载速度为优势。不过,MPP数据库社区也一直批评Hadoop由于文件格式并非为特定目的而建,因此序列化和反序列化的成本过高。 1、hadoop 文件格 式简介 目前 hadoop 中流行的文件格式有如下几种: 阅读全文
posted @ 2016-12-08 17:33 佟学强 阅读(320) 评论(0) 推荐(0) 编辑
摘要: 之前写的三叉树,有点儿简单,并不能满足实际项目的需要。先简单分析一下solr中搜索推荐系统的核心算法。 wiki中有关于solr的搜索推荐的详细描述,但是核心算法需要自己查看源代码。关于wiki上的解读,之前做了一次简单的翻译,根据此文档,详细研读了源代码,先把核心思想呈现出来。 基本流程如下:当用 阅读全文
posted @ 2016-12-08 14:39 佟学强 阅读(439) 评论(0) 推荐(0) 编辑
摘要: 推荐系统的算法,在上个世纪90年代成型,最早应用于UserCF,基于用户的协同过滤算法,标志着推荐系统的形成。首先,要明白以下几个理论:①长尾理论②评判推荐系统的指标。之所以需要推荐系统,是要挖掘冷门物品,增加利润,这是根本目的。一般的,评判一个推荐系统的好坏,需要以下几个指标: 推荐系统评测指标— 阅读全文
posted @ 2016-11-28 22:04 佟学强 阅读(5323) 评论(0) 推荐(0) 编辑
摘要: 关于全排列的算法研究,有很多,不论述了。采用非递归的算法,是首选。直接上传微软给出的算法: /* * 字符串全排列最优算法(非递归置换) */ public void permutation(char str[],int m,boolean duplicate){ int n = str.lengt 阅读全文
posted @ 2016-11-23 17:05 佟学强 阅读(246) 评论(0) 推荐(0) 编辑