会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
onesteng
博客园
首页
新随笔
新文章
联系
管理
订阅
上一页
1
2
3
2014年6月3日
python,re,正则表达式
摘要: 一,基础部分1.简单的转义字符\r 回车 \n 换行 \\ '\'字符本身 2.与多种字符匹配的表达式 \d 数字,0-9中的一个 \w 任意字符、数字、下划线,a-z,A-Z,0-9,_中的一个 \s 空格、制表符、换页符中等空白字符中的一个 . 除了换行符\n的任意一个字符 ...
阅读全文
posted @ 2014-06-03 21:40 onesteng
阅读(137)
评论(0)
推荐(0)
2014年4月25日
VS2010配置SWIG环境
摘要: 输入文件:module.cpp module.h module.i VS配置步骤: 0.通过配置管理器调到release模式 1.文件-新建-从现有代码中创建项目 2. 3. 选择包含module.cpp的目录,项目名称为.i文件中%module中定义的模块名称 4. 项...
阅读全文
posted @ 2014-04-25 16:34 onesteng
阅读(1042)
评论(0)
推荐(0)
2014年3月22日
快排-C++实现
摘要: TODO:为什么时间复杂度为nlogn?快排的实现分为两个函数Partition和QuickSort时间复杂度为O(nlogn) 实现如下://参数如下://i初始值为low -1,指向传入数组的前一个位置;i表示的已经排好顺序且小于KEY的最后一个元素的index;//j初始值为low,指向数组开始的位置;指向已排序的部分(包括大于key和小于key的部分)的下一个index//j遍历数组,如果array[j]小于Key,i++;这时i指向的是大于KEY的元素,swap(array[i],array[j])将大于KEY的值(array[i])//与小于KEY的值(array[j])交换int
阅读全文
posted @ 2014-03-22 21:32 onesteng
阅读(370)
评论(0)
推荐(0)
2014年3月13日
TODO:数据挖掘-聚类-K均值
摘要: 整理上来K均值
阅读全文
posted @ 2014-03-13 00:47 onesteng
阅读(115)
评论(0)
推荐(0)
2014年3月11日
数据挖掘-分类-KNN
摘要: 1.KNN原理:2.KNN特点:2.1.惰性学习。将所有计算推迟到分类(test)阶段之后。2.2.要求邻居已经正确分类。这被视为当做训练样本集的算法2.3.一般情况下,计算欧氏距离。要求变量是连续的。对于文本分类这种非连续的,可以使用重叠度量或者海明距离作为度量。2.4.多数表决。2.5.基于实例的学习3.KNN步骤:3.1.计算新输入样本距离所有训练样本的距离。遍历所有的样本3.2.选择K个距离最小的训练样本。排序算法3.3.计算这K个样本中所含样本数最多的类。计数4.KNN缺陷及改进方法:4.1.计算量大。需要计算新输入样本到所有样本的距离。4.2.K值不能自适应,需要提前设定哪种算法的
阅读全文
posted @ 2014-03-11 23:25 onesteng
阅读(600)
评论(0)
推荐(0)
数据挖掘-分类-随机森林
摘要: 随机森林由决策树组成,这些决策树是随机的,随机性由随机选择属性、数据决定。由于这个特点,这些决策树也叫随机决策树。随机性可以避免过分拟合。测试数据进入随机森林时,实质是由一个个决策树进行分类,最后的类别由这些决策树的输出的众数决定。ID3、C4.5算法的区别是,ID3处理离散值,C4.5处理连续值某个属性的信息增益越大,说明这个属性越重要。随机森林构造过程: 5.1如果数据集包含N条数据,则随机有放回的选择N个样本.这是决策树随机性的一个保证. 5.2当有M个属性时,在决策树每次需要分裂时,从M个属性中随机选择m个属性(m<<M).在这m个属性中,选择一种策略进行分裂(信息增益),
阅读全文
posted @ 2014-03-11 00:08 onesteng
阅读(1729)
评论(0)
推荐(0)
2014年3月10日
Hadoop学习笔记-HDFS结构及原理
摘要: 1.名词 NameNode、DataNode、机架、Client、File、Block、Package2.组件间的关系: 2.1.机架通过交换机相连,HDFS假设:在同一个机架之间传输数据比机架间传输数据快。 2.2.NameNode、DataNode指实现不同功能的服务器。NN只用一台,DN需要若干台。 2.3.一个File在HDFS中按照Block存储,冗余,一般为3份(可配置)。一份位于NN机架上,另外两份位于相同但不同于NN的机架上。即,1T的数据,需要3T的物理存储空间,3T的网络流量。 2.4.NN,管理客户端读写请求,管理HDFS命名空间,管理数据块映射;DN,以Blo...
阅读全文
posted @ 2014-03-10 21:22 onesteng
阅读(378)
评论(0)
推荐(0)
2013年9月4日
哈希表
摘要: 一、解决冲突 解决冲突有两种方法: 1、开放地址法(OPEN HASHING\CLOSED ADDRESSING) 开放地址法的基本思想:发生冲突时,按照某种方法继续查找哈希表中的其他位置,直到找到空位置。公式表示该过程如下: 其中:H(key)为key的直接哈希地址,di为再探测时的地址增量,m为哈希表长度。 根据di选取方法的不同,开放地址法又分为: ...
阅读全文
posted @ 2013-09-04 09:34 onesteng
阅读(165)
评论(0)
推荐(0)
上一页
1
2
3
公告