老顽童2007 - 博客园

2016年10月13日

摘要： 1.模块简介 linecache主要用于缓存文件内容，如果下次继续读取该文件，则不需要打开文件，直接在缓存中获取该文件内容。 2.模块使用模块的基本方法有getline，clearcache，getlines，checkcache；方法getline主要用于获取指定行的内容；方法clearca 阅读全文

posted @ 2016-10-13 19:35 老顽童2007 阅读(1514) 评论(0) 推荐(0)

2016年10月9日

Python标准模块--logging

摘要： 1 logging模块简介 logging模块是Python内置的标准模块，主要用于输出运行日志，可以设置输出日志的等级、日志保存路径、日志文件回滚等；相比print，具备如下优点： 1. 可以通过设置不同的日志等级，在release版本中只输出重要信息，而不必显示大量的调试信息； 2. print 阅读全文

posted @ 2016-10-09 20:33 老顽童2007 阅读(9370) 评论(1) 推荐(3)

2016年9月29日

Spark中决策树源码分析

摘要： 1.Example 使用Spark MLlib中决策树分类器API，训练出一个决策树模型，使用Python开发。 """ Decision Tree Classification Example. """ from __future__ import print_function from pysp 阅读全文

posted @ 2016-09-29 17:56 老顽童2007 阅读(2193) 评论(0) 推荐(0)

2016年9月13日

常见的相似或相异程度计算方法

摘要：如何衡量数据点之间的相似或相异程度是聚类算法的基础问题，会直接影响聚类分析的效果，最直观的方法是使用距离函数或者相似性函数。常见的相似或相异程度计算方法。 1.计算公式 1.Minkowski distance 很多距离计算方法都可以归结为基于向量p范数的距离，即Minkowski distanc 阅读全文

posted @ 2016-09-13 21:49 老顽童2007 阅读(1352) 评论(0) 推荐(0)

2016年8月31日

mpi4py实践

posted @ 2016-08-31 18:11 老顽童2007 阅读(5823) 评论(2) 推荐(0)

2016年7月31日

集成学习

摘要：本文档主要用于梳理集成学习相关知识点。 1.Bagging Bagging基本流程，有放回地采样出T个含有m个训练样本的采样集，然后基于每个采样集训练出一个基学习器，再将这些基学习器进行结合,对预测输出进行结合时，通常采用简单投票法（分类任务），通常采用简单平均法（回归任务）； 1.1 Random 阅读全文

posted @ 2016-07-31 18:25 老顽童2007 阅读(495) 评论(0) 推荐(0)

2016年6月30日

决策树

摘要： 1.基本流程一棵决策树包含一个根结点、若干个内部结点和若干个叶结点;叶结点对应决策结果，其他每个节点则对应于一个属性测试;每个结点包含的样本集合根据属性测试的结果被划分到字节点中;根结点包含样本全集。从根结点到每个叶结点的路径对应了一个判定测试序列。决策树学习的目的是为了产生一个泛化能力强，即处理阅读全文

posted @ 2016-06-30 20:08 老顽童2007 阅读(1305) 评论(0) 推荐(1)

2016年5月29日

git使用

摘要： 0. git安装 (1)ubuntu操作系统： sudo apt get install git (2)Windows操作系统：通过GitHubSetup.exe程序安装，百度网盘共享地址：http://pan.baidu.com/s/1hsdLMba 密码：1rvy (3)Mac OS X操作阅读全文

posted @ 2016-05-29 21:29 老顽童2007 阅读(233) 评论(0) 推荐(0)

2016年5月28日

Ubuntu 14.04 64bit 安装tensorflow（GPU版本）

摘要：本博客主要用于在Ubuntu14.04 64bit 操作系统上搭建google开源的深度学习框架tensorflow。 0.安装CUDA和cuDNN 如果要安装GPU版本的tensorflow，就必须先安装CUDA和cuDNN，请参考 "Caffe学习笔记2 Ubuntu 14.04 64bit 安阅读全文

posted @ 2016-05-28 22:06 老顽童2007 阅读(6942) 评论(0) 推荐(0)

2016年5月25日

KNN算法

摘要： 1.算法讲解 KNN算法是一个最基本、最简单的有监督算法，基本思路就是给定一个样本，先通过距离计算，得到这个样本最近的topK个样本，然后根据这topK个样本的标签，投票决定给定样本的标签；训练过程：只需要加载训练数据；测试过程：通过之前加载的训练数据，计算测试数据集中各个样本的标签，从而完成测阅读全文

posted @ 2016-05-25 18:42 老顽童2007 阅读(503) 评论(2) 推荐(0)