随笔分类 -  数据挖掘

上一页 1 2
【数据挖掘】数据挖掘工程师是做什么的?
摘要:【数据挖掘】数据挖掘工程师是做什么的? 2016-08-10 17:16 【数据挖掘】数据挖掘工程师是做什么的? 2016-08-10 17:16 数据挖掘,从字面上理解,就是在数据中找到有用的东西,哪些东西有用就要看具体的业务目标了。最简单的就是统计应用了,比如电商数据,如淘宝统计过哪个省购买泳衣 阅读全文
posted @ 2017-12-25 12:59 曹明 阅读(735) 评论(0) 推荐(0)
GBDT(MART) 迭代决策树入门教程 | 简介
摘要:GBDT(MART) 迭代决策树入门教程 | 简介 转载 2012年11月29日 19:12:19 131012 转载 2012年11月29日 19:12:19 131012 在网上看到一篇对从代码层面理解gbdt比较好的文章,转载记录一下: GBDT(Gradient Boosting Decis 阅读全文
posted @ 2017-12-13 22:02 曹明 阅读(188) 评论(0) 推荐(0)
大数据量下处理方法的面试题
摘要:大数据量下处理方法的面试题 第一部分、十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 首先是这一天,并且是访问百度的日志中的IP取出来,逐个写入到一个大文件中。注意到IP是32位的,最多有个2^32个IP。同样可以采用映射的方法, 比如模1000,把整个大文件映射为 阅读全文
posted @ 2017-10-05 20:40 曹明 阅读(5773) 评论(0) 推荐(1)
全球100款大数据工具汇总
摘要:全球100款大数据工具汇总 全球100款大数据工具汇总 1、 Talend Open Studio 是第一家针对的数据集成工具市场的ETL(数据的提取Extract、传输Transform、载入Load)开源软件供应商。Talend的下载量已超过200万人次,其开源软件提供了数据整合功能。其用户包括 阅读全文
posted @ 2017-07-18 09:19 曹明 阅读(1615) 评论(0) 推荐(0)
【机器学习】确定最佳聚类数目的10种方法
摘要:【机器学习】确定最佳聚类数目的10种方法 【机器学习】确定最佳聚类数目的10种方法 在聚类分析的时候确定最佳聚类数目是一个很重要的问题,比如kmeans函数就要你提供聚类数目这个参数,总不能两眼一抹黑乱填一个吧。之前也被这个问题困扰过,看了很多博客,大多泛泛带过。今天把看到的这么多方法进行汇总以及代 阅读全文
posted @ 2017-07-07 19:08 曹明 阅读(58108) 评论(3) 推荐(5)
自动作文评分与自然语言处理
摘要:自动作文评分与自然语言处理 前些天一个学弟发邮件咨询有关自动作文评分的问题,在了解了这是他们导师布置的一个任务后,出于做统计机器翻译的惯性思维,我马上想到的是利用语言模型对作文进行流利度方面的打分,但也意识到这是一个粗糙的甚至是错误的评分系统,因为它连最基本的作文长度都没有考虑。 于是找了一些这方面 阅读全文
posted @ 2017-07-06 20:42 曹明 阅读(2581) 评论(0) 推荐(0)
R语言中的机器学习包
摘要:R语言中的机器学习包 R语言中的机器学习包 Machine Learning & Statistical Learning (机器学习 & 统计学习) 网址:http://cran.r-project.org/web/views/MachineLearning.html维护人员:Torsten Ho 阅读全文
posted @ 2017-02-10 17:58 曹明 阅读(1009) 评论(0) 推荐(0)
BP神经网络的手写数字识别
摘要:BP神经网络的手写数字识别 ANN 人工神经网络算法在实践中往往给人难以琢磨的印象,有句老话叫“出来混总是要还的”,大概是由于具有很强的非线性模拟和处理能力,因此作为代价上帝让它“黑盒”化了。作为一种general purpose的学**算法,如果你实在不想去理会其他类型算法的理论基础,那就请使用A 阅读全文
posted @ 2017-02-08 20:40 曹明 阅读(8247) 评论(0) 推荐(0)
数据挖掘步骤
摘要:一.现在我主要讲解数据挖掘的基本规范流程 数据挖掘通常需要数据收集,数据集成,数据规约,数据清理,数据变换,数据挖掘实施过程,模式评估和知识表示 1.数据收集:根据所得的数据,抽象出数据的特征信息,将收集到的信息存入数据库。选择一种合适的数据存储和管理的数据仓库类型 2.数据集成:把不同来源,格式的 阅读全文
posted @ 2016-08-27 22:12 曹明 阅读(4490) 评论(0) 推荐(0)

上一页 1 2