会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Charlotte77
数学系的数据挖掘民工(公众号:CharlotteDataMining,深度学习技术交流qq群:339120614)最新深度学习免费学习视频请移步我的B站:https://www.bilibili.com/video/av75414647
博客园
首页
新随笔
联系
管理
订阅
上一页
1
2
3
4
2016年5月6日
【原】Spark之机器学习(Python版)(一)——聚类
摘要: kmeans聚类相信大家都已经很熟悉了。在Python里我们用kmeans通常调用Sklearn包(当然自己写也很简单)。那么在Spark里能不能也直接使用sklean包呢?目前来说直接使用有点困难,不过我看到spark-packages里已经有了,但还没有发布。不过没关系,PySpark里有ml包
阅读全文
posted @ 2016-05-06 14:56 Charlotte77
阅读(17597)
评论(8)
推荐(7)
2016年5月3日
【原】Learning Spark (Python版) 学习笔记(二)----键值对、数据读取与保存、共享特性
摘要: 本来应该上周更新的,结果碰上五一,懒癌发作,就推迟了 = =。以后还是要按时完成任务。废话不多说,第四章-第六章主要讲了三个内容:键值对、数据读取与保存与Spark的两个共享特性(累加器和广播变量)。 键值对(PaiRDD) 1.创建 2.转化(Transformation) 转化操作很多,有red
阅读全文
posted @ 2016-05-03 17:49 Charlotte77
阅读(20275)
评论(7)
推荐(6)
2016年4月27日
2015年总结与2016年目标和计划
摘要: 2015年是变化最大的一年,1月份考研失败,不接受任何调剂,只想读计算数学,搞数学建模,在家消沉了两星期,闲不住,就出去找事做。去了一家培训机构做老师,做了一个月被咨询部的老大挖过去做咨询师(我也不知道为啥要我过去,哈哈,难道是因为颜值吗?),然后又做了两个月,准备边工作边二战,但是怕失败,还是决定
阅读全文
posted @ 2016-04-27 10:42 Charlotte77
阅读(13440)
评论(125)
推荐(30)
2016年4月21日
【原】Learning Spark (Python版) 学习笔记(一)----RDD 基本概念与命令
摘要: 《Learning Spark》这本书算是Spark入门的必读书了,中文版是《Spark快速大数据分析》,不过豆瓣书评很有意思的是,英文原版评分7.4,评论都说入门而已深入不足,中文译版评分8.4,评论一片好评,有点意思。我倒觉得这本书可以作为官方文档的一个补充,刷完后基本上对Spark的一些基本概
阅读全文
posted @ 2016-04-21 16:50 Charlotte77
阅读(17937)
评论(3)
推荐(5)
2016年4月14日
【原】浅谈KL散度(相对熵)在用户画像中的应用
摘要: 最近做用户画像,用到了KL散度,发现效果还是不错的,现跟大家分享一下,为了文章的易读性,不具体讲公式的计算,主要讲应用,不过公式也不复杂,具体可以看链接。 首先先介绍一下KL散度是啥。KL散度全称Kullback–Leibler divergence,也称为相对熵,信息增益,它是度量两个概率分布P与
阅读全文
posted @ 2016-04-14 17:50 Charlotte77
阅读(11145)
评论(7)
推荐(3)
2016年4月12日
【原】数据分析/数据挖掘/机器学习---- 必读书目
摘要: 总结一下我读过的机器学习/数据挖掘/数据分析方面的书,有的适合入门,有的适合进阶,没有按照层次排列,先总结一下,等总结的差不多了再根据入门 >进阶分块写。下面列的书基本上我写的都是读完过的,不然不敢写,怕误人子弟 = =,持续更新ing~ 数据分析 实习的时候只会Matlab,公司小,没钱买正版,所
阅读全文
posted @ 2016-04-12 10:33 Charlotte77
阅读(26515)
评论(16)
推荐(20)
2016年4月8日
【原】KMeans与深度学习自编码AutoEncoder结合提高聚类效果
摘要: 这几天在做用户画像,特征是用户的消费商品的消费金额,原始数据(部分)是这样的: 我们看到同一个id下面有不同的消费记录,这个数据不能直接拿来用,写了python程序来进行处理:test.py 输出结果: 现在我们来跑AE模型(Auto-encoder),简单说说AE模型,主要步骤很简单,有三层,输入
阅读全文
posted @ 2016-04-08 10:32 Charlotte77
阅读(16280)
评论(5)
推荐(2)
2016年4月6日
【原】Spark学习总结-六个专题
摘要: 最近从hadoop转向Spark了,学了一段时间了,准备写个专题,主要写pySpark的应用,主要计划是: 主题 内容概要 聚类(5.6) 1.几种常用的聚类算法;2.pyspark中聚类算法的应用(2-3个实例) 分类&回归 1.几种常用的分类和回归算法;2.pyspark中分类和回归算法的应用(
阅读全文
posted @ 2016-04-06 09:28 Charlotte77
阅读(1327)
评论(1)
推荐(1)
2016年3月31日
【原】数据分析/数据挖掘 入门级选手建议
摘要: <!--?xml version="1.0" encoding="UTF-8" standalone="no"?--> 1.数据分析和数据挖掘联系和区别 联系:都是搞数据的 区别:数据分析偏统计,可视化,出报表和报告,需要较强的表达能力。数据挖掘偏算法,重模型,需要很深的代码功底,要码代码,很多=
阅读全文
posted @ 2016-03-31 11:04 Charlotte77
阅读(12620)
评论(12)
推荐(16)
2015年12月24日
【原】机器学习几个基本的问题
摘要: 从今年四月份到现在已经工作快9个月了,最开始是做推荐系统,然后做机器学习,现在是文本挖掘,每个部分研究的时间都不多,但还是遇到了很多问题,目前就把一定要总结的问题总结一下,以后有时间多看看,提醒自己看有没有解决。 推荐系统: 1.冷启动热启动区别和联系?各个阶段需要的算法? 2.每个算法的数学推导、
阅读全文
posted @ 2015-12-24 10:35 Charlotte77
阅读(7166)
评论(4)
推荐(3)
2015年12月18日
【原】文本挖掘——特征选择
摘要: 特征选择有很多方法,看了很多资料后,我总结了以下几种,以后有新内容会随时修改 1.DF——基于文档频率的特征提取方法 概念:DF(document frequency)指出现某个特征项的文档的频率。 步骤:1).从训练语料中统计出保函某个特征的文档频率(个数) 2).根据设定的阈值(min&max)
阅读全文
posted @ 2015-12-18 15:56 Charlotte77
阅读(2911)
评论(0)
推荐(1)
2015年12月8日
【原】python中文文本挖掘资料集合
摘要: 这些网址是我在学习python中文文本挖掘时觉得比较好的网站,记录一下,后期也会不定期添加: 1.http://www.52nlp.cn/python-%E7%BD%91%E9%A1%B5%E7%88%AC%E8%99%AB-%E6%96%87%E6%9C%AC%E5%A4%84%E7%90%86-
阅读全文
posted @ 2015-12-08 15:04 Charlotte77
阅读(8602)
评论(1)
推荐(3)
上一页
1
2
3
4
公告