会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
活不明白
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
8
下一页
2019年1月5日
mysql约束
摘要: 一、什么是约束,为什么使用约束 - 约束对应英语单词constraint,约束就是表中数据的限制条件 - 表在设计的时候加入约束的目的就是为了保证表中的记录完整和有效 二、约束包括哪些 1、 非空约束 not null not null约束的字段,不能为NULL值,必须给定具体的数据 2、 唯一性约
阅读全文
posted @ 2019-01-05 20:19 活不明白
阅读(25)
评论(0)
推荐(0)
2018年12月30日
计算文本相似度并将文件写到文本文件
摘要: 工作中有一个小需求找相近的颜色,就用文本相似度做了,包是直接找的一个包,大概是交集/并集的计算形式,然后将计算结果写到txt文件中 import difflib A = B = ['纯白', '纯黑色', '白红色Hi', '棕色/白色Hi', '白色/蓝色Hi', '白色/棕色Hi', '白色/蓝
阅读全文
posted @ 2018-12-30 00:30 活不明白
阅读(22)
评论(0)
推荐(0)
2018年12月29日
json数组解析的两种形式-hive
摘要: 单个json我们很容易的可以用get_json_object进行解析,json数组就需要用复杂的方式了 1、可以用UDTF,这个是阿里云环境下小伙伴帮忙写的,但是这个不能和原数据进行关联,就是只能取这一个字段 import com.aliyun.odps.udf.UDFException; impo
阅读全文
posted @ 2018-12-29 23:28 活不明白
阅读(106)
评论(0)
推荐(0)
2018年12月17日
数据仓库实践-阿里云环境
摘要: 上一篇文章大致讲了数据仓库构建的理论部分,这一篇以实际工作为例,大致的整理下数据仓库的构建,也算是工作的总结;同时由于使用的是云平台,所以很多hadoop系列的技术问题基本都没有。 一、工作背景 所在部门的主要业务主要做的是电商导购,主要数据分为订单业务数据和流量数据,由于不牵涉到订单结算和物流系统
阅读全文
posted @ 2018-12-17 00:12 活不明白
阅读(24)
评论(0)
推荐(0)
2018年12月15日
K-means算法过程及使用实例
摘要: 一、K-means算法主要过程 (1)从数据中选择k个对象作为初始聚类中心; (2)计算每个聚类对象到聚类中心的距离来划分; (3)再次计算每个聚类中心 (4)聚类中心不再变化或到最大迭代次数,则停止,否则,重复2、3。 二、K-means算法手写公式化表示 三、K-means算法适用范围 适用于凸
阅读全文
posted @ 2018-12-15 20:08 活不明白
阅读(123)
评论(0)
推荐(0)
2018年12月11日
特征编码方法-OneHotEncoding
摘要: 对于一些特征工程方面,有时会用到LabelEncoder和OneHotEncoder。 一、为什么需要这种编码方式 在实际的机器学习的应用任务中,特征有时候并不总是连续值,有可能是一些分类值,如性别可分为“male”和“female”,如果我们用简单的0,1代替就会有问题,因为男女之间不存在大小关系
阅读全文
posted @ 2018-12-11 22:24 活不明白
阅读(94)
评论(0)
推荐(0)
2018年12月8日
降维算法--PCA理论、公式推导
摘要: 一、降维算法的主要的目的 1、降维可以减少数据共线性,减少冗余特征,提高算法运行效率 2、可视化需要 二、主要的降维算法 三、降维算法的主要思想 在高维数据中,有一部分特征是不带有有效信息的,还有一部分特征之间存在共线性(特征间有线性关系),我们需要过滤掉这一部分特征。 PCA算法中,我们用方差表示
阅读全文
posted @ 2018-12-08 17:55 活不明白
阅读(153)
评论(0)
推荐(0)
2018年12月7日
数据仓库基础知识
摘要: 2022年6月1日记录,这又干了3年的数仓,感慨很多吧,觉得做好确实不容易,技术要精细的话,从底层代码到上层架构都要认真思考。 一、数据仓库是什么 引用百度百科:数据仓库,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战
阅读全文
posted @ 2018-12-07 23:17 活不明白
阅读(51)
评论(0)
推荐(0)
2018年11月24日
阿里云dataworks/maxcomputer和自建集群的对比
摘要: 云平台近几年在飞速发展,有些公司也会把自己的在线业务和离线数据业务迁移到阿里云上,一方面节省研发成本,另一方面服务更加稳定,下面我以自己粗浅的认识对比下两者。 2021年7月又换了一家公司,又用回了原生的大数据组件,之前3年都用的阿里云,最近觉得很不适应,对两者的区别有了更多的感受,再回来总结下。
阅读全文
posted @ 2018-11-24 20:25 活不明白
阅读(148)
评论(0)
推荐(0)
2018年11月18日
KNN简单实现
摘要: KNN算是机器学习入门算法中比较容易理解的了,要注意和K-means的一些区别 KNN K-Means 1.KNN是分类算法 2.监督学习 3.喂给它的数据集是带label的数据,已经是完全正确的数据 1.K-Means是聚类算法 2.非监督学习 3.喂给它的数据集是无label的数据,是杂乱无章的
阅读全文
posted @ 2018-11-18 19:54 活不明白
阅读(22)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
8
下一页
公告