随笔分类 -  AI

机器学习、深度学习、强化学习、数据分析挖掘
摘要:系列文章目录: 感知机 线性回归 非线性问题 多项式回归 岭回归 逻辑回归 算法介绍 今天我们一起来学习使用非常广泛的分类算法:逻辑回归,是的,你没有看错,虽然它名字里有回归,但是它确实是个分类算法,作为除了感知机以外,最最最简单的分类算法,下面我们把它与感知机对比来进行学习; 从决策边界上看 感知 阅读全文
posted @ 2021-06-24 16:05 HoLoong 阅读(631) 评论(1) 推荐(0)
摘要:系列文章目录: 感知机 线性回归 非线性问题 多项式回归 岭回归 算法介绍 今天我们来一起学习一个除了线性回归、多项式回归外最最最简单的回归算法:岭回归,如果用等式来介绍岭回归,那么就是:\(岭回归 = 多项式回归 + 惩罚项\),\(多项式回归 = 线性回归 + 多项式特征构建\),从上述等式可以 阅读全文
posted @ 2021-06-18 10:00 HoLoong 阅读(1945) 评论(1) 推荐(0)
摘要:系列文章目录: 感知机 线性回归 非线性问题 多项式回归 岭回归 算法介绍 今天我们来一起学习一个除了线性回归外最最最简单的回归算法:多项式回归; 从线性回归到多项式回归 事实上与线性回归相比,多项式回归没有增加任何需要推导的东西,唯一增加的是对原始数据进行多项式特征转换,这有点类似我们在非线性问题 阅读全文
posted @ 2021-06-17 09:55 HoLoong 阅读(771) 评论(1) 推荐(0)
摘要:系列文章目录: 感知机 线性回归 非线性问题 多项式回归 岭回归 算法介绍 前面两篇分别介绍了分类与回归问题中各自最简单的算法,有一点相同的是它们都是线性的,而实际工作中遇到的基本都是非线性问题,而能够处理非线性问题是机器学习有实用价值的基础; 首先,非线性问题在分类与回归中的表现是不同的,在回归问 阅读全文
posted @ 2021-06-15 15:20 HoLoong 阅读(2200) 评论(1) 推荐(0)
摘要:系列文章目录: 感知机 线性回归 非线性问题 多项式回归 岭回归 如果说感知机是最最最简单的分类算法,那么线性回归就是最最最简单的回归算法,所以这一篇我们就一起来快活的用两种姿势手撸线性回归吧; 算法介绍 线性回归通过超平面拟合数据点,经验误差一般使用MSE(均平方误差),优化方法为最小二乘法,算法 阅读全文
posted @ 2021-06-11 18:02 HoLoong 阅读(837) 评论(1) 推荐(0)
摘要:系列文章目录: 感知机 线性回归 非线性问题 多项式回归 岭回归 感知机(Perceptron)是最最最简单的机器学习算法(分类),同时也是深度学习中神经元的基础组件; 算法介绍 感知机与逻辑回归、SVM类似的是同样是构建一个分割超平面来实现对数据点的分类,不同点在于超平面的查找过程更加的简单粗暴, 阅读全文
posted @ 2021-06-11 11:59 HoLoong 阅读(773) 评论(1) 推荐(2)
摘要:全部内容来源于《Python深度学习》,以练习为主,理论知识较少,掺杂有一些个人的理解,虽然不算很准确,但是胜在简单易懂,这本书是目前看到最适合没有深度学习经验的同学们入门的书籍了,不妨试试,该书作者:Francois Chollet,即Keras之父,该书译者:张亮; 相关内容以及代码已经在Kag 阅读全文
posted @ 2021-05-21 10:09 HoLoong 阅读(269) 评论(0) 推荐(1)
摘要:首先介绍下我的情况和需求,如果你跟我类似,那么这篇文章将很有帮助; 我之前的技术栈主要是Java、Python,机器学习方面主要用到是pandas、numpy、sklearn、scipy、matplotlib等等,因为工作需要使用spark,所以理所应当的开始学习pyspark; 之后一方面团队其他 阅读全文
posted @ 2020-10-20 15:48 HoLoong 阅读(597) 评论(0) 推荐(0)
摘要:该篇文档基于kaggle course,通过简单的理论介绍、程序代码、运行图以及动画等来帮助大家入门深度学习,既然是入门,所以没有太多模型推导以及高级技巧相关,都是深度学习中最基础的内容,希望大家看过之后可以自己动手基于Tensorflow或者Keras搭建一个处理回归或者分类问题的简单的神经网络模 阅读全文
posted @ 2020-10-14 19:25 HoLoong 阅读(2320) 评论(3) 推荐(0)
摘要:机器学习可解释性分析 可解释性通常是指使用人类可以理解的方式,基于当前的业务,针对模型的结果进行总结分析; 一般来说,计算机通常无法解释它自身的预测结果,此时就需要一定的人工参与来完成可解释性工作; 目录: 是什么:什么叫可解释性; 为什么:为什么要对模型结果进行解释; 怎么做:如何有效的进行可解释 阅读全文
posted @ 2020-09-30 15:43 HoLoong 阅读(2634) 评论(1) 推荐(0)
摘要:Spark - Frequent Pattern Mining 官方文档:https://spark.apache.org/docs/2.2.0/ml-frequent-pattern-mining.html 挖掘频繁项、项集、子序列或者其他子结构通常是大规模数据分析的第一步,这也是近些年数据挖掘领 阅读全文
posted @ 2020-09-29 17:31 HoLoong 阅读(786) 评论(1) 推荐(0)
摘要:Spark - Parquet 概述 Apache Parquet属于Hadoop生态圈的一种新型列式存储格式,既然属于Hadoop生态圈,因此也兼容大多圈内计算框架(Hadoop、Spark),另外Parquet是平台、语言无关的,这使得它的适用性很广,只要相关语言有对应支持的类库就可以用; Pa 阅读全文
posted @ 2020-09-29 16:27 HoLoong 阅读(4607) 评论(1) 推荐(1)
摘要:Spark - ML Tuning 官方文档:https://spark.apache.org/docs/2.2.0/ml-tuning.html 这一章节主要讲述如何通过使用MLlib的工具来调试模型算法和pipeline,内置的交叉验证和其他工具允许用户优化模型和pipeline中的超参数; 目 阅读全文
posted @ 2020-09-28 10:52 HoLoong 阅读(891) 评论(1) 推荐(0)
摘要:Spark - Clustering 官方文档:https://spark.apache.org/docs/2.2.0/ml-clustering.html 这部分介绍MLlib中的聚类算法; 目录: K-means: 输入列; 输出列; Latent Dirichlet allocation(LD 阅读全文
posted @ 2020-09-27 18:58 HoLoong 阅读(2405) 评论(1) 推荐(0)
摘要:Spark(3) - Extracting, transforming, selecting features 官方文档链接:https://spark.apache.org/docs/2.2.0/ml-features.html 概述 该章节包含基于特征的算法工作,下面是粗略的对算法分组: 提取: 阅读全文
posted @ 2020-09-25 12:13 HoLoong 阅读(1751) 评论(1) 推荐(0)
摘要:Spark Job-Stage-Task实例理解 基于一个word count的简单例子理解Job、Stage、Task的关系,以及各自产生的方式和对并行、分区等的联系; 相关概念 Job:Job是由Action触发的,因此一个Job包含一个Action和N个Transform操作; Stage:S 阅读全文
posted @ 2020-09-21 16:59 HoLoong 阅读(894) 评论(3) 推荐(1)
摘要:ML Pipelines(译文) 官方文档链接:https://spark.apache.org/docs/latest/ml-pipeline.html 概述 在这一部分,我们将要介绍ML Pipelines,它提供了基于DataFrame上统一的高等级API,可以帮助使用者创建和调试机器学习工作 阅读全文
posted @ 2020-09-17 18:30 HoLoong 阅读(2315) 评论(1) 推荐(1)
摘要:关于2019 nCoV的数据采集、模型预测 武汉加油、湖北加油、中国加油!!! "采集、预测仓库地址" 项目背景 2020年开年爆发的新型冠状病毒,新的一年相信对于大家来说都是地狱模式开局,对于我本人也是如此,打乱了很多计划,有些不知所措,但是灾难面前,唯有同舟共济,对此我个人是乐观的,中华民族是不 阅读全文
posted @ 2020-02-09 16:50 HoLoong 阅读(820) 评论(5) 推荐(4)
摘要:前言 1. 该篇分享来源于NFL竞赛官方的R语言版本,我做的主要是翻译为Python版本; 2. 分享中用到的技巧、构建的特征、展示数据的方式都可以应用到其他领域,比如篮球、足球、LOL、双人羽毛球等等,只要是团队竞技,都可以从中获益; 3. 分享基于kaggle上的 "NFL大数据碗" ,也就是基 阅读全文
posted @ 2020-01-21 17:49 HoLoong 阅读(569) 评论(1) 推荐(0)
摘要:kaggle竞赛分享:NFL大数据碗 上 竞赛简介 一年一度的NFL大数据碗,今年的预测目标是通过两队球员的静态数据,预测该次进攻推进的码数,并转换为该概率分布; 竞赛链接 https://www.kaggle.com/c/nfl big data bowl 2020 项目链接,该项目代码已经pub 阅读全文
posted @ 2020-01-20 14:33 HoLoong 阅读(1105) 评论(2) 推荐(0)