摘要: 转自:https://blog.csdn.net/cymy001/article/details/79169862 特征生成 特征工程中引入的新特征,需要验证它确实能提高预测得准确度,而不是加入一个无用的特征增加算法运算的复杂度。 1. 时间戳处理 时间戳属性通常需要分离成多个维度比如年、月、日、小 阅读全文
posted @ 2018-05-07 09:48 change_world 阅读(792) 评论(0) 推荐(0) 编辑
摘要: 参数: n : int 数据集中的元素总数。 n_iter : int (default 10) 重新洗牌和分裂迭代次数。 test_size : float (default 0.1), int, or None 如果是float类型的数据, 这个数应该介于0-1.0之间,代表test集所占比例. 阅读全文
posted @ 2018-05-06 19:24 change_world 阅读(3664) 评论(1) 推荐(0) 编辑
摘要: 1- 什么是 Multiprocessing 和 threading 的比较 多进程 Multiprocessing 和多线程 threading 类似, 他们都是在 python 中用来并行运算的. 不过既然有了 threading, 为什么 Python 还要出一个 multiprocessin 阅读全文
posted @ 2018-05-01 22:32 change_world 阅读(223) 评论(0) 推荐(0) 编辑
摘要: #add_thread # View more python learning tutorial on my Youtube and Youku channel!!! # Youtube video tutorial: https://www.youtube.com/channel/UCdyjiB5H8Pu7aDTNVXTTpcg # Youku video tutorial: http://... 阅读全文
posted @ 2018-05-01 22:13 change_world 阅读(299) 评论(0) 推荐(0) 编辑
摘要: 转自:https://blog.csdn.net/bryan__/article/details/78786648 数据分片:可以将数据分片处理的任务适合用多进程代码处理,核心思路是将data分片,对每一片数据处理返回结果(可能是无序的),然后合并。应用场景:多进程爬虫,类mapreduce任务。缺 阅读全文
posted @ 2018-05-01 22:01 change_world 阅读(12685) 评论(0) 推荐(0) 编辑
摘要: 这篇博客翻译自国外的深度学习系列文章的第四篇,想查看其他文章请点击下面的链接,人工翻译也是劳动,如果你觉得有用请打赏,转载请打赏: 在深度学习实验中经常会遇Eembedding层,然而网络上的介绍可谓是相当含糊。比如 Keras中文文档中对嵌入层 Embedding的介绍除了一句 “嵌入层将正整数( 阅读全文
posted @ 2018-04-28 14:17 change_world 阅读(28645) 评论(0) 推荐(4) 编辑
摘要: "hello world, this is Al".split("\\s+") 首先要明白split方法的参数含义: split public String[] split(String regex)根据给定的正则表达式的匹配来拆分此字符串。 然后就要明确正则表达式的含义了: \\s表示 空格,回车 阅读全文
posted @ 2018-04-23 16:50 change_world 阅读(5068) 评论(0) 推荐(0) 编辑
摘要: 数据规整化:合并、清理、过滤 pandas和python标准库提供了一整套高级、灵活的、高效的核心函数和算法将数据规整化为你想要的形式! 本篇博客主要介绍: 合并数据集:.merge()、.concat()等方法,类似于SQL或其他关系型数据库的连接操作。 合并数据集 1) merge 函数参数 1 阅读全文
posted @ 2018-04-23 15:59 change_world 阅读(7314) 评论(0) 推荐(0) 编辑
摘要: ## 机器学习中常见的损失函数 一般来说,我们在进行机器学习任务时,使用的每一个算法都有一个目标函数,算法便是对这个目标函数进行优化,特别是在分类或者回归任务中,便是使用损失函数(Loss Function)作为其目标函数,又称为代价函数(Cost Function)。 损失函数是用来评价模型的预测 阅读全文
posted @ 2018-04-20 10:16 change_world 阅读(991) 评论(0) 推荐(0) 编辑
摘要: sklearn集成方法 集成方法的目的是结合一些基于某些算法训练得到的基学习器来改进其泛化能力和鲁棒性(相对单个的基学习器而言)主流的两种做法分别是: bagging 基本思想 独立的训练一些基学习器(一般倾向于强大而复杂的模型比如完全生长的决策树),然后综合他们的预测结果,通常集成模型的效果会优于 阅读全文
posted @ 2018-04-14 09:53 change_world 阅读(995) 评论(0) 推荐(0) 编辑