05 2018 档案

摘要:一、关系运算: 1. 等值比较: = 语法:A=B 操作类型:所有基本类型 描述:如果表达式A与表达式B相等,则为TRUE;否则为FALSE 举例: hive>select 1 from lxw_dual where 1=1; 1 2. 不等值比较: <> 语法: A <> B 操作类型:所有基本类 阅读全文
posted @ 2018-05-30 12:33 change_world 阅读(404) 评论(0) 推荐(0)
摘要:在sklearn中的sklearn.feature_extraction.text.Countvectorizer()或者是sklearn.feature_extraction.text.TfidfVectorizer()中其在进行却分token的时候,会默认把长度<2的字符抛弃,例如下面的例子: 阅读全文
posted @ 2018-05-13 20:41 change_world 阅读(890) 评论(0) 推荐(0)
摘要:http://blog.csdn.net/pipisorry/article/details/39508417 随机数种子 RandomState RandomState exposes a number of methods for generating random numbersdrawn f 阅读全文
posted @ 2018-05-12 19:04 change_world 阅读(3159) 评论(1) 推荐(0)
摘要:https://blog.csdn.net/han_xiaoyang/article/details/52665396 转: 原文地址:Complete Guide to Parameter Tuning in XGBoost by Aarshay Jain 原文翻译与校对:@MOLLY && 寒小 阅读全文
posted @ 2018-05-10 19:36 change_world 阅读(866) 评论(1) 推荐(0)
摘要:XGBoost Article The data here is taken form the Data Hackathon3.x - http://datahack.analyticsvidhya.com/contest/data-hackathon-3x XGBoost Article The 阅读全文
posted @ 2018-05-10 19:18 change_world 阅读(624) 评论(0) 推荐(0)
摘要:转自:https://www.zhihu.com/question/41354392 作者:wepon链接:https://www.zhihu.com/question/41354392/answer/98658997来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 最 阅读全文
posted @ 2018-05-10 09:53 change_world 阅读(17988) 评论(0) 推荐(0)
摘要:转载:https://blog.csdn.net/lilyth_lilyth/article/details/48032119 1、 背景 CTR预估(Click-Through Rate Prediction)是互联网计算广告中的关键环节,预估准确性直接影响公司广告收入。CTR预估中用的最多的模型 阅读全文
posted @ 2018-05-09 18:43 change_world 阅读(344) 评论(0) 推荐(0)
摘要:转载一篇,最原始的出处已不可考,望见谅! CPU占用率查看命令:top 图中红色部分即为占用百分率,下面是每个进程的CPU占用率,如果服务器是多核CPU可能在下方看到有些进程CPU占用超过100%,这种一般是该进程使用了多核。 内存占用率:free -m图中红色部分即为占用,即used、free即为 阅读全文
posted @ 2018-05-09 16:59 change_world 阅读(581) 评论(0) 推荐(0)
摘要:离散特征编码分两种,特征具有大小意义,特征不具有大小意义。 1、特征不具备大小意义的直接独热编码 2、特征有大小意义的采用映射编码 [python] view plain copy import pandas as pd df = pd.DataFrame([ ['green', 'M', 10.1 阅读全文
posted @ 2018-05-08 22:55 change_world 阅读(1726) 评论(0) 推荐(0)
摘要:转自:https://blog.csdn.net/cymy001/article/details/79169862 特征生成 特征工程中引入的新特征,需要验证它确实能提高预测得准确度,而不是加入一个无用的特征增加算法运算的复杂度。 1. 时间戳处理 时间戳属性通常需要分离成多个维度比如年、月、日、小 阅读全文
posted @ 2018-05-07 09:48 change_world 阅读(905) 评论(0) 推荐(0)
摘要:参数: n : int 数据集中的元素总数。 n_iter : int (default 10) 重新洗牌和分裂迭代次数。 test_size : float (default 0.1), int, or None 如果是float类型的数据, 这个数应该介于0-1.0之间,代表test集所占比例. 阅读全文
posted @ 2018-05-06 19:24 change_world 阅读(3743) 评论(1) 推荐(0)
摘要:1- 什么是 Multiprocessing 和 threading 的比较 多进程 Multiprocessing 和多线程 threading 类似, 他们都是在 python 中用来并行运算的. 不过既然有了 threading, 为什么 Python 还要出一个 multiprocessin 阅读全文
posted @ 2018-05-01 22:32 change_world 阅读(238) 评论(0) 推荐(0)
摘要:#add_thread # View more python learning tutorial on my Youtube and Youku channel!!! # Youtube video tutorial: https://www.youtube.com/channel/UCdyjiB5H8Pu7aDTNVXTTpcg # Youku video tutorial: http://... 阅读全文
posted @ 2018-05-01 22:13 change_world 阅读(315) 评论(0) 推荐(0)
摘要:转自:https://blog.csdn.net/bryan__/article/details/78786648 数据分片:可以将数据分片处理的任务适合用多进程代码处理,核心思路是将data分片,对每一片数据处理返回结果(可能是无序的),然后合并。应用场景:多进程爬虫,类mapreduce任务。缺 阅读全文
posted @ 2018-05-01 22:01 change_world 阅读(12804) 评论(0) 推荐(0)