随笔分类 - 原创
摘要:1. 算法(数学)原理重要不重要? 不重要。因为不懂数学,你也可以把数据扔进Sas,选择一个名字看起来有逼格的算法,然后CPU煎个鸡蛋,结果就出来了,还能配上不明觉厉的图形化结果。更有逼格的,网上搜一下'R/Python xxxx算法 代码',再吃个煎鸡蛋,结果也出来了。塞到TableAU搞一下,打
阅读全文
摘要:安装hadoop的步骤比较繁琐,但是并不难。 在CentOS上安装Hadoop2.7 1. 安装 CentOS,注:图形界面并无必要 2. 在CentOS里设置静态IP,手工编辑如下4个文件 /etc/hosts /etc/sysconfig/netwok /etc/hostname /etc/sy
阅读全文
摘要:PCA(Principal Component Analysis)是一种常用的数据分析方法。PCA通过线性变换将原始数据变换为一组各维度线性无关的表示,可用于提取数据的主要特征分量,常用于高维数据的降维。 在Scikit中运用PCA很简单: 以上代码是将含有4个特征的数据经过PCA压缩为3个特征。P
阅读全文
摘要:1. 可通过其他属性推断一些缺失值: 缺失值可以简单粗暴的用中位数,均值,0/空值填充确保算法可以走完,然而通过统计、推断、预测得出的填充值效果会比较好。 某些只卖给单一性别的产品,譬如生育险,可以推断出被保人必然是女性; 费率可以推测被保人的性别,年龄 一般来说,吸烟者都会在系统中有标识,所以没有
阅读全文
摘要:注: 出于职业要求, 本文中所有数字均被人为修改过, 并非真实数字, 很抱歉也不能贴出源代码 目标: 个险客户特征分析 建模过程: 输入: 从现有上千万的客户信息抽取其个人信息, 清洗后留下100多个特征, 包括婚姻, 年龄, 收入, 身高体重, 职业风险度, 居住区等. 用现有产品的类别作为分类信
阅读全文
摘要:故事从一条小学数学题说起 "爸爸,熊猫为什么是3个不是11个" "宝贝,你还没学二进制好吗....." 以上故事纯属虚构,真实的对话其实是这样的 "爸爸, 为什么3比4小" "宝贝,数一下就知道啦。你看猪猪有1,2,3. 3个, 小鸟有1,2,3,4. 4个. 你看小鸟是不是比猪猪多? 所以3比4小
阅读全文
摘要:网上搜了一遍, 大多数是因为分号( ; ) 的问题. 而我的sql文件是没有分号的, 最后发现是sql文件编码和服务器字符集的差异造成 sql文件怎么都看不出问题,直到在UltraEdit里切换到16进制模式下才发现有些怪字符, 文件编码是UTF-8 然而服务器的字符集是TH8TISASCII se
阅读全文
摘要:在<<足球游戏论坛数据分析--简单粗暴的贝叶斯>>中尝试了贴标签后,一直觉得结果无法接受, 慢慢回想, 其实选择的算法是错误的,原因有 论坛帖子分类并非就是PC/PS/XBOX这么简单 即使是作者自己贴的标签,也存在挂羊头的可能性 既然没法简单的给帖子分类,那么就尝试一下聚类算法看看有没有发现: #
阅读全文
摘要:最简单的办法 下载'20news-bydate.pkz', 放到C:\\Users\[Current user]\scikit_learn_data 下边就行. 实际上 scikit learning默认的路径是C:\\Users\[Current user]\scikit_learn_data 也
阅读全文
摘要:前些日子入了PS4的某著名游戏2017, 寻小妖刷ML中. 不得不说刚开始的时候,涛哥坤哥的解说感觉颇为带感. 一个月后...还是关音量吧,解说词太贫乏了 在寻小妖的过程中, 突发奇想看看某著名论坛的数据有没有什么特别的地方,于是scrapy走起... 被服务器ban了几次后, 扒拉下来2w多主贴,
阅读全文
摘要:SKlearning大部分的输入数据都是M * N数组. 然而我们从数据库或文件读取得来的通常是Python内定的类型tuple或list 它们的优势就不说了,但是直接把list或tuple构成的二维数组传入scikit是会出问题的. 如: 下面贴上如何把list/tuple转为scikit使用的a
阅读全文
摘要:错误信息:C:\Python27\lib\site-packages\sklearn\utils\validation.py:395: DeprecationWarning: Passing 1d arrays as data is deprecated in 0.17 and will raise
阅读全文

浙公网安备 33010602011771号