摘要: sklearn使用技巧 sklearn上面对自己api的解释已经做的淋漓尽致,但对于只需要短时间入手的同学来说,还是比较复杂的,下面将会列举sklearn的使用技巧。 预处理 主要在sklearn.preprcessing包下。 规范化: MinMaxScaler :最大最小值规范化 Normali 阅读全文
posted @ 2019-07-19 21:11 Timcode 阅读(1789) 评论(0) 推荐(0) 编辑
摘要: Adaptive Boosting是一种迭代算法。每轮迭代中会在训练集上产生一个新的学习器,然后使用该学习器对所有样本进行预测,以评估每个样本的重要性(Informative)。换句话来讲就是,算法会为每个样本赋予一个权重,每次用训练好的学习器标注/预测各个样本,如果某个样本点被预测的越正确,则将其 阅读全文
posted @ 2019-07-19 18:36 Timcode 阅读(712) 评论(0) 推荐(1) 编辑
摘要: C4.5和ID3的差别 决策树分为两大类:分类树和回归树,前者用于分类标签值,后者用于预测连续值,常用算法有ID3、C4.5、CART等。 信息熵 信息量: 信息熵: 信息增益 当计算出各个特征属性的量化纯度值后使用信息增益度来选择出当前数据集的分割特征属性;如果信息增益度的值越大,表示在该特征属性 阅读全文
posted @ 2019-07-19 10:30 Timcode 阅读(4967) 评论(0) 推荐(0) 编辑
摘要: 通过学习贝叶斯(https://www.cnblogs.com/TimVerion/p/11197043.html)解决案例: 过滤网站的恶意留言 阅读全文
posted @ 2019-07-19 08:18 Timcode 阅读(330) 评论(0) 推荐(0) 编辑
摘要: sklearn中boston数据集 波士顿房价数据集包含506组数据,每条数据包含房屋以及房屋周围的详细信息。其中包含城镇犯罪率、一氧化氮浓度、住宅平均房间数、到中心区域的加权距离以及自住房平均房价等。因此,波士顿房价数据集能够应用到回归问题上。 要求:用正则化的线性回归算法(ridge)去拟合数据 阅读全文
posted @ 2019-07-19 08:14 Timcode 阅读(423) 评论(0) 推荐(0) 编辑
摘要: 搜房网--是房地产家居网络平台,提供及时的房地产新闻资讯内容,为楼盘提供网上浏览、业主论坛和社区网站,房地产精英人物个人主页,是国内房地产媒体及业内外网友公认的房地产网络平台,搜房网引擎给网友提供房地产网站中速度快捷内容全面的智能搜索。 现有以下ftx.xls数据表,包括了从2009年1月到2010 阅读全文
posted @ 2019-07-19 08:07 Timcode 阅读(255) 评论(0) 推荐(0) 编辑
摘要: Spark 目的:达到能在pycharm中测试 1.安装必要的文件: JDK AnaConda spark hadoop jdk测试:java -version Anaconda测试: 打开Anaconda Prompt输入conda list spark测试(注意spark的安装路径不能有空格): 阅读全文
posted @ 2019-07-19 07:52 Timcode 阅读(282) 评论(0) 推荐(0) 编辑