会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
vlj
博客园
首页
新随笔
联系
订阅
管理
1
2
3
4
5
···
7
下一页
[置顶]
《Hadoop实战》之 Streaming
摘要: 通过Unix命令使用Streaming 使用命令行方式的时候,输入数据必须为文本,并且每行被视为一个记录。若输入的格式是TextInputFormat,则流操作只会将值传递给mapper 提取第二列数据 input/output:指定输入输出目录 cut -f 2:只取第二列数据 -d ,:指定",
阅读全文
posted @ 2020-12-08 09:33 vlj
阅读(490)
评论(0)
推荐(0)
[置顶]
《机器学习实战》之一:knn(python代码)
摘要: 数据 标称型和数值型 算法 归一化处理:防止数值较大的特征对距离产生较大影响 计算欧式距离:测试样本与训练集 排序:选取前k个距离,统计频数(出现次数)最多的类别 1 def classify0(inX, dataSet, labels, k): 2 ''' 3 4 :param inX: 测试样本
阅读全文
posted @ 2019-03-12 22:29 vlj
阅读(945)
评论(0)
推荐(0)
[置顶]
pandas数据结构之DataFrame操作
摘要: 这一次我的学习笔记就不直接用官方文档的形式来写了了,而是写成类似于“知识图谱”的形式,以供日后参考。 下面是所谓“知识图谱”,有什么用呢? 1.知道有什么操作(英文可以不看) 2.展示本篇笔记的结构 3.以后忘记某个函数某个参数时,方便查询 原来写的地方是,那儿的代码看起来会舒服很多: https:
阅读全文
posted @ 2018-11-19 16:16 vlj
阅读(449)
评论(0)
推荐(0)
[置顶]
pandas数据结构之series操作
摘要: 阅读之前假定你已经有了python内置的list和dict的基础.这里内容几乎是官方文档的翻译版本. 概览: 原来的文档是在一个地方,那边的代码看起来舒服些 https://www.yuque.com/u86460/dgt6mu/bx0m4g 一个要铭记在新的基本特点是 数据对齐 要点:索引,轴
阅读全文
posted @ 2018-11-17 14:20 vlj
阅读(3052)
评论(0)
推荐(0)
[置顶]
1.1python解决数学建模之席位分配问题
摘要: 一:上代码 #比例法def rate_method(p,n): lst =[] #保存各组席位数 sum_ =sum(p) #人数和 k =0#临时变量 for i in p: lst.append(i/sum_*n) k += int(i/sum_*n) while k!=n: max_ =0 f
阅读全文
posted @ 2018-10-29 11:32 vlj
阅读(2140)
评论(0)
推荐(0)
[置顶]
python爬百度文库课件
摘要: 库:re;selenium;requests 源码: from selenium import webdriverimport reimport requests def open_img(items): for item in items: item = re.sub('&','&',it
阅读全文
posted @ 2018-09-17 15:41 vlj
阅读(503)
评论(0)
推荐(0)
2021年6月4日
机器学习题库汇总/面试题
摘要: 机器学习题库汇总、机器学习面试题、算法面试、数学面试
阅读全文
posted @ 2021-06-04 08:58 vlj
阅读(697)
评论(0)
推荐(0)
2021年1月12日
leetcode之栈:[232] 用栈实现队列
摘要: 题目 请你仅使用两个栈实现先入先出队列。队列应当支持一般队列的支持的所有操作(push、pop、peek、empty): 实现 MyQueue 类: void push(int x) 将元素 x 推到队列的末尾 int pop() 从队列的开头移除并返回元素 int peek() 返回队列开头的元素
阅读全文
posted @ 2021-01-12 22:16 vlj
阅读(79)
评论(0)
推荐(0)
2020年12月26日
eclipse tomcat配置
摘要: 直接参考 Eclipse开发JavaWeb项目配置Tomcat,详细教程 如果缺了很多东西 缺了server:eclipse中添加server插件 安装JST Server Adapters 安装JST Server AdaptersExtensions 如果安装的时候卡住了:取消勾选Contact
阅读全文
posted @ 2020-12-26 16:35 vlj
阅读(104)
评论(0)
推荐(0)
2020年12月18日
数据挖掘之特征选择(sklearn)
摘要: 特征选择
阅读全文
posted @ 2020-12-18 22:17 vlj
阅读(139)
评论(0)
推荐(0)
数据挖掘之交叉验证(sklearn)
摘要: 使用sklearn进行交叉验证 GroupKFold-小记
阅读全文
posted @ 2020-12-18 22:16 vlj
阅读(261)
评论(0)
推荐(0)
2020年12月16日
pytorch实现CCN之VGG16简化版的DogsVsCats分类(kaggle)
摘要: 需求 实现猫狗图像二分类,数据描述如下 这个数据集的训练数据集中一共有25000张猫和狗的图片,其中猫、狗各12500张。在测试数据集中有12500张图片,其中猫、狗图片无序混杂,且无对应的标签。 官方网站:https://www.kaggle.com/c/dogs-vs-cats-redux-ke
阅读全文
posted @ 2020-12-16 00:29 vlj
阅读(1788)
评论(0)
推荐(0)
2020年12月8日
《Hadoop实战》之联结不同来源的数据
摘要: Reduce端的联结 reduce端联结,又称repartitioned join(重分区联结)或者reparationed sort-merge join(重分区排序-合并联结) reduce侧联结的主要问题是,混洗阶段消耗过大。 先看几个术语与概念 data source:数据源(类似MySql
阅读全文
posted @ 2020-12-08 20:25 vlj
阅读(163)
评论(0)
推荐(0)
《Hadoop实战》之链接多个MapReduce作业
摘要: 顺序链接MapReduce作业 形如:mapreduce-1 | mapreduce-2 | mapreduce-3 在run函数中,继续写新的job,再通过JobClient.runJob()进行调用 @Override public int run(String[] args) throws E
阅读全文
posted @ 2020-12-08 11:57 vlj
阅读(212)
评论(0)
推荐(0)
《Hadoop实战》之Combiner
摘要: 为何使用combiner 减少洗牌的键值对数量 缓解数据倾斜问题 combiner的设计 combiner在数据转换上必须与reducer等价 若Reducer仅处理分配型函数(最大值/最小值/求和/计数),可以使用reducer为combiner 其他:自己设计combiner和reducer 求
阅读全文
posted @ 2020-12-08 10:26 vlj
阅读(138)
评论(0)
推荐(0)
1
2
3
4
5
···
7
下一页
公告