随笔分类 -  数据科学

摘要:PowerQuery的合并查询比Excel中的VLOOKUP更加强大,下面对查询的类型做一个梳理, 1、左外部(第一个中的所有行,第二个中的匹配行):用左边表内的所有行去右边找它的匹配项 2、右外部(第二个中的所有行,第一个中的匹配行):用右边表内的所有行去左边找它的匹配项 3、完全外部(两者中的所 阅读全文
posted @ 2020-12-16 20:28 PurStar 阅读(1858) 评论(0) 推荐(0)
摘要:数据分析中excel是一个常见且基础的数据分析工具,要想掌握好它,学会使用其中的常用函数是一个绕不过去的坎。从网上搜集的资料来说,基本上确定了数据分析中Excel的常用函数有以下这六类 数学函数:SUM, SUMIF, SUMIFS, RAND, RANDBETWEEN, ROUND, ABS; 查 阅读全文
posted @ 2020-12-16 12:58 PurStar 阅读(798) 评论(0) 推荐(0)
摘要:在做本篇介绍之前,有以下几个方向需要做一个界定,这些界定是做本篇的前提:该项目流程是面向业务层的,直接通过模型做代码优化或者以BI技术为方向的不同;该项目的领导者是具有一定能力的数据分析师,需要具备业务常识、数据理解能力和专项分析挖掘能力,说白了,能接受问题并且能解决问题;该项目是以业务落地为导向的 阅读全文
posted @ 2020-12-15 22:07 PurStar 阅读(715) 评论(0) 推荐(0)
摘要:针对不同的应用,我们采集到的数据类型丰富多样,包括表格数据、HTML网页文件、XML文件、RDF(Resource Description Framework,资源描述框架)数据、文本数据、图(社交网络)数据、多媒体数据(音频/视频/图像)等。这些数据可以划分成结构化数据、非结构化数据和半结构化数据 阅读全文
posted @ 2020-12-15 15:28 PurStar 阅读(17834) 评论(0) 推荐(2)
摘要:1.Microsoft Excel 2.后羿采集器 后羿采集器_真免费!导出无限制网络爬虫软件_人工智能数据采集软件 http://www.houyicaiji.com/ 3.火车采集器 火车采集器官网-网页抓取工具_火车头采集器_免费网站采集软件http://www.locoy.com/ 4.八爪 阅读全文
posted @ 2020-12-15 11:07 PurStar 阅读(1867) 评论(0) 推荐(1)
摘要:随着数据分析工具的不断更新,我们所熟知的Excel可能已经不是你想象中的样子了。 Excel和Power BI又有何千丝万缕的联系? M语言和DAX语言又是什么样的存在? 操作他们又需要掌握什么样的技能? 通过我的讲解,从此你将发现一扇通往新世界的大门,开启你新的人生,让我们启航吧! 为方便书写,以 阅读全文
posted @ 2020-12-15 00:36 PurStar 阅读(2540) 评论(0) 推荐(0)
摘要:作者的原文地址如下: https://mp.weixin.qq.com/s?__biz=MzI4NTA1MDEwNg==&mid=2650769273&idx=1&sn=195b25c91f476aba7b7c6cbf1c902f2e&chksm=f3f932ecc48ebbfa7cf8742ede 阅读全文
posted @ 2020-12-15 00:25 PurStar 阅读(3308) 评论(0) 推荐(0)
摘要:鼠标左键拖拽填充或者双击填充 右键拖拽填充: 可以填充等比数列、工作日等等 数据验证: 通过下拉箭头快速选择数据: 选择单元格区域-【数据】-【数据验证】-序列 数据科学交流群,群号:189158789 ,欢迎各位对数据科学感兴趣的小伙伴的加入! 阅读全文
posted @ 2020-12-11 02:50 PurStar 阅读(1010) 评论(0) 推荐(0)
摘要:一、粘贴为数值。 这个功能是选择性粘贴中最常用的功能。因为excel主要功能之一就是用来做数据分析,把其他格式粘贴为数据格式才能进行数据运算,把带有公式的计算结果粘贴为数值格式可以使复制后的内容不会变化。把E列直接粘贴到F列数据会发生变化,因为存在公式。而把E列粘贴为值就不会改变原有的数据。 二、转 阅读全文
posted @ 2020-12-11 02:33 PurStar 阅读(855) 评论(0) 推荐(0)
摘要:数据科学交流群,群号:189158789 ,欢迎各位对数据科学感兴趣的小伙伴的加入! 阅读全文
posted @ 2020-12-11 02:19 PurStar 阅读(184) 评论(0) 推荐(0)
摘要:常用快捷键 【Ctrl+N】 新建空白工作簿 【Ctrl+O】 打开 【Ctrl+S】 保存 【Ctrl+P】 打印 【Ctrl+C/V】 复制或粘贴 【Ctrl+F/H】 查找或替换 【Ctrl+A】 全选或弹出函数参数窗口(输入函数,快捷键弹出函数窗口) 【Ctrl+X】 剪切 【Ctrl+Z】 阅读全文
posted @ 2020-12-11 00:46 PurStar 阅读(2020) 评论(0) 推荐(0)
摘要:常用数据类型: 常规: 常规单元榴格式不包含慑拍H靛的数字格式. 数值: 可以设置小数位数,是否使用千位分割符,以及负数样式 货币: 可以设置小数位数,货币符号,以及负数样式 会计专用: 可以设置小数位数和货币符号 日期: 可以设置不同地区各种类型样式的日期 时间: 可以设置不同地区各种类型样式的时 阅读全文
posted @ 2020-12-11 00:33 PurStar 阅读(1908) 评论(0) 推荐(0)
摘要:数据科学比赛项目常见的网站汇总 阅读全文
posted @ 2020-12-06 17:24 PurStar 阅读(535) 评论(0) 推荐(0)
摘要:1、格式.xlsx:excel2007-2016版默认的文件格式,不能有宏; 2、格式.xls:excel97-2003版,可以有宏; 3、格式.csv:以逗号分隔的文本文件,便于兼容其他程序,只保存活动工作表。 数据科学交流群,QQ群号是:189158789 阅读全文
posted @ 2020-12-01 10:53 PurStar 阅读(7941) 评论(0) 推荐(0)
摘要:一个工作簿可以装下255张,那么每张工作表可以装下多少行多少列数据呢? 1.任意打开或新建一个Excel文档。 2.在文档中,找到其左上角的“文件”按钮,点击选择“选项”在弹出的“Excel选项”的窗口中,找到“公式”一“R1C1引用样式”前打“√”,并确认。 3.接着我们把鼠标光标放在A1单元格上 阅读全文
posted @ 2020-12-01 10:14 PurStar 阅读(3239) 评论(0) 推荐(0)
摘要:前言: 停滞了一段时间,现在要沉下心来学习点东西,出点货了。 本文没有JavaJDK ScalaSDK和 IDEA的安装过程,网络上会有很多文章介绍这个内容,因此这里就不再赘述。 一、在IDEA上安装Scala插件 首先打开IDEA,进入最初的窗口,选择Configure -——>Plugins 然 阅读全文
posted @ 2017-12-15 17:29 PurStar 阅读(11510) 评论(0) 推荐(0)
摘要:0.简介 TopN算法是一个经典的算法,由于每个map都只是实现了本地的TopN算法,而假设map有M个,在归约的阶段只有M x N个,这个结果是可以接受的并不会造成性能瓶颈。 这个TopN算法在map阶段将使用TreeMap来实现排序,以到达可伸缩的目的。 当然算法有两种,一种是唯一键,就是说ke 阅读全文
posted @ 2017-01-21 12:36 PurStar 阅读(3014) 评论(0) 推荐(0)
摘要:0.序 默认情况下,Zeppelin安装好并且配置完zeppelin-site.xml和zeppelin-env.sh后,我们进入的模式,从右上角就能看出来是anonymous模式,这种模式下会看见所有的notebook,这种情况下,如果是多个人在使用的很方便和安全。 这篇就是对zeppelin的一 阅读全文
posted @ 2017-01-20 11:45 PurStar 阅读(1175) 评论(0) 推荐(0)
摘要:0.序 说实在的这个功能太赞了 在一开始接触的时候不知道有这个功能,我尝试做一下配置,发现非常的棒。 棒的原因有两点: 可以在随时随地有互联网的地方访问自己的ZeppelinHub来查看ZeppelinNoteBook,这个Notebook上的内容是与你服务器上的同步的,如果的你的notebook设 阅读全文
posted @ 2017-01-19 16:01 PurStar 阅读(2212) 评论(0) 推荐(0)
摘要:0.序 先吐槽一下网上旧版本的Zeppelin和R的安装,让我折腾了几个小时。 不过最终还是调通了也不容易,其实我现在一点R都没有学呢,只是刚看了一节课,但是这个工具既然出现在了Spark中,我想它还是蛮流行和好用的。 之前配置了Zeppelin的Spark的结合,但是那没有配置R的部分,但是Zep 阅读全文
posted @ 2017-01-18 20:26 PurStar 阅读(694) 评论(0) 推荐(0)