随笔分类 - 数据科学
摘要:数据科学交流群,QQ群号:189158789 ,欢迎各位对数据科学感兴趣的小伙伴的加入! 此文章的目的旨在统一各种分析过程中的术语以及流程,并试图构建更为完整、更为详尽的处理流程,针对不同场景下不同规模的数据集,此框架应该根据实际情况进行适当的裁剪!!! 注意:此版本只是一个粗糙的版本,随着学习的深
阅读全文
摘要:数据科学交流群,QQ群号:189158789 ,欢迎各位对数据科学感兴趣的小伙伴的加入! 数据科学交流群,QQ群号:189158789 ,欢迎各位对数据科学感兴趣的小伙伴的加入!
阅读全文
摘要:数据科学交流群,QQ群号:189158789 ,欢迎各位对数据科学感兴趣的小伙伴的加入! 一、企业数据化管理方向(偏商业) 1.具体部门级别的分析,比如财务分析、业务分析、人力资源管理分析、……2.总体企业级别的分析,比如企业综合经营分析、商业智能报表、…… 二、数据相关产业的方向(偏技术) 1.有
阅读全文
摘要:数据科学交流群,群号:189158789 ,欢迎各位对数据科学感兴趣的小伙伴的加入! 解决办法: 首先要确定你安装和配置nbextensions时有没有加--user,如果当时没加这里就不用加,否则不一致的结果就是会报新的错误,因为配置文件生成了两份,还得根据提示路径删除其中的一份: 有--user
阅读全文
摘要:数据科学交流群,群号:189158789 ,欢迎各位对数据科学感兴趣的小伙伴的加入! 1.切换国内源 1.1.在家目录生成.condarc conda config --set show_channel_urls yes 1.2.修改.condarc文件 show_channel_urls: tru
阅读全文
摘要:数据科学交流群,群号:189158789 ,欢迎各位对数据科学感兴趣的小伙伴的加入! 一、安装unar软件包: Linux(Debian系列): apt install unarLinux(RedHat系列): yum install unarMacOS: brew install unar 二、使
阅读全文
摘要:数据科学交流群,群号:189158789 ,欢迎各位对数据科学感兴趣的小伙伴的加入! 1.Excel Excel 处理的单表最大数据量为1048576行和16384列。一般来说处理规模在100万行以下的数据较为合适。 2.PowerBI PowerBI Desktop一般处理的数据在1G左右再往上就
阅读全文
摘要:数据科学交流群,群号:189158789 ,欢迎各位对数据科学感兴趣的小伙伴的加入! 实际上Excel中根本没有MEDIANIFS,但我们可以通过一些方式进行实现: 比如如下图的需求,需要求这一列中,10到20的中位数: 答案: 输入:=MEDIAN(IF((C23:C34>=10)*(C23:C3
阅读全文
摘要:数据科学交流群,群号:189158789 ,欢迎各位对数据科学感兴趣的小伙伴的加入! 上代码: 1 import builtins 2 num = len(dir(builtins)) 3 print("此版本Python拥有"+str(num)+"个函数:") 4 j = 0 5 for i in
阅读全文
摘要:数据科学交流群,群号:189158789 ,欢迎各位对数据科学感兴趣的小伙伴的加入! =TEXT(INT(I18/100)*1000,"0!.00,万") 将I18替换成你要转化的单元格 数据科学交流群,群号:189158789 ,欢迎各位对数据科学感兴趣的小伙伴的加入!
阅读全文
摘要:数据科学交流群,群号:189158789 ,欢迎各位对数据科学感兴趣的小伙伴的加入! 目录 01 网络公开数据集02 数据报采集03 网络爬虫04 日志收集05 社会调查06 业务数据集07 埋点采集08 传感器采集09 数据交易平台10 个人数据收集 00 基本概念 数据集,又称为资料集、数据集合
阅读全文
摘要:一、数据化管理 定义 数据化管理是指将业务工作通过完善的基础统计报表体系、数据分析体系进行明确计量、科学分析、精准定性,以数据报表的形式进行记录、查询、汇报、公示及存储的过程,是现代企业管理方法之一。数据化管理的目标在于为管理者提供真实有效的科学决策依据,宣导与时俱进的充分利用信息技术资源,促进企业
阅读全文
摘要:目录 CRISP-DM方法 SEMMA方法 DMAIC方法 AOSP-SM模型 5A模型 数据挖掘与分析的“七步法” 一、CRISP-DM方法(最流行) CRISP-DM - Data Science Project Managementhttps://www.datascience-pm.com/
阅读全文
摘要:方案一、在PowerPivot中,将其中一张表复制多份,分别与另一张表做链接。 方案二、在PowerQuery中,做多次合并查询,把所有数据集中在一张表中,方便后面的数据分析。 思考:不仅仅是在PowerBI中可能会遇到问题,其他工具在处理表格数据也有可能会遇到这个问题! 数据科学交流群,群号:18
阅读全文
摘要:目录 一、基础软件:Excel、SQL 二、BI软件: ①传统BI软件:SAP BO、IBM Cognos、Oracle BIEE ②敏捷BI软件:Tableau、Power BI、FineBI 三、统计分析软件:MATLAB、SPSS、Stata、SAS、EViews 四、数据分析编程语言:Pyt
阅读全文
摘要:批处理 新到达的数据元素被收集到一个组中。整个组在未来的时间进行处理,批量处理一定时间段,一定数量或者一定大小的数据组。 历史上,绝大多数数据处理技术都是为批处理而设计的。传统的数据仓库和Hadoop是专注于批处理的系统的两个常见示例。 数据先保存起来,然后分析(全量数据),批处理有延迟性,响应时间
阅读全文
摘要:数据科学是利用科学方法、流程、算法和系统从数据中提取价值的跨学科领域。数据科学家综合利用一系列技能(包括统计学、计算机科学和业务知识)来分析从网络、智能手机、客户、传感器和其他来源收集的数据。 数据科学揭示趋势并产生见解,企业可以利用这些见解做出更好的决策并推出更多创新产品和服务。数据是创新的基石,
阅读全文
摘要:一、Mahout系统 Apache Mahout 官网地址http://mahout.apache.org/ Apache Mahout(TM)是一个分布式线性代数框架,具有数学表达力的Scala DSL,旨在让数学家,统计学家和数据科学家快速实现自己的算法。建议使用Apache Spark开箱即用
阅读全文
摘要:Excel 帮助和学习 - Microsoft 支持https://support.microsoft.com/zh-cn/excel Power Query M 公式语言引用 - PowerQuery M | Microsoft Docshttps://docs.microsoft.com/zh-
阅读全文
摘要:目录 一、数据服务 二、OLTP与OLAP OLTP OLAP 区别 三、不同数据库技术(SQL、NoSQL、NewSQL)的对比 SQL NoSQL NewSQL 一、数据服务 数据服务(Data Serving)指的是面向各种操作型业务,提供数据的增加、删除、修改以及简单的查询功能。提供数据服务
阅读全文

浙公网安备 33010602011771号