随笔分类 -  数据分析

对网络理论和量化投资理论的研究建立在可靠的数据分析之上
摘要:本文在Creative Commons许可下发布 个人认为数据分析师只是一个初级的职位。往上走应该是数量关系专家。而且数量关系专家方向应该是基于个人的风险偏好的,高均值低方差就选DS,低均值高方差就选Quant。 可是必须多说一句,你做DS可以在业余时间做点中低频量化策略赚外快,做Quant就很难找 阅读全文
posted @ 2020-03-29 15:31 evilqliang 阅读(549) 评论(0) 推荐(1)
摘要:本文在Creative Commons许可证下发布 对于MATLAB,不少人的印象依然停留在学校期间学习的高级线性代数解题器的阶段,在他们看来,MATLAB只是一个高级版的计算器。最近刚好提起2013年的旧贴,带着这个疑问请教了MATLAB大神级人物,梳理了自己的观点,一并贴出来。我的疑问是:在这个 阅读全文
posted @ 2020-03-14 08:47 evilqliang 阅读(1334) 评论(1) 推荐(0)
摘要:本文在Creative Commons许可证下发布 gretl(Gnu Regression,Econometrics and Time-series Library)是一款跨平台的计量分析软件。它是开源软件,用 C 语言写成,由 Allin Cottrell 和 Riccardo “Jack” L 阅读全文
posted @ 2020-03-13 22:36 evilqliang 阅读(851) 评论(0) 推荐(0)
摘要:本文在Creative Commons许可证下发布 对于C语言来说:学好C语言和系统编程。 我认为,学好编程有四个方面:语言、算法和数据结构、系统调用和设计。 语言。我可以告诉你C语言有两大主题你要好好学,一个是内存管理,一个是指针!这个世界上90%以上的C/C++出的严重性错误全是和这两个有关。推 阅读全文
posted @ 2020-02-18 09:44 evilqliang 阅读(293) 评论(0) 推荐(0)
摘要:本文在Creative Commons许可证下发布 学习C++:实践者的方法看到标题就已经知道,如何学习C++这个问题的答案其实已经很明显了。我们所欠缺的是一个书单。 第一本 如果你是一个C++程序员,那么很大的可能性你会需要用到底层知识(硬件平台架构、缓存、指令流水线、硬件优化、内存、整数&浮点数 阅读全文
posted @ 2020-02-18 09:42 evilqliang 阅读(382) 评论(0) 推荐(0)
摘要:本文在Creative Commons许可证下发布 首先SAS可以作为一门职业 从实际的角度来说,有一个工种就叫做SAS程序员(SAS Programer, 或叫做Statistical SAS Programmer、Statistical Analyst)。在全球最大的求职网站www.monste 阅读全文
posted @ 2020-02-18 09:40 evilqliang 阅读(236) 评论(0) 推荐(0)
摘要:本文在Creative Commons许可证下发布。 Here‘s my recommendation:Technology is changing fast.Any programming language you learn does have a shelf life.But don’t us 阅读全文
posted @ 2020-02-11 10:46 evilqliang 阅读(176) 评论(0) 推荐(0)
摘要:本文在Creative Commons许可证下发布 观点一、数据科学家不是计算机科学家 首先,因为他们不需要具备计算机科学家那样完整的计算机理论知识体系;其次,数据科学家需要更好地理解随机过程、实验设计及抽样,这些通常是统计学家擅长的领域。但是,数据科学家需要熟悉计算复杂度、算法设计、分布式架构和编 阅读全文
posted @ 2020-01-09 15:12 evilqliang 阅读(226) 评论(0) 推荐(0)
摘要:本文在Creative Commons许可证下发布。 一、企业内部数据分析架构 1、商业数据分析中心的组织架构形式: 1)、技术型——隶属于IT部门 2)、虚拟型——分散在各部门,虚线汇报 3)、战略型——顶层组织、纵览全局 4)、分散型——完全分散在各部门 2、商业数据分析中心岗位角色 ①业务统计 阅读全文
posted @ 2018-01-22 16:28 evilqliang 阅读(404) 评论(0) 推荐(0)
摘要:本文在Creative Commons许可证下发布。 写此系列文的目的是探讨数据领域全栈的解决方案,借助于开源软件来摆脱传统厂商的绑架,而放眼国内的讨论也不是非常多,人云亦云的比较多。 数据科学,“Data Scientist”自2008年DJ Patial和 Jeff Hammerbacher把他 阅读全文
posted @ 2017-05-10 14:11 evilqliang 阅读(728) 评论(0) 推荐(0)
摘要:本文在Creative Commons许可证下发布 最近在钻研Oracle 11gR2,写SQL缺乏Demo表,研究他家的官方资料时发现一块甲骨文已经给我们准备Sample Schemas。比如说SCOTT Schema下有两张最广为人知的Demo表(EMP and DEPT),其实除了SCOTT这 阅读全文
posted @ 2017-04-10 12:07 evilqliang 阅读(375) 评论(0) 推荐(0)
摘要:本文在Creative Commons许可证下发布 市面上的分析工具大致分为两大类,菜单式的工具和命令行式的工具。前者适合于初学入门,类似于跟团旅游,提供了固定的路线。分析套路比较固定化,点几下鼠标就可以搞定也很省事。后者适合于老手玩家,类似于自由行,需要自己规划数据工作流,适用于自定义的灵活分析。 阅读全文
posted @ 2017-04-02 08:20 evilqliang 阅读(622) 评论(0) 推荐(0)
摘要:本文在Creative Commons许可证下发布 什么是并行计算? 并行计算,准确地说应该包括高性能计算机和并行软件两个方面。不过,近年来随着个人PC机,廉价机群,以及各种加速卡(NVIDIA GPU, Intel Xeon Phi, FPGA)的快速发展,现在个人电脑已经完全可以和过去的高性能计 阅读全文
posted @ 2017-04-02 08:18 evilqliang 阅读(666) 评论(0) 推荐(0)
摘要:本文在Creative Commons许可证下发布。 在fedora Linux上断断续续使用R语言过了9年后,发现R语言在国内用的人逐渐多了起来。由于工作原因,直到今年暑假一个赴京工作的机会与一位统计专业的人士聊天,才知道R语言的强大威力!(当然这里没有贬低SPSS, SAS,Stata的意思)。 阅读全文
posted @ 2016-12-27 14:48 evilqliang 阅读(1275) 评论(0) 推荐(0)
摘要:本文在Creative Commons许可证下发布 自由软件的问题是开发人员没有稳定的资金来源支持,可能更新上做不到持续。经过考证和圈内朋友的帮助,现在把R包中高质量、持续更新的跟大数据事业相关的R包罗列如下: 阅读全文
posted @ 2016-12-08 10:10 evilqliang 阅读(181) 评论(0) 推荐(0)
摘要:本文在Creative Commons许可证下发布 阅读须知: 安装 CentOS CentOS 7 的安装与其他 Linux 发行版的安装差不多,个别地方稍有不同。 准备工作 U 盘:容量 2GB 以上,用于制作 U 盘启动盘,因为在制作启动盘时会格式化 U 盘,所以 U 盘内不要包含重要资料 C 阅读全文
posted @ 2016-12-07 16:55 evilqliang 阅读(908) 评论(0) 推荐(0)
摘要:本文在Creative Commons许可证下发布 下文提及到的100篇参考文献(这些文献中大多都是一些开创性的研究论文),将会为你提供结构性的深度剖析,绝非泛泛而谈。我相信,这可从根 本上帮助你深度理解大数据体系组件间的细微差别。但如果你打算“走马观花”般地快速过一遍,了解大数据为何物,对不起,这 阅读全文
posted @ 2016-12-07 15:08 evilqliang 阅读(910) 评论(0) 推荐(0)
摘要:本文在Creative Commons许可证下发布 交易策略研究 R库,直接安装:xts, TTR,quantmod,RTAQ,PerformanceAnalytics,FactorAnalytics, IBrokers等R包。其他需要手动安装的包如下: 1、包:blotter 安装方法: 2、包: 阅读全文
posted @ 2016-12-07 14:46 evilqliang 阅读(485) 评论(0) 推荐(0)
摘要:本文在Creative Commons许可证下发布 思路如下: 首先需要设定一个红包金额分配机制。这里使用一个简化模型,即假设抢到红包的人分得的金额占总金额的比例(每个人对应一个比例,在这里设定为向量,且其总和为1)服从Dirichlet分布,参数为(α,α,…, α),α决定红包发放的“公平”程度 阅读全文
posted @ 2016-12-07 14:42 evilqliang 阅读(879) 评论(0) 推荐(0)
摘要:本文在Creative Commons许可证下发布 对于数据挖掘专业网站 KDnuggets网站的Poll持保留态度,但它的结果毕竟代表了某一类人群的使用偏好,尤其是在语言角度。 我们看排名前5位的语言: R:世界范围内的标准统计语言,以快速更新的算法,灵活的编程,广泛的扩展,绚丽的图形著称,遵循G 阅读全文
posted @ 2016-12-07 14:40 evilqliang 阅读(385) 评论(0) 推荐(0)