随笔分类 - 【201】数据分析实战
摘要:我们经常需要对分析的数据提取常用词,做词云展示 比如一些互联网公司会抓取用户的画像,或者每日讨论话题的关键词,形成词云并进行展示 再或者,假如你喜欢某个歌手,想了解这个歌手创作的歌曲中经常用到哪些词语,词云就是个很好的工具 最后,只需要将词云生成一张图片就可以直观地看到结果。 那么在今天的实战项目里
阅读全文
摘要:使用 Python 自动化运营微博,达成以下的 3 个学习目标: 1、掌握 Selenium 自动化测试工具,以及元素定位的方法; 2、学会编写微博自动化功能模块:加关注,写评论,发微博; 3、对微博自动化做自我总结 Selenium 自动化测试工具 当我们做 Web 自动化测试的时候,可以选用 S
阅读全文
摘要:从数据采集角度来说,都有哪些数据源呢? 这四类数据源包括了:开放数据源、爬虫抓取、传感器和日志采集 开放数据源一般是针对行业的数据库。国内,贵州做了不少大胆尝试,搭建了云平台,逐年开放了旅游、交通、商务等领域的数据量 爬虫抓取,一般是针对特定的网站或 App。如果我们想要抓取指定的网站数据,比如购物
阅读全文
摘要:Pandas 可以对数据进行导入、清洗、处理、统计和输出 在 NumPy 中数据结构是围绕 ndarray 展开的 那么在 Pandas 中的Series 和 DataFrame 这两个核心数据结构,他们分别代表着一维的序列和二维的表结构 Series 是个定长的字典序列 说是定长是因为在存储的时候
阅读全文
摘要:使用 NumPy 让你的 Python 科学计算更高效 它不仅是 Python 中使用最多的第三方库,而且还是 SciPy、Pandas 等数据科学的基础库 它所提供的数据结构比 Python 自身的“更高级、更高效” 为什么要用 NumPy 数组结构而不是 Python 本身的列表 list? 这
阅读全文
摘要:精细化运营将是长久的主题 有数据,有数据分析能力才能让用户得到更好的体验 用户画像的准则 用户唯一标识是整个用户画像的核心 它把“从用户开始使用 APP 到下单到售后整个所有的用户行为”进行串联 设计唯一标识可以从这些项中选择:用户名、注册手机号、联系人手机号、邮箱、设备号、CookieID 等 其
阅读全文
摘要:Apriori 算法 他通过分析购物篮中的商品集合,找出商品之间的关联关系 利用这种隐性关联关系,商家就可以强化这类购买行为,从而提升销售额 商业智能 BI、数据仓库 DW、数据挖掘 DM 三者之间的关系 数据仓库是个金矿,数据挖掘是炼金术,而商业报告则是黄金 数据仓库可以说是数据库的升级概念。不过
阅读全文
摘要:数据集成就是将多个数据源合并存放在一个数据存储中(如数据仓库),从而方便后续的数据挖掘工作 大数据项目中 80% 的工作都和数据集成有关,这里的数据集成有更广泛的意义,包括了数据清洗、数据抽取、数据集成和数据变换等操作 这是因为数据挖掘前,我们需要的数据往往分布在不同的数据源中,需要考虑字段表达是否
阅读全文
摘要:在数据科学领域,Python 有许多非常著名的工具库:比如科学计算工具 NumPy 和 Pandas 库,深度学习工具 Keras 和 TensorFlow,以及机器学习工具 Scikit-learn,使用率都非常高 Python 基础语法 代码缩进在 Python 中是一种语法,相同层次的代码一定
阅读全文
摘要:数据挖掘的知识清单,分别是数据挖掘的基本流程、十大算法和数学原理,以此来开启我们的学习之旅 数据挖掘的基本流程 商业理解:数据挖掘不是我们的目的,我们的目的是更好地帮助业务,所以第一步我们要从商业的角度理解项目需求 数据理解:尝试收集部分数据,然后对数据进行探索,包括数据描述、数据质量验证等。这有助
阅读全文
摘要:当我们谈论数据分析的时候,都在讲些什么呢? 数据采集。它是我们的原材料 数据挖掘。之所以要进行数据分析,就是要找到其中的规律,来指导我们的业务 数据可视化。它可以说是数据领域中万金油的技能,可以让我们直观地了解到数据分析的结果 数据采集 “八爪鱼”这个自动抓取的神器,它可以帮你抓取 99% 的页面源
阅读全文
摘要:数据分析帮我做到了微博的自动化运营 通过数据采集,我收集了每天的微博热点,然后对热点进行抓取、去广告,再让机器定时自动进行发布 同时我让账号每天都去关注明星的粉丝列表,这样可以获得 15% 的回粉概率 高效的学习方法,我把它称为MAS 方法。多角度、提问、分享 Multi-Dimension:想要掌
阅读全文

浙公网安备 33010602011771号