2021年7月8日
摘要: 目前阿里国际站旺铺的产品越来越多,竞争越来越激烈, 1. 我们自己的产品在平台上面的排名情况到底如何呢? 2. 别人为何能够有200个/月甚至更多的询盘呢? 3. 我们的行业关键词是否都覆盖了呢? 4. 哪些关键词客户的搜索热度更高,同时我们自己排名是否上到第一页了呢? 5. 我们上传的产品里是否关 阅读全文
posted @ 2021-07-08 20:03 BabyGo000 阅读(1755) 评论(0) 推荐(0)
摘要: 数据包概述 下图是笔者我实际中用Wireshark 抓到的HTTP的完整数据包,现分析如下: 网络接口层(物理层和数据链路层) | IP头(网络层) | TCP头(传输层) | HTTP协议+data(应用层) | | | 1. 在链路层 由以太网的物理特性决定了数据帧的长度为[46+18]-[15 阅读全文
posted @ 2021-07-08 20:02 BabyGo000 阅读(1264) 评论(0) 推荐(0)
摘要: import pandas as pd import sklearn file = pd.read_table('http://archive.ics.uci.edu/ml/machine-learning-databases/adult/adult.data', sep=',', names=[' 阅读全文
posted @ 2021-07-08 20:00 BabyGo000 阅读(231) 评论(0) 推荐(0)
摘要: 背景 Superset 是 Airbnb 开源的数据分析与可视化平台,同时也是由 Python 语言构建的轻量级 BI 系统。Superset 可实现对 TB 量级数据进行处理,兼容常见的数十种关系或非关系型数据库,并在内部实现 SQL 编辑查询等操作。除此之外,基于 Web 服务的 Superse 阅读全文
posted @ 2021-07-08 19:59 BabyGo000 阅读(740) 评论(0) 推荐(0)
摘要: Superset 数据分析平台搭建 一、实验介绍 1.1 实验内容 Superset 是 Airbnb 开源的数据分析与可视化平台,同时也是由 Python 语言构建的轻量级 BI 系统。Superset 可实现对 TB 量级数据进行处理,兼容常见的数十种关系或非关系型数据库,并在内部实现 SQL 阅读全文
posted @ 2021-07-08 19:58 BabyGo000 阅读(622) 评论(0) 推荐(0)
摘要: 一、面板数据与模型 1.面板数据分类 (1)短面板(N>T)和长面板(N<T) (2)动态面板(解释变量包含被解释变量的滞后值)和静态面板 (3)平衡面板(每个个体在相同的时间内都有观测值)和非平衡面板 2.面板数据模型 (1)非观测效应模型(存在不可观测的个体效应模型) 固体效应模型(fixed 阅读全文
posted @ 2021-07-08 19:57 BabyGo000 阅读(5049) 评论(0) 推荐(0)
摘要: 最近在学习STATA做分析的时候,发现这个软件很多功能很强大,但是背后的统计学知识要求也比较高,作为一边深入学习统计知识一遍用软件的小白,好多东西只是知其然不知其所以然,因此尝试自己把STATA的一些运算分解出来。因此这里记录一下学习内容。 在做STATA的主成分分析和因子分析的时候,觉得这两个东西 阅读全文
posted @ 2021-07-08 19:56 BabyGo000 阅读(1529) 评论(0) 推荐(0)
摘要: 总结最近数据分析过程中遇到的一些问题的思考 1.问卷中多选题的录入与分析 2.数据分析流程的第一步:对所分析的样本数据本身的特征结构进行预分析 3.根据数据中的某个因素的几个水平来分析数据总体的差异性。 4.根据数据中的变量之间的相关性,了解数据的内部关系,并建立模型。 5.数据的降维处理。 6.结 阅读全文
posted @ 2021-07-08 19:55 BabyGo000 阅读(2887) 评论(0) 推荐(0)
摘要: 目录 1、数据采集 2、数据是否服从正态分布 3、T检验(T Test) 4、方差分析(ANOVA) 5、卡方检验(Chi-square Test) 6、灰色关联度分析(Grey Relation Analysis,GRA) 7、弗里德曼检验(Friedman Test) 8、箱图(Box) 1、数 阅读全文
posted @ 2021-07-08 19:54 BabyGo000 阅读(4590) 评论(0) 推荐(0)
摘要: index="apachedata" sourcetype="access_combined_wcookie" "action=purchase" |top 3 productId[/code] ![图片](http://image.3001.net/images/20161214/14817251 阅读全文
posted @ 2021-07-08 19:51 BabyGo000 阅读(399) 评论(0) 推荐(0)
摘要: **package** mllib.tree **import** org.apache.log4j.{Level, Logger} **import** org.apache.spark.mllib.evaluation.MulticlassMetrics **import** org.apach 阅读全文
posted @ 2021-07-08 19:25 BabyGo000 阅读(319) 评论(0) 推荐(0)
摘要: Spark Streaming编程初级实践 一、安装Hadoop和Spark 具体的安装过程在我以前的博客里面有,大家可以通过以下链接进入操作: Hadoop的安装:https://blog.csdn.net/weixin_47580081/article/details/108647420 Sca 阅读全文
posted @ 2021-07-08 19:24 BabyGo000 阅读(1619) 评论(0) 推荐(0)
摘要: Spark大数据分析与实战:RDD编程初级实践 一、安装Hadoop和Spark 具体的安装过程在我以前的博客里面有,大家可以通过以下链接进入操作: Hadoop的安装:https://blog.csdn.net/weixin_47580081/article/details/108647420 S 阅读全文
posted @ 2021-07-08 19:23 BabyGo000 阅读(582) 评论(0) 推荐(0)
摘要: 去年网上曾放出个2000W的开房记录的数据库, 不知真假。 最近在学习Spark, 所以特意从网上找来数据测试一下, 这是一个绝佳的大数据素材。 如果数据涉及到个人隐私,请尽快删除, 本站不提供此类数据。你可以写个随机程序生成2000W的测试数据, 以CSV格式。 Spark是UC Berkeley 阅读全文
posted @ 2021-07-08 19:22 BabyGo000 阅读(291) 评论(0) 推荐(0)
摘要: 做SEM的我们都知道,百度凤巢系统的后台其实功能很强大,有几大数据报告报表十分的有用,可以帮助我们更好的进行优化账户工作,也为我们优化操作提供了强有力的依据。 像搜索词报告、无效点击报告、地域报告、高级样式报告都是SEM数据分析的一个重要依据,那么今天我们就来讲讲其中的关键词报告。 对于数据分析中, 阅读全文
posted @ 2021-07-08 19:21 BabyGo000 阅读(305) 评论(0) 推荐(0)
摘要: <span style="font-family: Arial, Helvetica, sans-serif; background-color: rgb(255, 255, 255);">今天继续和小伙伴们分享聚类算法和R语言的实现,上篇和大家分享了聚类中的距离、类间距离和最古典的层次聚类法,今天 阅读全文
posted @ 2021-07-08 19:20 BabyGo000 阅读(66) 评论(0) 推荐(0)
摘要: 图形展示是最高效且形象的数据描述手段,因此巧妙的图像展示是高质量数据分析报告的必备内容,因此强大的图形展示功能也是统计分析软件的必备功能。R语言提供了强大的吐血展示功能。今天我由简单到复杂分别和小伙伴们分享如何用R语言画出各位想要的图形。 首先罗列下所有可选图形: 1、直方图(hist());2、散 阅读全文
posted @ 2021-07-08 19:18 BabyGo000 阅读(542) 评论(0) 推荐(0)
摘要: 目前有 10 名儿童(男)的年龄和身高的数据( 虚构数据) ,感兴趣的是升高的分布及体重和年龄的关系。 年龄(岁) | 体重( kg ) | 年龄(岁) | 体重( kg ) | | | 4 | 95 | 6 | 116 4 | 97 | 7 | 120 5 | 106 | 7 | 121 5 | 阅读全文
posted @ 2021-07-08 19:17 BabyGo000 阅读(461) 评论(0) 推荐(0)
摘要: 统计参考书:《统计建模与R软件》 用于管理R工作空间的函数: 常用R对象: 向量c() 矩阵matrix() 数组array() 数据框dataframe() 列表list() 因子factor() 创建向量和矩阵 产生向量 Seq()函数 ——以指定的规律产生向量 产生字母序列letters wh 阅读全文
posted @ 2021-07-08 19:15 BabyGo000 阅读(420) 评论(0) 推荐(0)
摘要: R语言1-面板数据分析全过程 附代码 # 用途 面板数据常见于计量经济学领域,本质上是一种线性回归方法。截面数据和时间序列数据的组合可以更多的反应数据情况,同时也需要克服二者都存在的问题。 ## 数据初步处理 在Excel中将原数据进行初步处理和排列并另存为csv格式,建议将文件存放于便于提取的路径 阅读全文
posted @ 2021-07-08 19:13 BabyGo000 阅读(2787) 评论(0) 推荐(0)