随笔档案「2021年1月」 - 土豆面包

机器学习之线性回归

摘要：线性回归定义与公式线性回归(Linear regression)是利用回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)之间关系进行建模的一种分析方式。特点：只有一个自变量的情况称为单变量回归，大于一个自变量情况的叫做多元回归线性回归的特征与目标的关系分析线性回归当中的关系有两阅读全文

posted @ 2021-01-31 23:58 土豆面包阅读(254) 评论(0) 推荐(0)

机器学习-K近邻算法模型预测实战

摘要：一、数据准备二、任务目的根据前三列数据预测最后一列的target数据三、实现代码 from sklearn.datasets import load_iris from sklearn.model_selection import train_test_split from sklearn.p 阅读全文

posted @ 2021-01-30 16:42 土豆面包阅读(126) 评论(0) 推荐(0)

机器学习-特征抽取

摘要：特征工程特征抽取文本特征提取-CountVectorizer 作用：对文本数据进行特征值化 sklearn.feature_extraction.text.CountVectorizer(stop_words=[]) 返回词频矩阵 CountVectorizer.fit_transform(X) 阅读全文

posted @ 2021-01-29 20:40 土豆面包阅读(337) 评论(0) 推荐(0)

机器学习sklearn和字典特征抽取

摘要：sklean数据集 sklearn.datasets 加载获取流行数据集 datasets.load_*() 获取小规模数据集，数据包含在datasets里 datasets.fetch_*(data_home=None) 获取大规模数据集，需要从网络上下载，函数的第一个参数是data_home，表阅读全文

posted @ 2021-01-28 19:21 土豆面包阅读(157) 评论(0) 推荐(0)

机器学习第一讲

摘要：有监督学习含义：数据集中的样本带有标签,有明确目标回归和分类回归模型:线性回归、岭回归、LASSO和回归样条等分类模型:逻辑回归、K近邻、决策树、支持向量机等应用场景垃圾邮件分类、病理切片分类、客户流失预警、客户风险评估、房价预测等。无监督学习( unsupervised learni 阅读全文

posted @ 2021-01-27 19:39 土豆面包阅读(77) 评论(0) 推荐(0)

spark统计每个省份广告点击量top3

摘要：一、原始数据 agent.log：时间戳，省份，城市，用户，广告，中间字段使用空格分隔。数据量：5000条 119kb 二、任务目标统计出每一个省份每个广告被点击数量排行的 Top3 三、思路整理 1.获取原始数据：时间戳、省份、城市、用户、广告编号 2.将原始数据转换为（（省份，广告），1）的阅读全文

posted @ 2021-01-23 23:25 土豆面包阅读(1414) 评论(0) 推荐(0)

spark统计单位时间内访问量

摘要：一、文件截图处理数据量：804kb 二、流程分析根据分割符获取时间，再利用分组统计单位时间内的访问量，控制台输出（时间，访问量）形式三、代码 package rdd.operator.transform import java.text.SimpleDateFormat import java 阅读全文

posted @ 2021-01-22 19:45 土豆面包阅读(386) 评论(0) 推荐(0)

RDD的创建方式

摘要：package rdd.builder import org.apache.spark.rdd.RDD import org.apache.spark.{SparkConf, SparkContext} object Spark_01_RDD_Memory { def main(args: Arra 阅读全文

posted @ 2021-01-21 20:04 土豆面包阅读(144) 评论(0) 推荐(0)

Serializable序列化操作解惑

摘要：原文链接：https://baijiahao.baidu.com/s?id=1633305649182361563&wfr=spider&for=pc 阅读全文

posted @ 2021-01-20 17:19 土豆面包阅读(31) 评论(0) 推荐(0)

SparkCore分布式计算模拟

摘要：一、基础的架子假设Executor是服务端，Driver是客户端代码： package test import java.io.InputStream import java.net.{ServerSocket, Socket} object Executor { def main(args: 阅读全文

posted @ 2021-01-20 16:57 土豆面包阅读(119) 评论(0) 推荐(0)

spark不同环境下计算pi值

摘要：//本地模式 bin/spark-submit \ --class org.apache.spark.examples.SparkPi \ --master local[2] \ ./examples/jars/spark-examples_2.12-3.0.1.jar \ 10 //分布式集群 b 阅读全文

posted @ 2021-01-19 17:48 土豆面包阅读(588) 评论(0) 推荐(0)

linux下xsync和xcall脚本及使用xcall jps遇到的一些小问题

摘要：xsync： #!/bin/sh # 获取输入参数个数，如果没有参数，直接退出 pcount=$# if((pcount==0)); then echo no args...; exit; fi # 获取文件名称 p1=$1 fname=`basename $p1` echo fname=$fnam 阅读全文

posted @ 2021-01-18 20:27 土豆面包阅读(693) 评论(0) 推荐(0)

spark之RDD

摘要：一.RDD是什么 RDD, 全称为 Resilient Distributed Datasets, 是一个容错的, 并行的数据结构, 可以让用户显式地将数据存储到磁盘和内存中, 并能控制数据的分区. 同时, RDD 还提供了一组丰富的操作来操作这些数据. 在这些操作中, 诸如 map, flatMa 阅读全文

posted @ 2021-01-18 16:07 土豆面包阅读(88) 评论(0) 推荐(0)

Scala 偏函数和偏应用函数

摘要：原文链接：https://blog.csdn.net/qiruiduni/article/details/46914397 阅读全文

posted @ 2021-01-18 14:47 土豆面包阅读(43) 评论(0) 推荐(0)

spark本地体验WordCount

摘要：一、流程分析二、代码部分 1 package wc 2 3 import org.apache.spark.rdd.RDD 4 import org.apache.spark.{SparkConf, SparkContext} 5 6 object Spark_WordCount { 7 8 de 阅读全文

posted @ 2021-01-17 16:04 土豆面包阅读(126) 评论(0) 推荐(0)

土豆面包

01 2021 档案

公告