摘要:
Preprocessing data https://scikit-learn.org/stable/modules/preprocessing.html 数据预处理提供工具函数和变换器类, 将转换特征向量成为更加适合下游模型的数据表示。 一般学习算法都会从数据标准化中受益。 如果异常值存在于数据中
阅读全文
posted @ 2021-01-26 16:52
lightsong
阅读(323)
推荐(0)
摘要:
Semi-supervised Classification on a Text Dataset https://scikit-learn.org/stable/auto_examples/semi_supervised/plot_semi_supervised_newsgroups.html#sp
阅读全文
posted @ 2021-01-24 12:16
lightsong
阅读(406)
推荐(0)
摘要:
Topic extraction with Non-negative Matrix Factorization and Latent Dirichlet Allocation https://scikit-learn.org/stable/auto_examples/applications/plo
阅读全文
posted @ 2021-01-23 00:41
lightsong
阅读(163)
推荐(0)
摘要:
Classification of text documents using sparse features https://scikit-learn.org/stable/auto_examples/text/plot_document_classification_20newsgroups.ht
阅读全文
posted @ 2021-01-22 12:56
lightsong
阅读(240)
推荐(0)
摘要:
Sample pipeline for text feature extraction and evaluation https://scikit-learn.org/stable/auto_examples/model_selection/grid_search_text_feature_extr
阅读全文
posted @ 2021-01-21 17:01
lightsong
阅读(137)
推荐(0)
摘要:
Clustering text documents using k-means https://scikit-learn.org/stable/auto_examples/text/plot_document_clustering.html#sphx-glr-auto-examples-text-p
阅读全文
posted @ 2021-01-21 16:56
lightsong
阅读(188)
推荐(0)
摘要:
Feature extraction https://scikit-learn.org/stable/modules/feature_extraction.html 从文本或图片的数据集中提取出机器学习支持的数据格式。 The sklearn.feature_extraction module ca
阅读全文
posted @ 2021-01-21 16:46
lightsong
阅读(176)
推荐(0)
摘要:
Column Transformer with Heterogeneous Data Sources https://scikit-learn.org/stable/auto_examples/compose/plot_column_transformer.html#sphx-glr-auto-ex
阅读全文
posted @ 2021-01-19 14:48
lightsong
阅读(190)
推荐(0)
摘要:
Column Transformer with Mixed Types https://scikit-learn.org/stable/auto_examples/compose/plot_column_transformer_mixed_types.html#sphx-glr-auto-examp
阅读全文
posted @ 2021-01-19 12:54
lightsong
阅读(220)
推荐(0)
摘要:
Pipelines and composite estimators https://scikit-learn.org/stable/modules/compose.html 转换器通常跟分类器、回归器、其它的估计器组合使用,构建一个组合的估计器。(可以理解为 组合模型) 这就叫流水线技术Pipel
阅读全文
posted @ 2021-01-18 16:27
lightsong
阅读(231)
推荐(0)
摘要:
Strategies to scale computationally: bigger data https://scikit-learn.org/stable/computing/scaling_strategies.html 针对海量样本 和 计算速度的要求, 对于传统的方法(数据加载内存 -
阅读全文
posted @ 2021-01-15 16:43
lightsong
阅读(440)
推荐(0)
摘要:
Working With Text Data https://scikit-learn.org/stable/tutorial/text_analytics/working_with_text_data.html#working-with-text-data 分析文本文档,关于20个不同主题。 包括
阅读全文
posted @ 2021-01-14 17:09
lightsong
阅读(211)
推荐(0)
摘要:
sphinx usages https://brendanhasz.github.io/2019/01/05/sphinx.html#file-hierarchy sphinx可以从python文档中自动提取docstring生成文档。 docstring包括函数和类的注释。 理解: sphinx在
阅读全文
posted @ 2021-01-12 16:54
lightsong
阅读(166)
推荐(0)
摘要:
Manifold learning https://scikit-learn.org/stable/modules/manifold.html#locally-linear-embedding 流形学习是一种非线性降维方法,算法是基于一种想法,很多数据集的高纬度是人为制造的高,并不是真的高。 PCA
阅读全文
posted @ 2021-01-12 12:41
lightsong
阅读(164)
推荐(0)
摘要:
Visualizing the stock market structure https://scikit-learn.org/stable/auto_examples/applications/plot_stock_market.html#stock-market 此例使用了集中非监督学习技术,
阅读全文
posted @ 2021-01-11 17:01
lightsong
阅读(301)
推荐(0)
摘要:
Covariance estimation https://scikit-learn.org/stable/modules/covariance.html# 协方差矩阵可以看成是 数据集分散布局的估计。 理解: 在矩阵中, 高相关系数越多, 则数据集分布越集中, 反之越分散。 例如各个特征之间 的相
阅读全文
posted @ 2021-01-07 16:57
lightsong
阅读(306)
推荐(0)
摘要:
Arithmetic Mean(算数均值) 均值关注整体的一个平均水平。 https://www.investopedia.com/terms/a/arithmeticmean.asp What Is the Arithmetic Mean? The arithmetic mean is the s
阅读全文
posted @ 2021-01-06 17:29
lightsong
阅读(599)
推荐(0)
摘要:
Pipelining https://scikit-learn.org/stable/tutorial/statistical_inference/putting_together.html#pipelining 有的模型用于转换数据, 有的模型用于预测数据。 可以将这两种模型组合起来, 这就是流水
阅读全文
posted @ 2021-01-04 00:19
lightsong
阅读(119)
推荐(0)
摘要:
Unsupervised learning https://scikit-learn.org/stable/tutorial/statistical_inference/unsupervised_learning.html 无监督学习的目的是, 寻找数据的表示。 探索数据的结构。 seeking r
阅读全文
posted @ 2021-01-03 23:47
lightsong
阅读(165)
推荐(0)
摘要:
Model selection https://scikit-learn.org/stable/tutorial/statistical_inference/model_selection.html#score-and-cross-validated-scores 模型选择,包括两个部分: (1)选
阅读全文
posted @ 2021-01-03 22:59
lightsong
阅读(140)
推荐(0)
摘要:
统计学习 https://scikit-learn.org/stable/tutorial/statistical_inference/index.html 数据量不停增加,增加了机器学习的重要性。 机器学习可以处理 预测 分类 学习非标记的数据结构。 统计学习使用机器学习技术,达成统计推断目标,
阅读全文
posted @ 2020-12-31 17:10
lightsong
阅读(181)
推荐(0)
摘要:
Multiclass and multioutput algorithms https://scikit-learn.org/stable/modules/multiclass.html# sklearn 支持如下典型类型学习 multiclass -- 多类别 mulitlabel -- 多标签
阅读全文
posted @ 2020-12-30 17:12
lightsong
阅读(356)
推荐(0)
摘要:
multilabel https://scikit-learn.org/stable/modules/multiclass.html#multilabel-classification 多标记, 对于一个样本数据, 多个可能的标签。 例如, 一段文本或者视频, 可能关于 宗教 政治 金融 教育 其中
阅读全文
posted @ 2020-12-30 15:50
lightsong
阅读(448)
推荐(0)
摘要:
multiclass https://scikit-learn.org/stable/modules/multiclass.html#multiclass-classification 多类分类面向的目标是,多余两类的, 每一个样本只能被分为一类。 区别于二值分类, 其目标类别有多个。 Multic
阅读全文
posted @ 2020-12-29 17:37
lightsong
阅读(309)
推荐(0)
摘要:
concept https://scikit-learn.org/stable/modules/preprocessing_targets.html#preprocessing-targets 对于监督性学习,其目标值需要进行转化,才能作为模型的目标,或者更加有效地适应模型。 These are t
阅读全文
posted @ 2020-12-28 16:45
lightsong
阅读(110)
推荐(0)
摘要:
由来 https://scikit-learn.org/stable/auto_examples/classification/plot_digits_classification.html#sphx-glr-auto-examples-classification-plot-digits-clas
阅读全文
posted @ 2020-12-22 13:08
lightsong
阅读(181)
推荐(0)
摘要:
Classification report The classification_report function builds a text report showing the main classification metrics. Here is a small example with cu
阅读全文
posted @ 2020-12-21 15:47
lightsong
阅读(230)
推荐(0)
摘要:
Confusion Matrix https://machinelearningmastery.com/confusion-matrix-machine-learning/ 混淆矩阵是一种总结分类算法性能的技术。 如果单独看正确率,很有可能掩盖了一些小数据量的类的情况。换句话说分类的数据是不均衡的,
阅读全文
posted @ 2020-12-21 15:04
lightsong
阅读(641)
推荐(0)
摘要:
conception https://scikit-learn.org/stable/auto_examples/cluster/plot_color_quantization.html#sphx-glr-auto-examples-cluster-plot-color-quantization-p
阅读全文
posted @ 2020-12-17 16:31
lightsong
阅读(158)
推荐(0)
摘要:
datasets sklearn提供了一些内置的小的玩具数据。 也可以加载外部的一些数据。 节省招数据的过程。 The sklearn.datasets package embeds some small toy datasets as introduced in the Getting Start
阅读全文
posted @ 2020-12-17 15:18
lightsong
阅读(159)
推荐(0)
摘要:
naive bayes 首先贝叶斯定理是定义 目标分类 和 依赖特征之间的概率转换关系的原理。 其次naive是朴素的意思, 依赖的特征可能是多个,但是多个特征之间可能依赖, 朴素的含义,是假设这些特征的依赖是不存在的。 朴素贝叶斯在实际应用中效果很好, 尽管特征之间是存在依赖关系的。 refere
阅读全文
posted @ 2020-12-16 17:06
lightsong
阅读(214)
推荐(0)
摘要:
What? https://www.citrix.com/zh-cn/glossary/what-is-cloud-native.html 云原生是一种方法,用于构建和运行云应用,跨越私有云,公有云和混合云。 云原生应用,开发和管理都在云环境中。 越来越多的公司使用云原生开发,可以加速应用发布,到达
阅读全文
posted @ 2020-12-11 16:08
lightsong
阅读(119)
推荐(0)
摘要:
50projects50days 50 unique mini-projects to sharpen your HTML, CSS & JavaScript skills https://github.com/bradtraversy/50projects50days #ProjectLive D
阅读全文
posted @ 2020-12-04 10:25
lightsong
阅读(134)
推荐(0)
摘要:
Module Search https://docs.python.org/3/tutorial/modules.html#the-module-search-path 当使用import语句时, 首先解析器会寻找内置的模块, 例如 os, sys 然后在sys.path路径列表中搜索 此列表由如下
阅读全文
posted @ 2020-11-30 17:06
lightsong
阅读(151)
推荐(0)
摘要:
asyncio https://docs.python.org/3.7/library/asyncio.html 异步编程库。 支持并发运行。 提供一些高层API, asyncio is a library to write concurrent code using the async/await
阅读全文
posted @ 2020-11-25 12:27
lightsong
阅读(153)
推荐(0)
摘要:
multiprocessing -- python进程协同 https://docs.python.org/3.7/library/multiprocessing.html multiprocessing is a package that supports spawning processes u
阅读全文
posted @ 2020-11-24 12:11
lightsong
阅读(114)
推荐(0)
摘要:
data persistence https://docs.python.org/3.7/library/persistence.html 支持python内存中的数据以持久化的形式存储在磁盘中。 同时支持从磁盘中将数据恢复到内存中。 The modules described in this ch
阅读全文
posted @ 2020-11-19 16:06
lightsong
阅读(182)
推荐(0)
摘要:
statistics 统计模块支持普通的int float类型,还支持封装的 Decimal 和 Fraction的统计计算。 且输入数据的类型要保持一致。 统计功能分为两个部分: (1)均值和中心位置度量。-- 均值和中位数。 (2)延展度度量。-- 偏差和标准差。 https://docs.py
阅读全文
posted @ 2020-11-17 15:26
lightsong
阅读(146)
推荐(0)
摘要:
deque https://pymotw.com/2/collections/deque.html A double-ended queue, or deque, supports adding and removing elements from either end. The more comm
阅读全文
posted @ 2020-11-16 17:03
lightsong
阅读(119)
推荐(0)
摘要:
Queue for multiple processes 跟线程队列类似。 有三种队列: (1)Queue -- 普通队列 (2)SimpleQueue -- 简化队列,类似管道 (3)JoinableQueue -- 可观测队列。 https://docs.python.org/3.7/libra
阅读全文
posted @ 2020-11-16 15:59
lightsong
阅读(145)
推荐(0)