会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
朝闻道,夕死可矣。
python数据分析 数据挖掘 机器学习
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
4
5
6
7
8
9
10
11
12
···
15
下一页
2019年10月9日
基于数据驱动的发电设备在线预警研究
摘要: 随着信息技术的高速发展和计算机硬件水平的快速上升,大数据技术、智能电厂、工业4.0 等相关概念逐渐被提出。国内许多发电集团都已经逐步开始新一代智能电厂的建设,这其中就包括了发电设备的在线预警部分。我国发电技术经过几十年的发展,电厂数字化、信息化水平大幅提高,积累了大量的运行数据,这为发电设备的大数据
阅读全文
posted @ 2019-10-09 14:02 jingsupo
阅读(1101)
评论(2)
推荐(0)
2019年10月4日
Python 内置函数进制转换的用法(十进制转二进制、八进制、十六进制)
摘要: 使用Python内置函数:bin()、oct()、int()、hex()可实现进制转换。 先看Python官方文档中对这几个内置函数的描述: bin(x)Convert an integer number to a binary string. The result is a valid Pytho
阅读全文
posted @ 2019-10-04 03:04 jingsupo
阅读(16704)
评论(0)
推荐(0)
2019年10月1日
PyCharm 占用过大 C 盘空间,system 配置文件迁移
摘要: 随着 PyCharm 的持续使用,对应 C:\Users\<username>\.PyCharm<2018.3> 下的文件大小会持续增大,且通常为 system 文件夹下的内容。此时可以通过软件配置将该文件搬迁到其他磁盘中(e.g. D:/.PyCharm2018.3)。 对应的配置文件有两个生成方
阅读全文
posted @ 2019-10-01 21:16 jingsupo
阅读(2262)
评论(0)
推荐(0)
2019年9月28日
大数据去重方案
摘要: 数据库中有有一张表专门存储用户的维度数据,由于随着时间的推移,用户的维度数据也可能发生变化,故每一次查看都会保存一次记录。现在需要对数据按用户分析,但当中有大量的重复数据,仅用数据库的等值去重明显不可行。 对数据内容求MD5值 MD5值的特点: 1.压缩性:任意长度的数据,算出的MD5值长度都是固定
阅读全文
posted @ 2019-09-28 02:57 jingsupo
阅读(9203)
评论(0)
推荐(0)
2019年9月8日
几个常用算法的适应场景及其优缺点!
摘要: 机器学习算法太多了,分类、回归、聚类、推荐、图像识别领域等等,要想找到一个合适算法真的不容易,所以在实际应用中,我们一般都是采用启发式学习方式来实验。通常最开始我们都会选择大家普遍认同的算法,诸如SVM,GBDT,Adaboost,现在深度学习很火热,神经网络也是一个不错的选择。 假如你在乎精度(a
阅读全文
posted @ 2019-09-08 05:10 jingsupo
阅读(5480)
评论(0)
推荐(2)
2019年9月7日
工业大数据为何落地难
摘要: 眼前的困难和问题,很可能是过去没有准备的结果;而现在的失败,往往是过去草率行事的结果。同样,工业大数据浪潮来了,却会发现积累了多年的数据没法用。我总结了一下,大体有三种原因: 1、数据对应不上 围绕同一个对象或过程的数据都有记录,但串不起来。比如,一个产品是某设备生产的。产品信息却无法与设备生产的时
阅读全文
posted @ 2019-09-07 08:34 jingsupo
阅读(454)
评论(0)
推荐(0)
2019年9月3日
海量数据处理的 Top K 相关问题
摘要: Top-k的最小堆解决方法 问题描述:有N(N>>10000)个整数,求出其中的前K个最大的数。(称作Top k或者Top 10) 问题分析:由于(1)输入的大量数据;(2)只要前K个,对整个输入数据的保存和排序是相当的不可取的。 可以利用数据结构的最小堆来处理该问题。 最小堆如图所示,对于每个非叶
阅读全文
posted @ 2019-09-03 15:17 jingsupo
阅读(1205)
评论(0)
推荐(0)
2019年3月27日
局部敏感哈希(LSH)之simhash和minhash
摘要: minhash simhash SimHash的工作原理 SimHash算法工作流程图: SimHash的工作原理 SimHash算法工作流程图: 1、分词,把需要判断文本分词形成这个文章的特征单词。最后形成去掉噪音词的单词序列并为每个词加上权重,我们假设权重分为5个级别(1~5)。比如:“ 美国“
阅读全文
posted @ 2019-03-27 15:17 jingsupo
阅读(2010)
评论(0)
推荐(0)
2019年1月16日
git取消跟踪已版本控制的文件
摘要: git 不再追踪文件改动 git 恢复追踪文件改动 git 删除被管理的文件 git 删除被管理的文件夹
阅读全文
posted @ 2019-01-16 17:20 jingsupo
阅读(509)
评论(0)
推荐(0)
2019年1月2日
局部敏感哈希(Locality-Sensitive Hashing, LSH)
摘要: 一、局部敏感哈希LSH 在很多应用领域中,我们面对和需要处理的数据往往是海量并且具有很高的维度,怎样快速地从海量的高维数据集合中找到与某个数据最相似(距离最近)的一个数据或多个数据成为了一个难点和问题。如果是低维的小数据集,我们通过线性查找(Linear Search)就可以容易解决,但如果是对一个
阅读全文
posted @ 2019-01-02 18:34 jingsupo
阅读(786)
评论(0)
推荐(0)
上一页
1
···
4
5
6
7
8
9
10
11
12
···
15
下一页
公告
欢迎光临