摘要: import numpy as np import pandas as pd from nltk.corpus import stopwords from sklearn.metrics.pairwise import linear_kernel from sklearn.feature_extra 阅读全文
posted @ 2024-03-10 18:16 太与旅 阅读(4) 评论(0) 推荐(0) 编辑
摘要: import pandas as pd import numpy as np import time import sqlite3 data_home = 'E:/python学习/项目/python推荐系统/Python实现音乐推荐系统/' 读取数据 triplet_dataset = pd.re 阅读全文
posted @ 2024-02-06 14:52 太与旅 阅读(13) 评论(0) 推荐(0) 编辑
摘要: 天气最高温度 我们要完成三个任务 随机森林建模 --》 选择特征 - 》 增加数据量和特征个数 --》 找到最优的参数 掌握机器学习里面2种经典的参数调节方法 读数据 import pandas as pd data = pd.read_csv("temps.csv") data.head() ye 阅读全文
posted @ 2024-02-03 18:31 太与旅 阅读(65) 评论(0) 推荐(0) 编辑
摘要: 信用卡欺诈检测 任务流程: 1、加载数据,观察问题 2、针对问题给出解决方案 3、数据集切分 4、评估方法对比 5、逻辑回归模型 6、建模结果分析 7、方案效果对比 读取数据 import pandas as pd import matplotlib.pyplot as plt import num 阅读全文
posted @ 2024-02-03 09:46 太与旅 阅读(13) 评论(0) 推荐(0) 编辑
摘要: 回望2023年的数据治理工作,更多的事在公司内部满足控股集团对数据合规和安全的要求,我们发布了自己公司的数据分级分类管理办法和数据安全管理办法,那么2024年,我们希望做的就是数据治理工作的落地实现,不仅是为了满足集团对数据合规的要求,也是我们自身存在这些数据方便的痛点,需要合力的改进数据治理工作。 阅读全文
posted @ 2023-12-23 10:14 太与旅 阅读(55) 评论(0) 推荐(0) 编辑
摘要: 数据闭环已经被大多数自动驾驶公司认为是提升自动驾驶能力的必经之路。主机厂,配置了自动驾驶硬件的车队采集通过规则及影子模式下的触发器筛选的数据,经过语义筛选后的数据被回传到云端。此后,工程师在云端用工具对数据做一些处理,再把处理好的数据放入数据集群,然后利用这些有效数据训练模型。模型训练好之后,工程师 阅读全文
posted @ 2023-09-17 09:20 太与旅 阅读(27) 评论(0) 推荐(0) 编辑
摘要: 上周末在学习群里有小伙伴发了一个sql 应用,原始记录是这样的 他 希望把数据生成下面这样的 如果是你,你会怎么做呢??? 有同学说要用 笛卡尔积、也有说用 自关联,其实、这个sql可以简单点 with temp as (select '2022-12-20' as date_time,'供应商A' 阅读全文
posted @ 2023-02-21 13:30 太与旅 阅读(18) 评论(0) 推荐(0) 编辑
摘要: 先说一下我们公司的线上集群配置 : CDH6.3.1 , hive 2.1.1 ,由于公司是做车联网业务方向的,所以数据量很大,同事小A,在往集群写数据,发现写入的数据不能在hive表里查询,他写往另外一个hive3.1.2的集群,却可以,于是我们定位到肯定是CDH的 hive2.1.1有问题了,百 阅读全文
posted @ 2023-01-03 11:30 太与旅 阅读(61) 评论(0) 推荐(0) 编辑
摘要: 具体的搭建资料网上一大堆,我们直接看效果 下一步,打算集成flink 玩玩 阅读全文
posted @ 2022-07-08 13:41 太与旅 阅读(137) 评论(0) 推荐(0) 编辑
摘要: 最近线上 kettle 报了一个 Unable to get database metadata from this database connection 的错误,网上有一大堆的这个异常解决方案,都尝试过但是并没有解决我的这个异常问题。那要怎么做呢? 下面分享一下我的解决思路: 1:看一下这个输出 阅读全文
posted @ 2022-07-07 11:13 太与旅 阅读(1037) 评论(0) 推荐(0) 编辑