会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
人不疯狂枉一生
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
···
9
下一页
2023年10月11日
Python自动化测试工具Selenium使用踩坑
摘要: 1.背景 最近看同事在搞自动化测试,便想着自己在本地搭建一个自动化点击页面环境。主要是Selenium操作谷歌游览器进行访问百度,然后搜索关键词,获取搜索的内容。 2.环境准备 (1)查看本地谷歌游览器版本号,点击游览器右上角->设置-关于chrome即可获取,目前我的游览器是最新版本的。 (2)下
阅读全文
posted @ 2023-10-11 19:29 人不疯狂枉一生
阅读(64)
评论(0)
推荐(0)
2023年9月26日
本地测试Spark的svm算法
摘要: 上一篇介绍了逻辑回归算法,发现分类效果不好,通过这次的svm发现是因为训练数据不行,于是网上找了部分训练数据,发现实际上分类效果还可以。 训练数据,第一个值是标签,下面的数据是某种花的相关特征。 1|5.1,3.5,1.4,0.2 1|4.9,3,1.4,0.2 1|4.7,3.2,1.3,0.2
阅读全文
posted @ 2023-09-26 17:55 人不疯狂枉一生
阅读(26)
评论(0)
推荐(0)
2023年9月25日
本地测试Spark的逻辑回归算法
摘要: 本地小数据量测试了一下Spark的LogisticRegressionWithSGD算法,效果不尽如人意。 数据样例如下,竖杠前的0,1代表两种类型,后面逗号隔开的是两个特征,两个特征只要有一个大于等于0.6就会被分为1这一类,否则就是0。 1|0.3,0.6 0|0.2,0.1 1|0.5,0.6
阅读全文
posted @ 2023-09-25 10:38 人不疯狂枉一生
阅读(31)
评论(0)
推荐(0)
2023年9月10日
极验验证码破解思路
摘要: 1.背景 最近整理以前的文件,发了一篇有意思的关于极验验证码破解思路的文章。现在回过头来思考感觉挺有意思的,分享给大家。 百度百科对极验的定义如下: 极验验证是一种在计算机领域用于区分自然人和机器人的,通过简单集成的方式,为开发者提供安全、便捷的云端验证服务。与以往传统验证码不同的是,极验通过分析用
阅读全文
posted @ 2023-09-10 14:55 人不疯狂枉一生
阅读(544)
评论(0)
推荐(0)
2023年9月4日
Sqoop参数使用大全
摘要: 最近看了以前写的Sqoop脚本,就顺手整理一下数据导入导出的相关参数使用方法及解释。 参数 解释 --connect <jdbc-uri> 关系数据库连接地址,比如mysql的 jdbc:mysql://xx.x.35.xx:3306/mytest --connection-manager <cla
阅读全文
posted @ 2023-09-04 17:52 人不疯狂枉一生
阅读(129)
评论(0)
推荐(0)
2023年9月1日
Sqoop参数使用大全
摘要: 最近看了以前写的Sqoop脚本,就顺手整理一下数据导入导出的相关参数使用方法及解释。 参数 解释 --connect <jdbc-uri> 关系数据库连接地址,比如mysql的 jdbc:mysql://xx.x.35.xx:3306/mytest --connection-manager <cla
阅读全文
posted @ 2023-09-01 10:14 人不疯狂枉一生
阅读(326)
评论(0)
推荐(0)
2023年8月24日
数仓数据导出mysql保留换行符踩坑
摘要: 记录一个导数的小坑,数仓里面的数据需要导出到mysql,然后报表展示,并且需要把一段文字里面的换行功能体现出来;数仓里面的原始数据采用的是$符号进行分割每一行数据,直接把$符号替换为\n然后导出到mysql,发现没有生效,反而在页面上把\n展示出来了。那么注意了,经过反复尝试写成\\\n,然后把这个
阅读全文
posted @ 2023-08-24 09:09 人不疯狂枉一生
阅读(99)
评论(0)
推荐(0)
2023年8月22日
数仓汇总表的类型汇总
摘要: 数仓中表类型有很多,这里罗列一下数仓中各种表的区别及使用场景。 1.拉链表 (1)记录一个实体的所有历史状态变化。 (2)每个状态都有一个起始日期,目前有效的这一条可用很大的日期表示,比如2999-01-01等。 (3)当状态发生变化时,上一条状态的结束日期字段被更新为当前日期。 (4)当需要获取某
阅读全文
posted @ 2023-08-22 17:42 人不疯狂枉一生
阅读(213)
评论(0)
推荐(0)
2023年8月21日
设计事实表的注意事项
摘要: 事实表主要由两部分组成,一部分是主键和外键组成的键值部分,另一部分是用来描述业务过程的事实度量,也不排除部分设计人员把部分维度退化进去,从而使事实表再加一部分退化维度。在维度建模中事实表的设计一般遵循五大步骤:1.确定业务过程-》2.定义粒度-》3.确定维度-》4.确定事实-》5.冗余维度属性。通过
阅读全文
posted @ 2023-08-21 18:45 人不疯狂枉一生
阅读(96)
评论(0)
推荐(0)
2023年8月17日
离线数仓数据源变更及应对方案
摘要: 离线数仓数据源的变化对数仓的影响是巨大的,所以我们不但要做好事后监控,也要做好事前的各种流程制度规范,比如所有业务的升库语句需要DBA对其进行管控,只能由DBA进行升库处理,并且做好处理记录,同时把相关变更通知到数据部门。为了防止有导致异常的致命性错误,最好能把binlog监控的就监控起来,这样数据
阅读全文
posted @ 2023-08-17 17:13 人不疯狂枉一生
阅读(297)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
···
9
下一页
公告