03 2022 档案
摘要:今天学习了cmm和cmmi 能力成熟度模型,大体上了解一些结构特征,模糊的总结两者的区别。
阅读全文
摘要:今天做的电力分析,选择了25家电力合计.xls 来作为数据集,他要求筛选出潜在成为高价值用户,我选择的标准是,在未达到一次缴费的人均水平的前五个客户以及未达到人均缴费次数的前五名,将两个结果的结合得出潜在价值用户。
阅读全文
摘要:今天做了echats的图表联动。有学姐的博客参考,比较容易实现,但是有一个问题, // 当鼠标落在tr时,显示浮动 $("#table tbody").find("tr").on("mouseenter",function () { // 获得当前匹配元素的个数 let row = $(this).
阅读全文
摘要:今天做软件测试的实验 感觉对基本覆盖法真的很不自信,不知道该怎么去构造流程图去选择路径,感觉测试是一件逻辑很强的事情。我对逻辑这一块真的不敏感。
阅读全文
摘要:今天继续解决df的遍历和修改值操作 突然被代码启发解决了 ,这个loc里面的参数应该是索引,应该先拿到这个df的索引列表,然后再来遍历,这样loc就能找到位置了 res['f']='高价值' df_index=res.index.tolist() for i,cs,je in zip(df_inde
阅读全文
摘要:我需要遍历结果集,然后根据条件将f字段 的值进行修改 这样的一个dataFrame,我想遍历他,根据属性值修改f的值 我这样的代码, res['f'].loc[cs]='高价值客户'这一句一直没反应也不报错,不会修改值,这一句代码该怎么写呢,我该怎么写才能定位到这个位置 一晚上没有解决
阅读全文
摘要:newdf=df.groupby('用户编号',as_index=False).size() print(newdf) df分组,并生成新的df,注意这个参数as_index=False false 会把用户编号当作一个字段,不然这个字段生成不了,结果是用户编号和size两个字段 该行取各个分组的s
阅读全文
摘要:今天上课,讲到了这问题,以前都未注意过,js中 未定义直接使用的变量 是全局变量 不管在函数体内还是在函数体外
阅读全文
摘要:今天尝试安装anaconda,很担心会不会占据我c盘的空间,c盘快满了,很担心会不会和我原先安装的python起冲突, 下载安装到windows中,还是很便捷的就安装一般软件一样,不知道的选项看教程就可以了。 人的恐惧来源于未知,而计算机里面充满了未知。我很恐惧。
阅读全文
摘要:今天在pycharm中写红酒实验。清洗数据中,操作很繁琐,我在想为什么没有好用的识别图片中代码的软件,方便复制图片中的代码。在程序中用到jieba时,会在c盘中用到cache,我很担心他占用c盘内容,在运行完第一次之后,c盘内容确实少了。而且因为这部分,整体代码运行很慢,要两三分钟多才能出结果。
阅读全文
摘要:当在本地运行一个 Spark Streaming 程序的时候,不要使用 “local” 或者 “local[1]” 作为 master 的 URL 。这两种方法中的任何一个都意味着只有一个线程将用于运行本地任务。如果你正在使用一个基于接收器(receiver)的输入离散流(input DStream
阅读全文
摘要:今天看了深度学习的ppt,人工神经单元最小的单位是感知机,感知机由两部分组成,线性变换和非线性变换。
阅读全文
摘要:import org.apache.kafka.clients.consumer.{ConsumerConfig, ConsumerRecord} import org.apache.spark.SparkConf import org.apache.spark.streaming.dstream.
阅读全文
摘要:今天跟同学交流,得到了另一种解决方法,python爬取数据后直接将数据写入kafka,跳过flume这一步,我感觉也是一种取巧的办法。
阅读全文
摘要:今天遇到一个很奇怪的问题,sparkstreaming在获取kafka数据的时候,第一次可以成功获取,但是当py文件再次执行,再次获取数据的时候会获取到空白行,在处理数据时,因为这行空白就会报下标越界,就很奇怪,一开始传输几个就没问题,爬几次之后就会出现空白行,是网络问题还是机器性能不够呢,不知道。
阅读全文
摘要:spark streaming 收集kafka数据到mysql数据库, 本地不需要安装spark,在是spark中引入相关依赖即可,但是需要注意版本需要和本地的scala版本对应例如这样的依赖<dependency> <groupId>org.apache.spark</groupId> <arti
阅读全文
摘要:1. 配置flume .conf文件收集数据到kafka f1.sources = r1f1.channels = c1f1.sinks = k1 #define sourcesf1.sources.r1.type = spooldirf1.sources.r1.spoolDir = /opt/mo
阅读全文
摘要:找到Linux中python的位置which python/usr/bin/python 尝试在linux中运行python 要修改python代码,在头上增加 # -*- coding: utf-8 -*-,不然会报错 f = open(r'/opt/module/flume-1.7.0/jdda
阅读全文
摘要:今天做了大数据测试,有很多小知识的学习 有比较值得注意的事情, 在使用sqoop的时候需要开启hdfs集群 还简单学习使用了tableau 这个可视化工具,并没有想象中好使用 在用python wordcloud做中文词云的时候,需要在属性中加入字体的属性值,不然会乱码,变成方块,font_path
阅读全文
摘要:我想收集本地的txt文件到hdfs,这是我的配置文件 a1.sources = r1a1.sinks = k1a1.channels = c1a1.sources.r1.type = spooldira1.sources.r1.spoolDir = /opt/module/flume-1.7.0/d
阅读全文
摘要:bin/flume-ng agent --name b1 --conf conf --conf-file conf/kafka-flume-hdfs.conf -Dflume.root.logg=INFO,LOGFILE 最后得出是命令的问题 这样来写命令 好像还需要配置hadoop的可以压缩格式
阅读全文
摘要:flume可以将数据从kafka中获取到再放到hdfs中,我在想是不是可以跳过kafka这一步。 这样的命令去运行flume name是配置文件里面的名称,但是执行结果在hdfs中找不到,目前不知道如何解决。
阅读全文
摘要:今天继续学习大数据流程, flume的配置有了些了解 .conf 文件中的参数是这样的 source采集日志数据,将采集到的日志数据传输给channel channel一个队列,存储source传递过来的数据 sink从channel中获取数据,将数据输出到目标位置(HDFS、HBase、Sourc
阅读全文
摘要:今天学了flume收集数据并给到kafka但是 我思索了一遍流程把 在哪里联系本地数据忘了 有点脱节了。
阅读全文
摘要:kafka在启动测试小工具的时候,需要注意的是 如果安装的zookeeper是集群的话 ,要将整个集群数量至少打开两台机器,不然会报错说该地址下的zookeeper连接不上 zookeeper启动命令 bin/zkServer.sh start 在每台机器目录下启动。 强制退出的命令是ctrl+c
阅读全文
摘要:发现了python脚本是在linux中输入,在linux中创建.py 文件,然后在spark中提交,但是提交之后,没有创建出相应的表,我目前没有解决。
阅读全文
摘要:不知道经过什么配置,我的hive启动命令是 bin/hive 不需要其他的操作。
阅读全文
浙公网安备 33010602011771号