会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
birdmmxx
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
3
4
5
6
7
8
9
10
11
···
16
下一页
2020年1月26日
寒假第三天
摘要: 寒假第三天 今天对爬虫的功能进行优化,设置自动翻页,爬取多页数据。 在这次学习中发现就是寻找网页链接的规律。例如前几天提到博主的例子爬取猫眼: 第一页:https://maoyan.com/board/4?offset=0第二页:https://maoyan.com/board/4?offset=1
阅读全文
posted @ 2020-01-26 23:25 birdmmxx
阅读(206)
评论(0)
推荐(0)
2020年1月21日
寒假第二天
摘要: 寒假第二天 https://blog.csdn.net/weixin_41779359/article/details/86234058 今天对于正则表达式进行深入学习: 还是上篇博客谈及的博主,在第三章中有讲到该方法爬虫正则表达式的用法,如下图:(可以打开链接深入学习) 例如上篇博客的 .*? 结
阅读全文
posted @ 2020-01-21 23:49 birdmmxx
阅读(114)
评论(0)
推荐(0)
2020年1月20日
寒假第一天
摘要: 寒假第一天 参考博客:https://blog.csdn.net/weixin_41779359/article/details/86246805 今天对于Python数据爬虫进行了更加深入的学习,参考了上述博主的博客。对于在学校没有吃透的知识进行挖掘,了解到此类方法爬取数据用的是正则表达式,然而正
阅读全文
posted @ 2020-01-20 23:44 birdmmxx
阅读(142)
评论(0)
推荐(0)
2019年11月16日
java使用JDBC连接hive(使用beeline与hiveserver2)
摘要: 首先虚拟机上已经安装好hive。 下面是连接hive需要的操作。 一、配置。 1.查找虚拟机的ip 输入 ifconfig 2.配置文件 (1)配置hadoop目录下的core-site.xml和hdfs-site.xml 在core-site.xml中添加下面配置: <property> <nam
阅读全文
posted @ 2019-11-16 13:32 birdmmxx
阅读(5190)
评论(1)
推荐(1)
2019年11月13日
数据清洗(第一次实验)
摘要: package tiqu; import java.io.IOException; import java.text.ParseException; import java.text.SimpleDateFormat; import java.util.Date; import java.util.
阅读全文
posted @ 2019-11-13 22:46 birdmmxx
阅读(365)
评论(0)
推荐(0)
2019年11月12日
hive删除表时直接卡死
摘要: 原因:因为以前安装的mysql,字符集都改为了utf-8。 解决方案:需要把字符集都改为latin1 首先进入mysql查看字符集 show variables like 'char%' 找到mysql安装目录下的my.cny文件 用vi命令打开修改字符集 修改完成后重新进入mysql 在mysql
阅读全文
posted @ 2019-11-12 22:49 birdmmxx
阅读(1837)
评论(10)
推荐(0)
hive创建表时报错
摘要: 这是因为mysql字符集的原因。修改mysql的字符集。 mysql> alter database hive character set latin1; 参考博客:https://blog.csdn.net/qq_38723677/article/details/82668506
阅读全文
posted @ 2019-11-12 19:28 birdmmxx
阅读(448)
评论(0)
推荐(0)
启动Hive时报错(com.mysql.jdbc.Driver") was not found in the CLASSPATH)
摘要: 这是因为没有mysql-connector的jar包。需要把jar包复制到hive目录lib文件夹中。 参考博客:https://blog.csdn.net/Realoyou/article/details/79145370
阅读全文
posted @ 2019-11-12 19:25 birdmmxx
阅读(1288)
评论(0)
推荐(0)
2019年10月30日
MapReduce第一个项目 WordCount
摘要: 参考自林子雨大数据教学: http://dblab.xmu.edu.cn/blog/hadoop-build-project-using-eclipse/ 导入数据如下 下载: hadoop2x-eclipse-plugin 将 release 中的 hadoop-eclipse-kepler-pl
阅读全文
posted @ 2019-10-30 19:22 birdmmxx
阅读(228)
评论(0)
推荐(0)
2019年10月25日
Hbase javaAPI(工具类)表的增删改查
摘要: 建立连接: 创建表: 修改表(列族名或者列名): 列出所有表: 添加数据: 删除数据: Get获取单个数据: Scan获取所有数据:
阅读全文
posted @ 2019-10-25 14:34 birdmmxx
阅读(611)
评论(0)
推荐(0)
上一页
1
···
3
4
5
6
7
8
9
10
11
···
16
下一页
公告