上一页 1 2 3 4 5 6 7 8 9 10 ··· 17 下一页
摘要: 这几天的遇到的错误总结: 1.Failed to create a Maven project: 'E:/xxxx'already exists in VFS 原因:之前创建过同名的文件内容,如果已经删除,可能是某个文件删除的不彻底 解决方案:如果是有同名文件,改名即可,如果当时的文件已经删除,把刚 阅读全文
posted @ 2020-02-04 16:15 HEIYANG 阅读(133) 评论(0) 推荐(0)
摘要: 使用sqoop将hive中的统计数据导入到mysql中 思路:首先在hive上创建临时表,然后将统计数据放在临时表中,最后通过sqoop将临时表中的数据导入到mysql中。 例子:将各个官方部门回答的数量都导入到mysql中。 1.在hive中创建capital_temp表 create table 阅读全文
posted @ 2020-02-03 14:40 HEIYANG 阅读(300) 评论(0) 推荐(0)
摘要: Java连接hive简单操作 首先在使用java连接前我们需要在虚拟机上开启hiveserver2(hiveserver2需要安装),hiveserve2的作用是实现hive可以进行并发操作,否则没有办法实现java对hive的操作。 使用命令:hiveserver2即可打开hiveserver2服 阅读全文
posted @ 2020-02-02 12:30 HEIYANG 阅读(483) 评论(0) 推荐(0)
摘要: 使用Sqoop将mysql数据传到hive 系统环境:hadoop2.65,mysql5.7.28,sqoop1.47,hive1.2.2,虚拟机centos7,物理机windows10 注意点:安装sqoop不要将目录设在hadoop下面,否则在运行下面命令时会发生找不到jar包的问题,我估计是系 阅读全文
posted @ 2020-02-01 20:10 HEIYANG 阅读(246) 评论(0) 推荐(0)
摘要: 爬取首都之窗信件列表保存到TXT(下) 按照上一篇的操作,我们便可以得到之前列表页整个一页的操作了,当我们想要实现下一页操作的时候我们发现网页的地址并没有发生变化,也就是说下一页的按钮只是调动了js方法,从服务器端获取了数据,然后再重新对页面进行了刷新。打开检查,查看network可以看到传输的数据 阅读全文
posted @ 2020-01-19 11:55 HEIYANG 阅读(405) 评论(0) 推荐(0)
摘要: 爬取首都之窗信件列表保存到TXT(上) 我们需要对首都之窗的界面元素进行确定,打开网页进行元素检查可以发现: 这样我们就发现了信件详情页和信件列表页之间的关系,所以想要从列表页跳转至详情页我们只需要获取整个a标签的onclick属性就可以了,或者是从a标签中提取出信件类型,和SugID也是可以的。 阅读全文
posted @ 2020-01-18 11:10 HEIYANG 阅读(380) 评论(0) 推荐(0)
摘要: WebMagic实战:爬取51找工作的工作信息至数据库 这里只放出关键代码,完整代码上传至GitHub:https://github.com/heiyang1125/WebMagicLivingExample.git 在爬取过程中,与上次Jsoup不同的是,我们需要从不同的网页中去爬取网页,然后使用 阅读全文
posted @ 2020-01-17 17:03 HEIYANG 阅读(202) 评论(0) 推荐(0)
摘要: Jsoup实战爬取(京东手机数据) 相关依赖和配置说明已经在上一篇随笔中交代:https://www.cnblogs.com/heiyang/p/12199113.html 新建关于手机商品的POJO(JavaBean的一种):Item.class @Entity @Table(name = "jd 阅读全文
posted @ 2020-01-16 10:06 HEIYANG 阅读(673) 评论(0) 推荐(0)
摘要: WebMagic的学习基础:Jsoup的学习(Jsoup基础API+Http+Jsoup实战爬取上) Jsoup的Selector选择器API: @Test public void TestSelector() throws Exception { //解析文件 Document document 阅读全文
posted @ 2020-01-15 22:29 HEIYANG 阅读(259) 评论(0) 推荐(0)
摘要: WebMagic的学习基础:Jsoup的学习(Http基础API和Jsoup基础API) 在学习WebMagic之前,我们需要简单了解关于Jsoup的知识,WebMagic是基于Jsoup的爬虫工具。 下面我会列出关于Jsoup的api的使用。先列出关于Http的一些基本操作 所需要的依赖: <!- 阅读全文
posted @ 2020-01-14 22:27 HEIYANG 阅读(166) 评论(0) 推荐(0)
上一页 1 2 3 4 5 6 7 8 9 10 ··· 17 下一页