2021年10月10日
摘要: Hive学习之路 (三)Hive元数据信息对应MySQL数据库表 转载自:Hive学习之路 (三)Hive元数据信息对应MySQL数据库表 - 扎心了,老铁 - 博客园 (cnblogs.com) 目录 概述 一、存储Hive版本的元数据表(VERSION) 二、Hive数据库相关的元数据表(DBS 阅读全文
posted @ 2021-10-10 21:48 liangxb 阅读(163) 评论(0) 推荐(0) 编辑
  2021年1月27日
摘要: 问题描述:本机去ping虚拟机能ping通,然后telnet虚拟机的22端口也可以,但是telnet 22122 端口却连接不上。 问题产生原因:虚拟机中的防火墙没有关闭,其中80端口是访问的(但是为啥22端口可以访问,我还没弄明白) 你可以查看一下防火墙下可以访问的端口: firewall-cmd 阅读全文
posted @ 2021-01-27 23:24 liangxb 阅读(2330) 评论(0) 推荐(0) 编辑
  2019年4月30日
摘要: 在大数据时代,机器要学会从比特流中解读用户,构建用户画像就变得尤其重要。本文介绍了用户画像的理论和实践,以及在实际中的应用。如何根据用户画像进行精准营销?将用户画像应用于个性化推荐?一起来寻找答案吧~ 首先看一下大数据与应用画像的关系,现在大数据是炙手可热,相信大家对大数据的四个V都非常了解,大数据 阅读全文
posted @ 2019-04-30 14:10 liangxb 阅读(5264) 评论(0) 推荐(0) 编辑
  2019年3月2日
摘要: 以后有可能会在天津租房子,所以想将链家网上面天津的租房数据抓下来,以供分析使用。 思路: 1、以初始链接https://tj.lianjia.com/zufang/rt200600000001/?showMore=1(因为我只关心整租的房间)开始,首先获取每个行政区对应的链接。 2、在以每个区的链接 阅读全文
posted @ 2019-03-02 19:14 liangxb 阅读(683) 评论(0) 推荐(0) 编辑
  2019年3月1日
摘要: 本节我们以网址https://daxue.eol.cn/mingdan.shtml为初始链接,爬取教育部公布的正规高校名单。 思路: 1、首先以上面的地址开始链接,抓取到下面省份对应的链接。 2、在解析具体的省份源代码,获取数据。虽然山东和河南的网页结构和其他不同,我们也不做特殊处理,直接不做抓取即 阅读全文
posted @ 2019-03-01 18:27 liangxb 阅读(1475) 评论(1) 推荐(0) 编辑
  2019年2月16日
摘要: 本篇我们以scrapy+selelum的方式来爬取爱基金网站(http://fund.10jqka.com.cn/datacenter/jz/)的基金业绩数据. 思路:我们以http://fund.10jqka.com.cn/datacenter/jz/网站作为起始,首先抓取页面中基金的详细页面地址 阅读全文
posted @ 2019-02-16 23:45 liangxb 阅读(1038) 评论(0) 推荐(0) 编辑
摘要: Selenium是一个自动化测试工具,利用它可以驱动浏览器执行特定的动作,如点击、下拉等操作,同时还可以获取浏览器当前呈现的页面的源代码,做到可见即可爬。对于一些JavaScript动态渲染的页面来说,此种抓取方式非常有效。本节中,就让我们来感受一下它的强大之处吧。 1. 准备工作 本节以Chrom 阅读全文
posted @ 2019-02-16 23:29 liangxb 阅读(5268) 评论(0) 推荐(1) 编辑
摘要: 用selenium做自动化,有时候会遇到需要模拟鼠标操作才能进行的情况,比如单击、双击、点击鼠标右键、拖拽等等。而selenium给我们提供了一个类来处理这类事件——ActionChains selenium.webdriver.common.action_chains.ActionChains(d 阅读全文
posted @ 2019-02-16 23:19 liangxb 阅读(22237) 评论(0) 推荐(5) 编辑
  2019年2月13日
摘要: scrapyrt为scrapy提供了一个http接口,有了它,我们不用再执行命令,而是直接请求一个http接口来启动项目,如果项目是部署在远程的,会比较方便。 1、安装: pip install scrapyrt 2、在任意一个项目中运行scrapyrt,再此我们在quotes爬虫项目中运行。默认会 阅读全文
posted @ 2019-02-13 22:42 liangxb 阅读(2148) 评论(0) 推荐(0) 编辑
摘要: 本篇文章我们以360图片为例,介绍scrapy框架的使用以及图片数据的下载。 目标网站:http://images.so.com/z?ch=photography 思路:分析目标网站为ajax加载方式,通过构造目标url从而请求数据,将图片数据存储在本地,将图片的属性存储在mongodb中。 1、首 阅读全文
posted @ 2019-02-13 22:04 liangxb 阅读(1636) 评论(0) 推荐(0) 编辑