liangxb - 博客园

2021年10月10日

摘要： Hive学习之路（三）Hive元数据信息对应MySQL数据库表转载自：Hive学习之路（三）Hive元数据信息对应MySQL数据库表 - 扎心了，老铁 - 博客园 (cnblogs.com) 目录概述一、存储Hive版本的元数据表（VERSION）二、Hive数据库相关的元数据表（DBS 阅读全文

posted @ 2021-10-10 21:48 liangxb 阅读(215) 评论(0) 推荐(0)

2021年1月27日

虚拟机能ping通，但是telnet某个端口却不行

摘要：问题描述：本机去ping虚拟机能ping通，然后telnet虚拟机的22端口也可以，但是telnet 22122 端口却连接不上。问题产生原因：虚拟机中的防火墙没有关闭，其中80端口是访问的（但是为啥22端口可以访问，我还没弄明白）你可以查看一下防火墙下可以访问的端口： firewall-cmd 阅读全文

posted @ 2021-01-27 23:24 liangxb 阅读(3087) 评论(0) 推荐(0)

2019年4月30日

大数据用户画像方法与实践(干货转帖)

摘要：在大数据时代，机器要学会从比特流中解读用户，构建用户画像就变得尤其重要。本文介绍了用户画像的理论和实践，以及在实际中的应用。如何根据用户画像进行精准营销？将用户画像应用于个性化推荐？一起来寻找答案吧~ 首先看一下大数据与应用画像的关系，现在大数据是炙手可热，相信大家对大数据的四个V都非常了解，大数据阅读全文

posted @ 2019-04-30 14:10 liangxb 阅读(5394) 评论(0) 推荐(0)

2019年3月2日

Scrapy实战篇（九）之爬取链家网天津租房数据

摘要：以后有可能会在天津租房子，所以想将链家网上面天津的租房数据抓下来，以供分析使用。思路： 1、以初始链接https://tj.lianjia.com/zufang/rt200600000001/?showMore=1(因为我只关心整租的房间)开始，首先获取每个行政区对应的链接。 2、在以每个区的链接阅读全文

posted @ 2019-03-02 19:14 liangxb 阅读(752) 评论(0) 推荐(0)

2019年3月1日

Scrapy实战篇（八）之爬取教育部高校名单抓取和分析

摘要：本节我们以网址https://daxue.eol.cn/mingdan.shtml为初始链接，爬取教育部公布的正规高校名单。思路： 1、首先以上面的地址开始链接，抓取到下面省份对应的链接。 2、在解析具体的省份源代码，获取数据。虽然山东和河南的网页结构和其他不同，我们也不做特殊处理，直接不做抓取即阅读全文

posted @ 2019-03-01 18:27 liangxb 阅读(1621) 评论(1) 推荐(0)

2019年2月16日

Scrapy实战篇（七）之爬取爱基金网站基金业绩数据

摘要：本篇我们以scrapy+selelum的方式来爬取爱基金网站(http://fund.10jqka.com.cn/datacenter/jz/)的基金业绩数据. 思路：我们以http://fund.10jqka.com.cn/datacenter/jz/网站作为起始，首先抓取页面中基金的详细页面地址阅读全文

posted @ 2019-02-16 23:45 liangxb 阅读(1180) 评论(0) 推荐(0)

Selenium常用方法

摘要： Selenium是一个自动化测试工具，利用它可以驱动浏览器执行特定的动作，如点击、下拉等操作，同时还可以获取浏览器当前呈现的页面的源代码，做到可见即可爬。对于一些JavaScript动态渲染的页面来说，此种抓取方式非常有效。本节中，就让我们来感受一下它的强大之处吧。 1. 准备工作本节以Chrom 阅读全文

posted @ 2019-02-16 23:29 liangxb 阅读(5346) 评论(0) 推荐(1)

Selenium之动作链（ActionChains）

摘要：用selenium做自动化，有时候会遇到需要模拟鼠标操作才能进行的情况，比如单击、双击、点击鼠标右键、拖拽等等。而selenium给我们提供了一个类来处理这类事件——ActionChains selenium.webdriver.common.action_chains.ActionChains(d 阅读全文

posted @ 2019-02-16 23:19 liangxb 阅读(25410) 评论(0) 推荐(5)

2019年2月13日

scrapy实战之scrapyrt的使用

摘要： scrapyrt为scrapy提供了一个http接口，有了它，我们不用再执行命令，而是直接请求一个http接口来启动项目，如果项目是部署在远程的，会比较方便。 1、安装： pip install scrapyrt 2、在任意一个项目中运行scrapyrt，再此我们在quotes爬虫项目中运行。默认会阅读全文

posted @ 2019-02-13 22:42 liangxb 阅读(2214) 评论(0) 推荐(0)

Scrapy实战篇（六）之爬取360图片数据和图片

摘要：本篇文章我们以360图片为例，介绍scrapy框架的使用以及图片数据的下载。目标网站：http://images.so.com/z?ch=photography 思路：分析目标网站为ajax加载方式，通过构造目标url从而请求数据，将图片数据存储在本地，将图片的属性存储在mongodb中。 1、首阅读全文

posted @ 2019-02-13 22:04 liangxb 阅读(1840) 评论(0) 推荐(0)