随笔列表第4页 - 桌子哥

2021年4月22日

摘要：最近在研究舆情监测，在做自然语言处理部分的时候需要用到深度学习的方法进行特征提取和建模预测，因此在这里学习了下Pytorch。之后整个监测系统做好之后发布到博客里和大家学习交流一下。 1.Tensor张量概念首先来介绍下Pytorch的入门知识，这部分概念参考自https://www.jiansh 阅读全文

posted @ 2021-04-22 19:50 桌子哥阅读(563) 评论(0) 推荐(0) 编辑

2021年4月12日

HBase基础知识——HBase列式存储格式

摘要：今天在外面培训，培训老师讲了一下HBase，网上看了有专家写了一篇文章，转载一下。之后补充培训的成果。行式存储传统的数据库是关系型的，且是按行来存储的。如下图：其中只有张三把一行数据填满了，李四王五赵六的行都没有填满。因为这里的行结构是固定的，每一行都一样，即使你不用，也必须空到那里，而不能阅读全文

posted @ 2021-04-12 23:09 桌子哥阅读(1158) 评论(0) 推荐(0) 编辑

2021年4月8日

Selenium网络爬虫实战——以巨潮咨询网为例

摘要： Selenium库是一个自动化测试工具，能够驱动浏览器模拟人的操作，如鼠标单击、键盘输入等。通过Selenium库能够比较容易地获取到网页的源代码，还可以进行网络内容的批量下载。特别对于一些动态网页很实用。本次内容以巨潮网为例，进行pdf文件的下载操作。以Chrome浏览器为例，需要下载并安装模阅读全文

posted @ 2021-04-08 17:41 桌子哥阅读(927) 评论(0) 推荐(0) 编辑

2021年3月12日

从新浪财经获取金融新闻类数据并进行打分计算

摘要：随着人们获取信息的方式转变，越来越多的人选择通过互联网来进行信息的获取。新浪财经作为国内较为权威的专业财经新闻网站，通过其发布的新闻资讯可以判断某公司在近期舆论中的情况。第一步：网络爬虫这里不再讲，和以往的相比增加了获取新闻内容。第二步：设计关键字（词）一些对于金融机构不好的词（初试，不精阅读全文

posted @ 2021-03-12 19:35 桌子哥阅读(172) 评论(0) 推荐(0) 编辑

SQL窗口函数的用法总结

摘要：一.窗口函数有什么用？在日常工作中，经常会遇到需要在每组内排名，比如下面的业务需求：排名问题：每个部门按业绩来排名topN问题：找出每个部门排名前N的员工进行奖励面对这类需求，就需要使用sql的高级功能窗口函数了。二.什么是窗口函数？窗口函数，也叫OLAP函数（Online Anallyti 阅读全文

posted @ 2021-03-12 11:25 桌子哥阅读(2031) 评论(0) 推荐(0) 编辑

2021年3月11日

从新浪财经获取金融新闻类数据并保存到MySQL

摘要：前面讲到过如何获取新浪财经金融类新闻的方法，现在讲如何将这些数据存入到MySQL数据库。在这里需要使用的是Wampserver64，图标如下：具体的安装过程就不说了，需要注意的是Apache和MySQL端口占用的问题，进行端口替换就可以了。安装成功后的Wampserver为在托盘中的一个绿色阅读全文

posted @ 2021-03-11 19:59 桌子哥阅读(250) 评论(0) 推荐(0) 编辑

2021年3月4日

数据仓库-拉链表, 流水表, 全量表, 增量表, 切片表

摘要：数据仓库-拉链表, 流水表, 全量表, 增量表, 切片表 1 增量表1.1 概念增量表：新增数据，增量数据是上次导出之后的新数据。比如说，从24号到25号新增了那些数据，改变了哪些数据，这些都会存储在增量表的25号分区里面。记录每次增加的量，而不是总量；增量表，只报变化量，无变化不用报每天一个分阅读全文

posted @ 2021-03-04 18:03 桌子哥阅读(2950) 评论(0) 推荐(0) 编辑

2021年3月2日

云计算、雾计算、霾计算、边缘计算以及认知计算

摘要：物联网对于数据的处理能力要求很高，怎么能够从庞大的数据海中挖掘一些有价值的信息对于物联网的发展至关重要，因此云计算，雾计算，边缘计算等等都将发挥其左右。未来的世界将是一个万物互联的时代，随着物联网行业技术标准的完善以及关键技术上的不断突破，数据大爆炸时代将越走越近。就拿从2016年底开始风靡全国甚阅读全文

posted @ 2021-03-02 22:57 桌子哥阅读(402) 评论(0) 推荐(0) 编辑

2021年2月28日

从新浪财经获取金融新闻类数据

摘要：新浪财经是金融新闻类数据挖掘很重要的一个数据来源，它的新闻质量一般都很高。在这里使用爬虫的方法来获取新浪财经的一些新闻资讯。第一步：打开新浪财经网站第二步：搜索‘工商银行’ 第三步：获取新浪财经里的‘工商银行’的url url = 'https://search.sina.com.cn/? 阅读全文

posted @ 2021-02-28 20:57 桌子哥阅读(744) 评论(0) 推荐(0) 编辑

Firefox浏览器获取Header

摘要：对于网络爬虫来说header是很重要的一环，因为有些网站只认可浏览器发送的访问请求。网上的例子多是Chrome的，Firefox的较少。第一步：使用百度打开一个网页第二步：按F12进入开发者模式第三步：选择网络第四步：点击一项进去右下角可以看到User-Agent 有这个就可以进阅读全文

posted @ 2021-02-28 10:45 桌子哥阅读(587) 评论(0) 推荐(0) 编辑