个人博客转至:tybai.com

无聊就想打码,打码使我快乐


Fork me on GitHub
上一页 1 2 3 4 5 6 7 8 9 ··· 14 下一页

2017年10月30日

CSDN文章抓取

摘要:在抓取网页的时候只想抓取主要的文本框,例如 中的主要文本框为下图红色框: 抓取的思想是,利用 查找所有的 ,用正则筛选出每个 里面的中文,找到中文字数最多的 就是属于正文的 了。定义一个抓取的头部抓取网页内容: 识别每个 中文字的正则: 遍历每一个 ,利用正则判断里面中文的字数长度,找到长度最长的 阅读全文

posted @ 2017-10-30 15:02 TTyb 阅读(288) 评论(0) 推荐(0) 编辑

2017年10月24日

python识别html主要文本框

摘要:在抓取网页的时候只想抓取主要的文本框,例如 中的主要文本框为下图红色框: 抓取的思想是,利用 查找所有的 ,用正则筛选出每个 里面的中文,找到中文字数最多的 就是属于正文的 了。定义一个抓取的头部抓取网页内容: 识别每个 中文字的正则: 遍历每一个 ,利用正则判断里面中文的字数长度,找到长度最长的 阅读全文

posted @ 2017-10-24 14:41 TTyb 阅读(1198) 评论(0) 推荐(0) 编辑

2017年10月13日

selenium下拉到页面最底端

摘要:selenium操控浏览器下拉到页面最底端: !/usr/bin/env python coding: utf 8 from selenium import webdriver import time if __name__ == '__main__': url = "http://blog.csd 阅读全文

posted @ 2017-10-13 18:00 TTyb 阅读(1179) 评论(0) 推荐(1) 编辑

2017年10月12日

dataframe去除null、NaN和空字符串

摘要:去除null、NaN 去除 中的 、 有方法 ,用 找出带有 、 的行,用 删除行: 去除空字符串 去除空字符串用 : 阅读全文

posted @ 2017-10-12 11:00 TTyb 阅读(7211) 评论(0) 推荐(0) 编辑

2017年8月22日

python读写excel

摘要:在工作中往往需要读取 文件,但是读取 的方式很多,本文只列举集中比较好用的读写 或者 的方法: 读取2007版本的excel 读取 需要用库 , 安装方式: 。设置 的路径: 读取第一个 表中的内容: 这个库读取行和列是从 开始的,而不是从 开始的,所以设置初始的行和列都为 : 当然也可以读取第二个 阅读全文

posted @ 2017-08-22 16:58 TTyb 阅读(447) 评论(0) 推荐(0) 编辑

2017年8月8日

scala时间和时间戳互转

摘要:时间转换为时间戳: 时间戳转化为时间: 阅读全文

posted @ 2017-08-08 17:15 TTyb 阅读(13228) 评论(0) 推荐(0) 编辑

2017年8月4日

Spark No FileSystem for scheme file 解决方法

摘要:在给代码带包成jar后,放到环境中运行出现如下错误: 这是因为 的配置文件没写好,更改方式如下: 找到自己项目保存库的位置,依次点击: File Settings Build,Execution,Deployment Build Tools Maven Local repository 这里的 就是 阅读全文

posted @ 2017-08-04 09:54 TTyb 阅读(3283) 评论(0) 推荐(0) 编辑

2017年7月14日

spark使用udf给dataFrame新增列

摘要:在 中给 增加一列的方法一般使用 打印结果如下: 可以看到 很依赖原来 的结构,但是假设没有 这一列,那么增加列的时候灵活度就降低了很多,假设原始 如下: 这样可以用 写自定义函数进行增加列: 得到结果: 还可以写下更多的逻辑判断: 阅读全文

posted @ 2017-07-14 11:23 TTyb 阅读(7515) 评论(0) 推荐(0) 编辑

2017年7月11日

scala查询dataFrame结构

摘要:``` println(dataFrame.printSchema) ``` ![](http://images2015.cnblogs.com/blog/996148/201707/996148-20170711135355962-1459151524.png) 阅读全文

posted @ 2017-07-11 13:54 TTyb 阅读(266) 评论(0) 推荐(0) 编辑

2017年6月28日

Spark中SQL列和并为一行

摘要:在使用数据库的时候,需要将查询出来的一列按照逗号合并成一行。 原表名字为 ,表中的部分原始数据为: 查询代码为: 得到部分结果为: 但是在 中没有 命令,查找后发现命令 : 得到结果: 也可以用另一个方法: 但是得到的结果为 : 阅读全文

posted @ 2017-06-28 14:52 TTyb 阅读(321) 评论(0) 推荐(0) 编辑

2017年6月27日

Linux清空文件内容

摘要:日志文件太多,需要清空: 阅读全文

posted @ 2017-06-27 08:50 TTyb 阅读(51) 评论(0) 推荐(0) 编辑

2017年6月13日

xshell连接ubuntu

摘要:安装了 ,为了连接 ,做出的一些配置如下: 1.激活root用户 设置新密码,设置成功后会有提示 2.安装ssh服务 3.设置root密码登陆 将 改成: 4.使配置生效 安装完毕后重启 服务: 5.验证ssh是否开启 最后就可以用 连接了 以下为找到 控制台位置: 找到按钮: 点击第二个: 点击第 阅读全文

posted @ 2017-06-13 09:24 TTyb 阅读(164) 评论(0) 推荐(0) 编辑

2017年5月29日

零基础如何学Python爬虫技术?

摘要:在作者学习的众多编程技能中,爬虫技能无疑是最让作者着迷的。与自己闭关造轮子不同,爬虫的感觉是与别人博弈,一个在不停的构建 反爬虫 规则,一个在不停的破译规则。 如何入门爬虫?零基础如何学爬虫技术?那前提肯定会是需要学习一门 简单易入门 的编程语言了,就作者而言, 无疑是最合适的!到2014年7月为止 阅读全文

posted @ 2017-05-29 11:34 TTyb 阅读(2188) 评论(1) 推荐(6) 编辑

2017年5月22日

scala用ssh2连接Linux

摘要:这个需要安装库: 首先用 和 创建连接: 判断这个连接是否连接上了,这个用了一个 类型判断: 如果连接成功的话,那么就将命令发送过去,命令发送只需要建立一个会话即可,执行命令返回的值保存在 中: 最后就是处理解析 中的返回结果就行了: 完整的类封装成: 在 函数中调用这个类即可: 这个方法能发送的 阅读全文

posted @ 2017-05-22 21:12 TTyb 阅读(188) 评论(0) 推荐(0) 编辑

scala调用Linux命令行

摘要:在 里面存在 调用 命令行的函数: 执行的方法也不难: 需要注意的是,这个库只能调用 的命令行,在 下不行 阅读全文

posted @ 2017-05-22 20:57 TTyb 阅读(671) 评论(0) 推荐(0) 编辑

上一页 1 2 3 4 5 6 7 8 9 ··· 14 下一页

导航


不用多久

我就会升职加薪

当上总经理

出任CEO

迎娶白富美

走上人生巅峰

Pulpit rock