个人博客转至:tybai.com

无聊就想打码,打码使我快乐


Fork me on GitHub
共 14 页: 上一页 1 2 3 4 5 6 7 8 下一页 末页

2017年12月27日

github pages代码高亮highlighter

摘要:`github pages highlighter jekyll 3.0 rouge` 终于搞定了: 下载代码高亮库 在 中输入: 可以下载 出来,将这个 文件放到 项目中存放 的目录下,并在 中引用这个库,请自行更改引用的路径: 配置文件 中添加这些: 将博文 文件中的 替换为 : 调试代码高亮 阅读全文

posted @ 2017-12-27 09:44 TTyb 阅读 (1092) 评论 (0) 编辑

2017年12月26日

spark System memory must be at least

摘要:运行 程序的时候出现错误: 在 里面找到: 设置大小: 阅读全文

posted @ 2017-12-26 09:53 TTyb 阅读 (221) 评论 (0) 编辑

2017年12月6日

spark计算两个DataFrame的差集、交集、合集

摘要:`spark dataframe dataframe` : 差集 except + + |sentence| + + |f8934y | + + 交集 intersect + + |sentence| + + | asf| | 2143| + + 合集 union + + |sentence| + 阅读全文

posted @ 2017-12-06 11:47 TTyb 阅读 (5495) 评论 (0) 编辑

2017年11月22日

Linux查看系统、核数、CPU、位数

摘要:查看系统: 结果为 查看核数和CPU: 个核,处理器为 , 位 阅读全文

posted @ 2017-11-22 11:13 TTyb 阅读 (307) 评论 (0) 编辑

2017年11月11日

淘宝天猫商品抓取

摘要:知己知彼,百战百胜。意为如果对敌我双方的情况都能了解透彻,打起仗来百战就不会有危险。语出《孙子·谋攻篇》:“知彼知己,百战不殆;不知彼而知己,一胜一负;不知彼,不知己,每战必殆。” 任何一个电子商务公司想要存活下去,必须要时时掌控市场的动态,包括但不局限于: 1. 爆款款式 2. 热卖销量 3. 加 阅读全文

posted @ 2017-11-11 15:38 TTyb 阅读 (4190) 评论 (3) 编辑

2017年11月9日

Linux suse 11 sp1 安装教程

摘要:在 中打开 文件,进入主界面,选择 : 语言选择 简体中文 ,键盘选择 美国US ,选择下一步,点击继续: 选择 全部安装 ,点击下一步: 区域选择 亚洲 ,时区选择 上海 ,点击下一步: 选择桌面看个人喜好,我选择新版本的 ,点击下一步: 选择 基于分区 ,下一步: 填写账号密码,我写的密码太简单 阅读全文

posted @ 2017-11-09 11:13 TTyb 阅读 (758) 评论 (0) 编辑

2017年10月30日

CSDN文章抓取

摘要:在抓取网页的时候只想抓取主要的文本框,例如 中的主要文本框为下图红色框: 抓取的思想是,利用 查找所有的 ,用正则筛选出每个 里面的中文,找到中文字数最多的 就是属于正文的 了。定义一个抓取的头部抓取网页内容: 识别每个 中文字的正则: 遍历每一个 ,利用正则判断里面中文的字数长度,找到长度最长的 阅读全文

posted @ 2017-10-30 15:02 TTyb 阅读 (198) 评论 (0) 编辑

2017年10月24日

python识别html主要文本框

摘要:在抓取网页的时候只想抓取主要的文本框,例如 中的主要文本框为下图红色框: 抓取的思想是,利用 查找所有的 ,用正则筛选出每个 里面的中文,找到中文字数最多的 就是属于正文的 了。定义一个抓取的头部抓取网页内容: 识别每个 中文字的正则: 遍历每一个 ,利用正则判断里面中文的字数长度,找到长度最长的 阅读全文

posted @ 2017-10-24 14:41 TTyb 阅读 (761) 评论 (0) 编辑

2017年10月13日

selenium下拉到页面最底端

摘要:selenium操控浏览器下拉到页面最底端: !/usr/bin/env python coding: utf 8 from selenium import webdriver import time if __name__ == '__main__': url = "http://blog.csd 阅读全文

posted @ 2017-10-13 18:00 TTyb 阅读 (598) 评论 (0) 编辑

2017年10月12日

dataframe去除null、NaN和空字符串

摘要:去除null、NaN 去除 中的 、 有方法 ,用 找出带有 、 的行,用 删除行: 去除空字符串 去除空字符串用 : 阅读全文

posted @ 2017-10-12 11:00 TTyb 阅读 (4326) 评论 (0) 编辑

2017年8月22日

python读写excel

摘要:在工作中往往需要读取 文件,但是读取 的方式很多,本文只列举集中比较好用的读写 或者 的方法: 读取2007版本的excel 读取 需要用库 , 安装方式: 。设置 的路径: 读取第一个 表中的内容: 这个库读取行和列是从 开始的,而不是从 开始的,所以设置初始的行和列都为 : 当然也可以读取第二个 阅读全文

posted @ 2017-08-22 16:58 TTyb 阅读 (282) 评论 (0) 编辑

2017年8月8日

scala时间和时间戳互转

摘要:时间转换为时间戳: 时间戳转化为时间: 阅读全文

posted @ 2017-08-08 17:15 TTyb 阅读 (8371) 评论 (0) 编辑

2017年8月4日

Spark No FileSystem for scheme file 解决方法

摘要:在给代码带包成jar后,放到环境中运行出现如下错误: 这是因为 的配置文件没写好,更改方式如下: 找到自己项目保存库的位置,依次点击: File Settings Build,Execution,Deployment Build Tools Maven Local repository 这里的 就是 阅读全文

posted @ 2017-08-04 09:54 TTyb 阅读 (2713) 评论 (0) 编辑

2017年7月14日

spark使用udf给dataFrame新增列

摘要:在 中给 增加一列的方法一般使用 打印结果如下: 可以看到 很依赖原来 的结构,但是假设没有 这一列,那么增加列的时候灵活度就降低了很多,假设原始 如下: 这样可以用 写自定义函数进行增加列: 得到结果: 还可以写下更多的逻辑判断: 阅读全文

posted @ 2017-07-14 11:23 TTyb 阅读 (5790) 评论 (0) 编辑

2017年7月11日

scala查询dataFrame结构

摘要:``` println(dataFrame.printSchema) ``` ![](http://images2015.cnblogs.com/blog/996148/201707/996148-20170711135355962-1459151524.png) 阅读全文

posted @ 2017-07-11 13:54 TTyb 阅读 (154) 评论 (0) 编辑

共 14 页: 上一页 1 2 3 4 5 6 7 8 下一页 末页

导航


不用多久

我就会升职加薪

当上总经理

出任CEO

迎娶白富美

走上人生巅峰

Pulpit rock