会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
田智凯
博客园
首页
新随笔
联系
管理
订阅
上一页
1
2
3
4
5
6
···
12
下一页
2020年3月2日
python分词技术——jieba安装使用
摘要: jieba安装: 下载安装包,官网地址:https://pypi.org/project/jieba// 本人网盘链接:https://pan.baidu.com/s/1ufgUyYPaBv2NTUvwybH1Ew 提取码:nxed 解压安装: 首先压到任意目录 打开cmd命令行窗口并切换到jieb
阅读全文
posted @ 2020-03-02 22:52 田智凯
阅读(2553)
评论(0)
推荐(0)
2020年3月1日
Kettle的使用——大数据清洗技术
摘要: 参考德拓视频学习:http://113.31.104.47/portal/#/course/courseDetail/b34d160db64624732ef152a1118af11a?courseId=1b7e84f4eb8552536e2267093dbd7972 kettle安装:下载包直接解压
阅读全文
posted @ 2020-03-01 23:54 田智凯
阅读(8056)
评论(0)
推荐(0)
2020年2月28日
DataX的使用——大数据同步技术
摘要: 准备工作: 1.视频教学http://113.31.104.47/portal/#/course/dashboard/b34d160db64624732ef152a1118af11a 2.DataX的安装部署https://www.cnblogs.com/qingyunzong/p/9759993.
阅读全文
posted @ 2020-02-28 17:18 田智凯
阅读(2177)
评论(0)
推荐(0)
2020年2月24日
selenium设置chrome请求头
摘要: # 进入浏览器设置options = webdriver.ChromeOptions()# 设置中文options.add_argument('lang=zh_CN.UTF-8')# 更换头部options.add_argument('user-agent="Mozilla/5.0 (Windows
阅读全文
posted @ 2020-02-24 21:54 田智凯
阅读(8605)
评论(0)
推荐(0)
多进程爬虫python——实例爬取酷狗歌单
摘要: 多线程和多进程概述:当计算机运行程序时,就会创建包含代码和状态的进程。这些进程会通过计算机的一个或多个CPU执行。不过,同一时刻一个CPU只能执行一个进程,然后在不同进程间快速切换,这样就给人以多个程序同时运行的感觉。同理,在一个进程中,程序的执行也是在不同线程间进行切换的,每个线程执行程序的不同部
阅读全文
posted @ 2020-02-24 13:05 田智凯
阅读(698)
评论(0)
推荐(0)
2020年2月23日
爬取博客园最新文章
摘要: 遇到的问题: 目标div块循环中,有其它杂div,如何排除? 解决方法: for i in range(1, 40, 2): infos = selector.xpath('//*[@id="kb_list"]/div[{}]'.format(str(i))) for info in infos:
阅读全文
posted @ 2020-02-23 13:03 田智凯
阅读(328)
评论(0)
推荐(0)
2020年2月22日
python下用selenium的webdriver包如何在执行完点击下一页后没有获得下一页新打开页面的html源代码
摘要: 问题描述: 新打开的页面url不变,只是网页内容变了,然后使用drive.page_source得到的都是第一页的html代码,并不是当前页面的html代码。 1. 原因:webdriver仍默认在原页面下获取标签等信息; 解决方法:采用切换页面句柄的方式解决; #获取当前页面句柄 normal_w
阅读全文
posted @ 2020-02-22 21:03 田智凯
阅读(2970)
评论(0)
推荐(0)
warnings.warn('Selenium support for PhantomJS has been deprecated, please use headless '报错
摘要: 问题:selenium已经放弃PhantomJS,建议使用火狐或者谷歌无界面浏览器。 解决方案1: selenium版本降级 通过pip install selenium默认安装版本。 (通过pip show selenium显示版本)将其卸载pip uninstall selenium,重新安装并
阅读全文
posted @ 2020-02-22 12:26 田智凯
阅读(926)
评论(0)
推荐(0)
Python爬虫Selenium模拟浏览器——实例爬取北京市政百姓信件内容
摘要: 问题: 换页url不边,Ajax加载,于是进行抓包: 可是发现换页的时候Request URL也不变(看很多类似教程都是找url变化规律) 这时候我选择使用selenium和Chrome配合,模拟浏览器输入页数获得网页: 源代码: from lxml import etreeimport reque
阅读全文
posted @ 2020-02-22 11:44 田智凯
阅读(532)
评论(0)
推荐(0)
2020年2月20日
python 爬虫json数据解析——实例搜狗新型肺炎疫情数据爬取
摘要: 1.首先登录搜狗网http://sa.sogou.com/new-weball/page/sgs/epidemic?type_page=pcpop 2.刷新找到数据https://lspengine.map.sogou.com/coronavirus/epidemic/search/area/inf
阅读全文
posted @ 2020-02-20 16:23 田智凯
阅读(814)
评论(0)
推荐(1)
上一页
1
2
3
4
5
6
···
12
下一页
公告