会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
在路上-UP
唯有前行,不负年华!
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
4
5
6
7
下一页
2018年1月5日
字符串和文本处理技巧
摘要: 复杂文本分隔: 你需要将一个字符串分割为多个字段,但是分隔符(还有周围的空格)并不是固定的。 解决办法: Note: 当你使用 re.split() 函数时候,需要特别注意的是正则表达式中是否包含一个括号捕获分组。 如果使用了捕获分组,那么被匹配的文本也将出现在结果列表中。比如,观察一下这段代码运行
阅读全文
posted @ 2018-01-05 10:20 在路上-UP
阅读(359)
评论(0)
推荐(0)
2018年1月3日
[Algorithm & NLP] 文本深度表示模型——word2vec&doc2vec词向量模型
摘要: 博客出处:http://www.cnblogs.com/maybe2030/ 阅读目录 1. 词向量 2.Distributed representation词向量表示 3.词向量模型 4.word2vec算法思想 5.doc2vec算法思想 6.参考内容 深度学习掀开了机器学习的新篇章,目前深度学
阅读全文
posted @ 2018-01-03 18:15 在路上-UP
阅读(775)
评论(0)
推荐(0)
2017年12月28日
scrapy中的cookies参数详解
摘要: COOKIES_ENABLED 默认: True 是否启用cookiesmiddleware。如果关闭,cookies将不会发送给web server。 COOKIES_DEBUG 默认: False 如果启用,Scrapy将记录所有在request(cookie 请求头)发送的cookies及re
阅读全文
posted @ 2017-12-28 19:02 在路上-UP
阅读(3327)
评论(0)
推荐(0)
xpath使用技巧
摘要: 爬虫中我们对于元素的定位有多种方法,大致有: Beautifulsoup、Xpath和正则表达式三种方式 其中效率比较为: Beautifulsoup<Xpath<正则表达式 习惯了使用Beautifulsoup的新手在转为使用xpath时可能回遇到一个问题: xpath的text()方法无法像Be
阅读全文
posted @ 2017-12-28 15:44 在路上-UP
阅读(364)
评论(0)
推荐(0)
2017年12月25日
本周末预计更新博客内容
摘要: 在python的异常处理时大家通常会遇到让人比较心烦的一个问题:最终输出的异常原因知识一句问题原因的大致描述,并不知道异常真这个出现的行及其调用过程中具体那一步出现了这个问题。 import traceback try: 1/0 except Exception: print(traceback.f
阅读全文
posted @ 2017-12-25 22:54 在路上-UP
阅读(119)
评论(0)
推荐(0)
2017年12月17日
ubuntu 16.4下hadoop配置伪分布式时出现的坑
摘要: 在ubuntu16.4下spark的单机/伪分布式配置我在此就不在一一赘述,详情请点击如下连接: Hadoop安装教程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.04 我出现问题是在配置好伪分布式的文件并且NameNode 的格式化正确我弄成后,在启动hdfs时出现如下错误: 此
阅读全文
posted @ 2017-12-17 23:08 在路上-UP
阅读(551)
评论(0)
推荐(0)
2017年12月10日
scrapy--meta参数传递问题
摘要: scrapy使用大坑 meta参数传递出现之重复问题 问题描述: 爬虫目标: 实现哔哩哔哩网站的视频信息爬取,只要的信息结构爬去顺序为**关键词的搜索结果,拿到第一页上某个视频的标题,url,和时间,然后进入下级页面爬去该视频的对应的评论,回复,弹幕,点赞数等等数据,联合组成一个关于该视频的完整信息
阅读全文
posted @ 2017-12-10 17:47 在路上-UP
阅读(2389)
评论(0)
推荐(0)
2017年12月2日
ubuntu python3相关
摘要: 安装pip3 sudo pip3 install virtualenvwrapper Could not find a version that satisfies the requirement pip3 (from versions: )No matching distribution foun
阅读全文
posted @ 2017-12-02 23:15 在路上-UP
阅读(134)
评论(0)
推荐(0)
2017年11月27日
toutiao url
摘要: https://it.snssdk.com/article/v2/tab_comments/?group_id=6485899113563947533&item_id=6485899113563947533&aggr_type=1&count=20&offset=0&tab_index=0&fold
阅读全文
posted @ 2017-11-27 23:52 在路上-UP
阅读(308)
评论(0)
推荐(0)
2017年11月23日
cookies
摘要: {'ABTEST':'0|1511442013|v1','JSESSIONID':'aaaZY9-p_6O-XceukYv8v','SUID':'8A84F9721E24940A000000005A16C65D','ppmdig':'1511442395000000fb9379546ef121524
阅读全文
posted @ 2017-11-23 23:48 在路上-UP
阅读(205)
评论(0)
推荐(0)
上一页
1
2
3
4
5
6
7
下一页
公告