会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
------------只要够努力,人生最坏的结局不过是大器晚成!!!
ystraw
博客园
首页
博问
闪存
新随笔
管理
随笔分类 -
python
上一页
1
2
3
20-调用百度AI的文字识别
摘要:本来准备自己写识别的,貌似现在能力不足,直接偷懒用百度的api吧
阅读全文
posted @
2018-10-09 17:30
ystraw
阅读(196)
评论(0)
推荐(0)
19-python 自己建立词库并实现文章汉语词频统计
摘要:首先在网上下载一个汉语词典的txt文件, 汉语词典 1.用正则去掉词语的解释,即提取出所有汉语词语;
阅读全文
posted @
2018-09-17 18:54
ystraw
阅读(568)
评论(0)
推荐(0)
18-(unicode error) 'unicodeescape' codec can't decode bytes in position 16-17: truncated \uXXXX escape
摘要:读取文件时碰到问题: 1.(unicode error) 'unicodeescape' codec can't decode bytes in position 16-17: truncated \uXXXX escape 在stackoverflow上找到了答案,就是将在路径字符串前加 r :
阅读全文
posted @
2018-09-17 17:27
ystraw
阅读(307)
评论(0)
推荐(0)
17-list,字典使用练习
摘要:randint(a,b)包括 [a,b]中随机, 包含a,b range(n)= 0,1,2,3....n-1 chr() 数字转字符: chr(65) 得到 :A ord()字符转数字: ord('a') 得到:97 随机生成一些字符,并存入list里面: 统计一片英文文章里面的字母出现次数: 字
阅读全文
posted @
2018-09-10 15:41
ystraw
阅读(140)
评论(0)
推荐(0)
16-多线程爬取糗事百科(python+Tread)
摘要:https://www.cnblogs.com/alamZ/p/7414020.html 课件内容
阅读全文
posted @
2018-07-17 20:03
ystraw
阅读(233)
评论(0)
推荐(0)
15-糗事百科(python+xpath)
摘要:爬取糗事百科的段子: 1.用xpath分析首要爬去内容的表达式; 2.用发起请求,获得原码; 3.用xpath分析源码,提取有用信息; 4.由python格式转为json格式,写入文件 效果: 不 不以json格式存储: 效果:
阅读全文
posted @
2018-07-17 12:44
ystraw
阅读(188)
评论(0)
推荐(0)
14-python登入教务网(python+bs4)
摘要:用request先得到到session对象,用其去放送请求,会自动保存cookie。 模拟有验证码的登入步骤: 1.发送请求登入页面; 2.分析验证码的地址,以及要将登入请求发往的地址(可以先输入错的密码登入一次,抓包获取发送地址) 3.将返回的验证码存入文件,读取验证码,手动输入; 4.整合所有数
阅读全文
posted @
2018-07-16 21:31
ystraw
阅读(530)
评论(0)
推荐(0)
13-爬取百度贴吧中的图片(python+xpath)
摘要:通过xpath分析页面,爬取页面中的图片:
阅读全文
posted @
2018-07-15 13:34
ystraw
阅读(243)
评论(0)
推荐(0)
12-在eclipse上安装lxml
摘要:1.可用easy_install安装方式,也可以用pip的方式: pip install lxml 2.安装完毕:写代码导包时提示错误,这是需要配置一下eclipse,是因为它没有更新导入的包,所以需要将原来的删了, 重新导入:
阅读全文
posted @
2018-07-15 10:47
ystraw
阅读(149)
评论(0)
推荐(0)
11-内涵段子-爬虫(python+正则)
摘要:爬取内涵段子,使用正则进行简单处理:
阅读全文
posted @
2018-07-15 08:56
ystraw
阅读(260)
评论(0)
推荐(0)
10-python中的requests应用
摘要:使用request方便:
阅读全文
posted @
2018-07-14 19:34
ystraw
阅读(187)
评论(0)
推荐(0)
9-python 的ProxyHandler处理器(代理设置)
摘要:ProxyHandler处理器(代理设置) 使用代理IP,这是爬虫/反爬虫的第二大招,通常也是最好用的。 很多网站会检测某一段时间某个IP的访问次数(通过流量统计,系统日志等),如果访问次数多的不像正常人,它会禁止这个IP的访问。 所以我们可以设置一些代理服务器,每隔一段时间换一个代理,就算IP被禁
阅读全文
posted @
2018-07-14 13:09
ystraw
阅读(634)
评论(0)
推荐(0)
8-python模拟登入(无验证码)
摘要:方式: 1.手动登入,获取cookie 2.使用cookielib库 和 HTTPCookieProcessor处理器
阅读全文
posted @
2018-07-14 13:03
ystraw
阅读(286)
评论(0)
推荐(0)
7-python自定义opener
摘要:Handler处理器 和 自定义Opener opener是 urllib2.OpenerDirector 的实例,我们之前一直都在使用的urlopen,它是一个特殊的opener(也就是模块帮我们构建好的)。 但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级
阅读全文
posted @
2018-07-14 13:00
ystraw
阅读(269)
评论(0)
推荐(0)
6-豆瓣剧情排行爬虫
摘要:爬去豆瓣排行
阅读全文
posted @
2018-07-13 10:59
ystraw
阅读(174)
评论(0)
推荐(0)
5-有道爬虫demo(post)
摘要:爬取有道页面,实现中文翻译成英文:
阅读全文
posted @
2018-07-12 23:59
ystraw
阅读(128)
评论(0)
推荐(0)
4-fiddler抓包中文乱码:
摘要:接受到的html被压缩了,要解压,在工具栏有decode
阅读全文
posted @
2018-07-12 21:39
ystraw
阅读(300)
评论(0)
推荐(0)
3-百度贴吧爬虫
摘要:被写文件坑了一晚上,因为自己写了writeFile(),但是调用的是WriteFile()刚好python里面有WriteFile()所以刚好不报错!!!!!
阅读全文
posted @
2018-07-12 20:45
ystraw
阅读(217)
评论(0)
推荐(0)
2-python代码坑点
摘要:#切片: # L = ['aaa', 'bbb', 'ccc', 'ddd'] # print(L[1 : 3]) #取[1, 3):下标 # L = list(range(100)) # print(L[:10]) # print(L[-10:]) # # print(L[2:10:4]) #从2开始取,步长为4,小于10 # # [2, 6] # print('abcdefg...
阅读全文
posted @
2018-07-11 11:37
ystraw
阅读(126)
评论(0)
推荐(0)
1-在eclipse里面配置python(最详细)
摘要:最近有时间打算学下python,打算学当然是得先搞好开发工具,网上搜一波,发现许多ide,居然可以在eclipse下写python,由于最近一直在搞java,所以已经装了eclipse,所以打算就在eclipse上面写python了,下面将介绍我的配置过程,部分内容是网上查询的。 遇到的主要问题是:
阅读全文
posted @
2018-06-19 13:09
ystraw
阅读(1266)
评论(0)
推荐(0)
上一页
1
2
3
不经一番切孤寒,怎得梅花扑鼻香