python - 随笔分类(第3页) - ystraw

摘要：本来准备自己写识别的，貌似现在能力不足，直接偷懒用百度的api吧阅读全文

posted @ 2018-10-09 17:30 ystraw 阅读(196) 评论(0) 推荐(0)

摘要：首先在网上下载一个汉语词典的txt文件，汉语词典 1.用正则去掉词语的解释，即提取出所有汉语词语；阅读全文

posted @ 2018-09-17 18:54 ystraw 阅读(568) 评论(0) 推荐(0)

18-(unicode error) 'unicodeescape' codec can't decode bytes in position 16-17: truncated \uXXXX escape

摘要：读取文件时碰到问题： 1.(unicode error) 'unicodeescape' codec can't decode bytes in position 16-17: truncated \uXXXX escape 在stackoverflow上找到了答案，就是将在路径字符串前加 r : 阅读全文

posted @ 2018-09-17 17:27 ystraw 阅读(307) 评论(0) 推荐(0)

17-list,字典使用练习

摘要：randint(a,b)包括 [a,b]中随机, 包含a,b range(n)= 0,1,2,3....n-1 chr() 数字转字符: chr(65) 得到：A ord()字符转数字： ord('a') 得到：97 随机生成一些字符，并存入list里面：统计一片英文文章里面的字母出现次数：字阅读全文

posted @ 2018-09-10 15:41 ystraw 阅读(140) 评论(0) 推荐(0)

16-多线程爬取糗事百科（python+Tread）

摘要：https://www.cnblogs.com/alamZ/p/7414020.html 课件内容阅读全文

posted @ 2018-07-17 20:03 ystraw 阅读(233) 评论(0) 推荐(0)

15-糗事百科（python+xpath）

摘要：爬取糗事百科的段子： 1.用xpath分析首要爬去内容的表达式； 2.用发起请求，获得原码； 3.用xpath分析源码，提取有用信息； 4.由python格式转为json格式，写入文件效果：不不以json格式存储：效果：阅读全文

posted @ 2018-07-17 12:44 ystraw 阅读(188) 评论(0) 推荐(0)

14-python登入教务网(python+bs4)

摘要：用request先得到到session对象，用其去放送请求，会自动保存cookie。模拟有验证码的登入步骤： 1.发送请求登入页面； 2.分析验证码的地址，以及要将登入请求发往的地址（可以先输入错的密码登入一次，抓包获取发送地址） 3.将返回的验证码存入文件，读取验证码，手动输入； 4.整合所有数阅读全文

posted @ 2018-07-16 21:31 ystraw 阅读(530) 评论(0) 推荐(0)

13-爬取百度贴吧中的图片（python+xpath）

摘要：通过xpath分析页面，爬取页面中的图片: 阅读全文

posted @ 2018-07-15 13:34 ystraw 阅读(243) 评论(0) 推荐(0)

12-在eclipse上安装lxml

摘要：1.可用easy_install安装方式，也可以用pip的方式： pip install lxml 2.安装完毕：写代码导包时提示错误，这是需要配置一下eclipse，是因为它没有更新导入的包，所以需要将原来的删了，重新导入：阅读全文

posted @ 2018-07-15 10:47 ystraw 阅读(149) 评论(0) 推荐(0)

11-内涵段子-爬虫(python+正则)

摘要：爬取内涵段子，使用正则进行简单处理：阅读全文

posted @ 2018-07-15 08:56 ystraw 阅读(260) 评论(0) 推荐(0)

10-python中的requests应用

摘要：使用request方便：阅读全文

posted @ 2018-07-14 19:34 ystraw 阅读(187) 评论(0) 推荐(0)

9-python 的ProxyHandler处理器（代理设置）

摘要：ProxyHandler处理器（代理设置）使用代理IP，这是爬虫/反爬虫的第二大招，通常也是最好用的。很多网站会检测某一段时间某个IP的访问次数(通过流量统计，系统日志等)，如果访问次数多的不像正常人，它会禁止这个IP的访问。所以我们可以设置一些代理服务器，每隔一段时间换一个代理，就算IP被禁阅读全文

posted @ 2018-07-14 13:09 ystraw 阅读(634) 评论(0) 推荐(0)

8-python模拟登入（无验证码）

摘要：方式： 1.手动登入，获取cookie 2.使用cookielib库和 HTTPCookieProcessor处理器阅读全文

posted @ 2018-07-14 13:03 ystraw 阅读(286) 评论(0) 推荐(0)

7-python自定义opener

摘要：Handler处理器和自定义Opener opener是 urllib2.OpenerDirector 的实例，我们之前一直都在使用的urlopen，它是一个特殊的opener（也就是模块帮我们构建好的）。但是基本的urlopen()方法不支持代理、cookie等其他的HTTP/HTTPS高级阅读全文

posted @ 2018-07-14 13:00 ystraw 阅读(269) 评论(0) 推荐(0)

6-豆瓣剧情排行爬虫

摘要：爬去豆瓣排行阅读全文

posted @ 2018-07-13 10:59 ystraw 阅读(174) 评论(0) 推荐(0)

5-有道爬虫demo（post）

摘要：爬取有道页面，实现中文翻译成英文：阅读全文

posted @ 2018-07-12 23:59 ystraw 阅读(128) 评论(0) 推荐(0)

4-fiddler抓包中文乱码：

摘要：接受到的html被压缩了，要解压，在工具栏有decode 阅读全文

posted @ 2018-07-12 21:39 ystraw 阅读(300) 评论(0) 推荐(0)

3-百度贴吧爬虫

摘要：被写文件坑了一晚上，因为自己写了writeFile(),但是调用的是WriteFile()刚好python里面有WriteFile()所以刚好不报错！！！！！阅读全文

posted @ 2018-07-12 20:45 ystraw 阅读(217) 评论(0) 推荐(0)

2-python代码坑点

摘要：#切片： # L = ['aaa', 'bbb', 'ccc', 'ddd'] # print(L[1 : 3]) #取[1, 3):下标 # L = list(range(100)) # print(L[:10]) # print(L[-10:]) # # print(L[2:10:4]) #从2开始取，步长为4，小于10 # # [2, 6] # print('abcdefg... 阅读全文

posted @ 2018-07-11 11:37 ystraw 阅读(126) 评论(0) 推荐(0)

1-在eclipse里面配置python（最详细）

摘要：最近有时间打算学下python,打算学当然是得先搞好开发工具，网上搜一波，发现许多ide，居然可以在eclipse下写python，由于最近一直在搞java,所以已经装了eclipse，所以打算就在eclipse上面写python了，下面将介绍我的配置过程，部分内容是网上查询的。遇到的主要问题是：阅读全文

posted @ 2018-06-19 13:09 ystraw 阅读(1266) 评论(0) 推荐(0)

随笔分类 - python