随笔分类 -  Python

摘要:正则表达式使用某种预定义的模式去匹配一类具有共同特征的字符串,主要用于处理字符串,可以快速、准确地完成复杂的查找、替换等处理要求,在文本编辑与处理、网页爬虫之类的场合中有重要应用。Python中,re模块提供了正则表达式操作所需要的功能。 元字符 功能说明 . 匹配除换行符以外的任意单个字符 [] 阅读全文
posted @ 2020-01-31 17:53 一滴小小雨 阅读(316) 评论(0) 推荐(0)
摘要:一、中国大学排名定向爬虫 定向爬虫:仅对输入URL进行爬取,不扩展爬取。 步骤一:从网络上获取大学排名网页内容 getHTMLText() 最好大学网:http://www.zuihaodaxue.com/zuihaodaxuepaiming2016.html 步骤二:提取网页内容中信息到合适的数据 阅读全文
posted @ 2020-01-31 16:56 一滴小小雨 阅读(487) 评论(0) 推荐(0)
摘要:实例一:京东商品页面的爬取 import requests url = "https://item.jd.com/100004770237.html" try: r = requests.get(url) r.raise_for_status() r.encoding = r.apparent_en 阅读全文
posted @ 2020-01-30 11:16 一滴小小雨 阅读(173) 评论(0) 推荐(0)
摘要:一、生成汉字词云图的代码如下: from wordcloud import WordCloud import matplotlib.pyplot as plt #绘制图像的模块 import jieba #jieba分词 path_txt='E://python/all.txt' f = open( 阅读全文
posted @ 2020-01-27 17:45 一滴小小雨 阅读(1903) 评论(0) 推荐(0)
摘要:链接:https://www.jianshu.com/p/15715d6f4dad 1、切片是Python序列的重要操作之一,适用于列表元组、字符串、range对象等类型; 2、切片使用2个冒号分割3个数字来完成: 第一个数字表示切片的开始位置(默认为0) 第二个数字表示切片截止(但不包含)位置(默 阅读全文
posted @ 2019-12-25 10:30 一滴小小雨 阅读(1474) 评论(0) 推荐(0)
摘要:链接于:https://www.runoob.com/python/python-lists.html min()返回列表中最小的元素。 max()返回列表中最大的元素。 >>> x = ['11','2','3'] >>> max(x) '3' >>> min(x) '11' 以上列表中的元素为字 阅读全文
posted @ 2019-12-25 09:15 一滴小小雨 阅读(10412) 评论(0) 推荐(0)