随笔档案「2019年3月」 - 潘文祥

理解爬虫原理

摘要：老师：MissDu 提交作业老师：MissDu 提交作业 1. 简单说明爬虫原理通用网络爬虫从互联网中搜集网页，采集信息，这些网页信息用于为搜索引擎建立索引从而提供支持，它决定着整个引擎系统的内容是否丰富，信息是否即时，因此其性能的优劣直接影响着搜索引擎的效果。第一步：抓取网页，第二步：阅读全文

posted @ 2019-03-25 12:09 潘文祥阅读(206) 评论(0) 推荐(0)

中文词频统计

摘要：1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba ljieba.lcut(text) 4. 更新词库，加入所分析对象的专业词汇。 jieba.add_word('天罡北斗阵') #逐个添加阅读全文

posted @ 2019-03-18 14:00 潘文祥阅读(179) 评论(0) 推荐(0)

复合数据类型

摘要：1.列表，元组，字典，集合分别如何增删改查及遍历。 2.总结列表，元组，字典，集合的联系与区别。参考以下几个方面：括号有序无序可变不可变重复不可重复存储与查找方式 3.词频统计 1.下载一长篇小说，存成utf-8编码的文本文件 file 2.通过文件读取字符串 str 3.对文本进行预处理阅读全文

posted @ 2019-03-11 18:18 潘文祥阅读(305) 评论(0) 推荐(0)

字符串操作，英文词频统计预处理

摘要：作业来源：https://edu.cnblogs.com/campus/gzcc/GZCC-16SE2/homework/2646 1.字符串操作：解析身份证号：生日、性别、出生地等。凯撒密码编码与解码网址观察与批量生成 2.英文词频统计预处理下载一首英文的歌词或文章或小说将所有大写转换为阅读全文

posted @ 2019-03-04 11:27 潘文祥阅读(194) 评论(0) 推荐(0)

潘文祥

03 2019 档案

公告