啊涵呀

导航

03 2019 档案

理解爬虫原理
摘要:1. 简单说明爬虫原理 什么是爬虫 爬虫:请求网站并提取数据的自动化程序 百科:网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。 2. 理解爬虫 阅读全文

posted @ 2019-03-26 22:43 啊涵呀 阅读(245) 评论(0) 推荐(0)

Python中文词频统计
摘要:1. 下载一长篇中文小说。 2. 从文件读取待分析文本。 3. 安装并使用jieba进行中文分词。 pip install jieba import jieba ljieba.lcut(text) 4. 更新词库,加入所分析对象的专业词汇。 jieba.add_word('天罡北斗阵') #逐个添加 阅读全文

posted @ 2019-03-18 21:44 啊涵呀 阅读(16314) 评论(0) 推荐(1)

复合数据类型,英文词频统计
摘要:1.列表,元组,字典,集合分别如何增删改查及遍历。 列表 2.总结列表,元组,字典,集合的联系与区别。参考以下几个方面: 括号 列表[]; 元组(); 字典{};集合()或者{} 有序无序 列表和元组有序,字典和集合无序 可变不可变 列表,字典可变,元组不可变,集合可变也可不变 重复不可重复 列表, 阅读全文

posted @ 2019-03-14 21:58 啊涵呀 阅读(198) 评论(0) 推荐(0)

Python——字符串、文件操作,英文词频统计预处理
摘要:一.字符串操作: 解析身份证号:生日、性别、出生地等。 凯撒密码编码与解码 网址观察与批量生成 2.凯撒密码编码与解码 凯撒加密法的替换方法是通过排列明文和密文字母表,密文字母表示通过将明文字母表向左或向右移动一个固定数目的位置。例如,当偏移量是左移3的时候(解密时的密钥就是3),所有的字母A将被替 阅读全文

posted @ 2019-03-06 21:56 啊涵呀 阅读(425) 评论(0) 推荐(0)