摘要:1. 分析 构建词云需要具备: 原料即文章等内容 将内容进行分词 将分词后的内容利用构建词云的工具进行构建 保存成图片 2. 需要的主要模块 jieba 中文分词 wordcloud 构建词云 3. 模块原理 wordcloud的实现原理 文本预处理 词频统计 将高频词以图片形式进行彩色渲染 jie 阅读全文
posted @ 2018-08-05 23:31 littlebob 阅读 (1639) 评论 (0) 编辑
摘要:转载 Python3之关闭SSL证书验证 转载 Python requests 移除SSL认证,控制台输出InsecureRequestWarning取消方法 报错信息: 解决方法 今天遇到在requests设置移除SSL认证的时候,控制台会抛出以下警告: 解决方法 阅读全文
posted @ 2018-07-04 13:18 littlebob 阅读 (3580) 评论 (0) 编辑
摘要:需要下载代码的可以到我的GitHub上下载 https://github.com/FightingBob/-Web-Crawler-training 如果觉得可以,请给我颗star鼓励一下,谢谢! 阅读全文
posted @ 2018-06-24 10:51 littlebob 阅读 (2994) 评论 (0) 编辑
摘要:【转载】Python爬虫之UserAgent 用到的库 https://github.com/hellysmile/fake-useragent 阅读全文
posted @ 2018-06-24 09:09 littlebob 阅读 (742) 评论 (0) 编辑
摘要:【转载】 【转载】安装mongodb以及设置为windows服务 详细步骤 将mongodb设置成windows服务,这样就不用使用命令启动了,设置方法如下: 1、在data文件夹下新建一个log文件夹,用于存放日志文件,在log文件夹下新建文件mongodb.log 2、在 D:\mongodb文 阅读全文
posted @ 2018-06-20 15:22 littlebob 阅读 (3077) 评论 (0) 编辑
摘要:项目代码 项目特点: 【转载】同步加载、异步加载、延迟加载 爬取的网站链接 KnewOne 需要下载代码的可以到我的GitHub上下载 https://github.com/FightingBob/-Web-Crawler-training 如果觉得可以,请给我颗star鼓励一下,谢谢! 阅读全文
posted @ 2018-06-19 16:54 littlebob 阅读 (3522) 评论 (0) 编辑
摘要:爬取的网站链接 穷游网 遇到的问题及解决办法 1.【转载】Python: 去掉字符串开头、结尾或者中间不想要的字符 ①Strip()方法用于删除开始或结尾的字符。lstrip()|rstirp()分别从左右执行删除操作。默认情况下会删除空白或者换行符,也可以指定其他字符。 ②如果想处理中间的空格,需 阅读全文
posted @ 2018-06-19 15:18 littlebob 阅读 (2224) 评论 (0) 编辑
摘要:利用Python做一个词频统计 GitHub地址:FightingBob 【Give me a star , thanks.】 词频统计 词频统计 对纯英语的文本文件【Eg: 瓦尔登湖(英文版).txt】的英文单词出现的次数进行统计,并记录起来 代码实现 1 import string 2 from 阅读全文
posted @ 2018-06-16 08:38 littlebob 阅读 (2112) 评论 (0) 编辑
摘要:整代码: 将以下代码保存为py文件 把要转成字符画的图片置于该文件的同级目录下 然后cmd打开命令行窗口 阅读全文
posted @ 2018-06-09 16:55 littlebob 阅读 (3042) 评论 (0) 编辑
摘要:f方法 阅读全文
posted @ 2019-10-10 21:40 littlebob 阅读 (19) 评论 (0) 编辑
摘要: 阅读全文
posted @ 2019-03-10 23:00 littlebob 阅读 (70) 评论 (0) 编辑
摘要:打开Project Interpreters页面:文件(file)——>设置(setting)——>项目(Project)——>Project Interpreters; 点击右边的配置按钮,选择Create VirtualEnv。这时会弹出Create Virtual Environment的对话 阅读全文
posted @ 2019-03-08 13:49 littlebob 阅读 (151) 评论 (0) 编辑
摘要:创建laravel应用 laravel new app_name 使用 PHP 内置 web server 驱动我们的网站 cd xxx/public php -S localhost:port 查看所有可用的 Artisan 命令 php artisan list 激活某些功能 eg:auth系统 阅读全文
posted @ 2018-09-19 22:08 littlebob 阅读 (115) 评论 (0) 编辑
摘要:1. 爬虫出现Forbidden by robots.txt 解决方法:setting.py ROBOTSTXT_OBEY = True 改成False 原因:scrapy抓包时的输出就能发现,在请求我们设定的url之前,它会先向服务器根目录请求一个txt文件 这个文件中规定了本站点允许的爬虫机器爬 阅读全文
posted @ 2018-08-12 11:57 littlebob 阅读 (801) 评论 (0) 编辑
摘要:1. 分析 构建词云需要具备: 原料即文章等内容 将内容进行分词 将分词后的内容利用构建词云的工具进行构建 保存成图片 2. 需要的主要模块 jieba 中文分词 wordcloud 构建词云 3. 模块原理 wordcloud的实现原理 文本预处理 词频统计 将高频词以图片形式进行彩色渲染 jie 阅读全文
posted @ 2018-08-05 23:31 littlebob 阅读 (1639) 评论 (0) 编辑
摘要:demo: 运行结果: 执行顺序: 2——12——3,4——13——5,6——11——17——7,8——19——20——7,8 如果第7行将‘ # ’ 号去掉 则执行顺序: 2——12——3,4——13——5,6——11——17——7,8,9——14,15——19——20——7,8,9——14,15 阅读全文
posted @ 2018-07-14 10:35 littlebob 阅读 (212) 评论 (0) 编辑
摘要:ajax爬取情况 有时候我们在用 Requests 抓取页面的时候,得到的结果可能和在浏览器中看到的是不一样的,在浏览器中可以看到正常显示的页面数据,但是使用 Requests 得到的结果并没有,这其中的原因是 Requests 获取的都是原始的 HTML 文档,而浏览器中的页面则是页面又经过 Ja 阅读全文
posted @ 2018-07-11 21:56 littlebob 阅读 (564) 评论 (0) 编辑
摘要:转载解决写入csv中间隔一行空行问题 写入csv: 写法: 阅读全文
posted @ 2018-07-11 13:10 littlebob 阅读 (10465) 评论 (0) 编辑
摘要:转载 Python3之关闭SSL证书验证 转载 Python requests 移除SSL认证,控制台输出InsecureRequestWarning取消方法 报错信息: 解决方法 今天遇到在requests设置移除SSL认证的时候,控制台会抛出以下警告: 解决方法 阅读全文
posted @ 2018-07-04 13:18 littlebob 阅读 (3580) 评论 (0) 编辑