会员
众包
新闻
博问
闪存
赞助商
HarmonyOS
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
明天的代码世界
博客园
首页
新随笔
联系
订阅
管理
上一页
1
2
3
下一页
2020年4月9日
学习笔记(爬虫):爬取古诗网站,获取每一篇古诗,并保存到本地
摘要: 1、目标网站 目标网站:https://so.gushiwen.org/shiwen/default.aspx? 2、爬虫目的 爬取目标网站的文本,如古诗的内容,作者,朝代,并且保存到本地中。 3、爬虫程序 # -*- coding:utf-8 -*- #爬取古诗网站 import requests
阅读全文
posted @ 2020-04-09 19:21 大明王
阅读(2881)
评论(0)
推荐(0)
2020年4月4日
学习笔记(爬虫):爬取笔趣阁剑来小说
摘要: 1、目的 爬取笔趣阁网站的剑来小说正文内容,并保存到本地中。 2、实现方案 首先,请求目标网站的网页数据,通过分析找出章节地址的特点,并通过xpath获取到章节链接; 其次,请求每一章节的内容,通过数据清洗去除脏数据,得到剑来文章正文; 最后,保存数据到本地。 3、程序设计 3.1 请求数据模块 请
阅读全文
posted @ 2020-04-04 13:04 大明王
阅读(1025)
评论(0)
推荐(0)
学习笔记(爬虫):爬取笔趣阁小说
摘要: # -*- coding: utf-8 -*- import requests from lxml import etree class BookSpider(object): def __init__(self): self.url = "http://www.jianlaixiaoshuo.co
阅读全文
posted @ 2020-04-04 11:53 大明王
阅读(706)
评论(0)
推荐(0)
2020年4月3日
学习笔记(爬虫):爬取任意百度吧帖子中的图片和视频 2
摘要: 续上篇:https://www.cnblogs.com/maxxu11/p/12626007.html 1、代码: # -*- coding: utf-8 -*- import requests from lxml import etree import os from urllib import
阅读全文
posted @ 2020-04-03 20:26 大明王
阅读(339)
评论(0)
推荐(0)
2020年3月31日
中文分词工具简介与安装教程(jieba、nlpir、hanlp、pkuseg、foolnltk、snownlp、thulac)
摘要: 2.1 jieba 2.1.1 jieba简介 Jieba中文含义结巴,jieba库是目前做的最好的python分词组件。首先它的安装十分便捷,只需要使用pip安装;其次,它不需要另外下载其它的数据包,在这一点上它比其余五款分词工具都要便捷。另外,jieba库支持的文本编码方式为utf-8。 Jie
阅读全文
posted @ 2020-03-31 13:23 大明王
阅读(5818)
评论(0)
推荐(1)
2020年3月29日
pyhanlp安装教程
摘要: 1、hanlp简介 HanLP是由一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 Hanlp具有以下功能: 中文分词 词性标注 命名实体识别 依存句法分析 关键词提取新词发现 短语提取 自动摘要
阅读全文
posted @ 2020-03-29 19:59 大明王
阅读(6387)
评论(0)
推荐(0)
2020年3月22日
解决使用nlpir分词,遇到License过期问题
摘要: 问题:使用pynlpir分词,遇到License过期问题 抛出异常:pynlpir.LicenseError: Your license appears to have expired. Try running "pynlpir update". 解决方法:下载下面链接文件,替换原有的NLPIR.u
阅读全文
posted @ 2020-03-22 15:08 大明王
阅读(1863)
评论(0)
推荐(0)
2020年3月16日
自然语言处理-中文语料预处理
摘要: 自然语言处理——中文文本预处理 近期,在自学自然语言处理,初次接触NLP觉得十分的难,各种概念和算法,而且也没有很强的编程基础,学着稍微有点吃力。不过经过两个星期的学习,已经掌握了一些简单的中文、英文语料的预处理操作。写点笔记,记录一下学习的过程。 1、中文语料的特点 第一点:中文语料中词与词之间是
阅读全文
posted @ 2020-03-16 21:06 大明王
阅读(5870)
评论(2)
推荐(1)
NLTK数据包下载频繁报错——解决方法
摘要: 问题描述:Nltk下载数据包,安装频繁报错。 import nltk nltk.download() 运行上面的代码,下载nltk的数据包。但是在下载过程中因为各种问题导致网络传输失败,下载不成功。 解决方法:先下载nltk的数据包,安装到上面的目录,点击refresh,即可。 数据包下载地址: 链
阅读全文
posted @ 2020-03-16 18:49 大明王
阅读(1124)
评论(1)
推荐(0)
2020年3月13日
常用正则表达式匹配
摘要: 转:https://looaon.com/index.php/%E6%AD%A3%E5%88%99%E5%AD%A6%E4%B9%A0/921.html在做项目的过程中,使用正则表达式来匹配一段文本中的特定种类字符,是比较常用的一种方式,下面是对常用的正则匹配做了一个归纳整理。 1、匹配中文:[\u
阅读全文
posted @ 2020-03-13 20:43 大明王
阅读(464)
评论(0)
推荐(0)
上一页
1
2
3
下一页
公告