代码专区 - 随笔分类 - 大明王

学习笔记（爬虫）：爬取古诗网站，获取每一篇古诗，并保存到本地

摘要：1、目标网站目标网站：https://so.gushiwen.org/shiwen/default.aspx? 2、爬虫目的爬取目标网站的文本，如古诗的内容，作者，朝代，并且保存到本地中。 3、爬虫程序 # -*- coding:utf-8 -*- #爬取古诗网站 import requests 阅读全文

posted @ 2020-04-09 19:21 大明王阅读(2907) 评论(0) 推荐(0)

学习笔记（爬虫）：爬取笔趣阁剑来小说

摘要：1、目的爬取笔趣阁网站的剑来小说正文内容，并保存到本地中。 2、实现方案首先，请求目标网站的网页数据，通过分析找出章节地址的特点，并通过xpath获取到章节链接；其次，请求每一章节的内容，通过数据清洗去除脏数据，得到剑来文章正文；最后，保存数据到本地。 3、程序设计 3.1 请求数据模块请阅读全文

posted @ 2020-04-04 13:04 大明王阅读(1122) 评论(0) 推荐(0)

学习笔记（爬虫）：爬取笔趣阁小说

摘要：# -*- coding: utf-8 -*- import requests from lxml import etree class BookSpider(object): def __init__(self): self.url = "http://www.jianlaixiaoshuo.co 阅读全文

posted @ 2020-04-04 11:53 大明王阅读(719) 评论(0) 推荐(0)

学习笔记（爬虫）：爬取任意百度吧帖子中的图片和视频 2

摘要：续上篇：https://www.cnblogs.com/maxxu11/p/12626007.html 1、代码： # -*- coding: utf-8 -*- import requests from lxml import etree import os from urllib import 阅读全文

posted @ 2020-04-03 20:26 大明王阅读(343) 评论(0) 推荐(0)

自然语言处理-中文语料预处理

摘要：自然语言处理——中文文本预处理近期，在自学自然语言处理，初次接触NLP觉得十分的难，各种概念和算法，而且也没有很强的编程基础，学着稍微有点吃力。不过经过两个星期的学习，已经掌握了一些简单的中文、英文语料的预处理操作。写点笔记，记录一下学习的过程。 1、中文语料的特点第一点：中文语料中词与词之间是阅读全文

posted @ 2020-03-16 21:06 大明王阅读(5900) 评论(2) 推荐(1)

常用正则表达式匹配

摘要：转：https://looaon.com/index.php/%E6%AD%A3%E5%88%99%E5%AD%A6%E4%B9%A0/921.html在做项目的过程中，使用正则表达式来匹配一段文本中的特定种类字符，是比较常用的一种方式，下面是对常用的正则匹配做了一个归纳整理。 1、匹配中文:[\u 阅读全文

posted @ 2020-03-13 20:43 大明王阅读(470) 评论(0) 推荐(0)

明天的代码世界

随笔分类 - 代码专区

公告