会员
周边
新闻
博问
闪存
众包
赞助商
Chat2DB
所有博客
当前博客
我的博客
我的园子
账号设置
会员中心
简洁模式
...
退出登录
注册
登录
Loading
踩坑大王
博客园
首页
新随笔
联系
订阅
管理
上一页
1
···
4
5
6
7
8
9
10
11
下一页
2024年5月22日
【markdown】Mermaid语法文档
摘要: https://zhuanlan.zhihu.com/p/355997933 https://blog.csdn.net/csh1807266489/article/details/129079756
阅读全文
posted @ 2024-05-22 01:12 踩坑大王
阅读(67)
评论(0)
推荐(0)
2024年5月20日
【文本挖掘】(三)文本表示
摘要: 文本表示的概念 核心:将字符串以计算机形式进行表示出来,如向量化。 分类 离散/向量表示:词袋模型(独热编码、TF-IDF、N-gram) 分布式表示:词嵌入word embedding,包括word2vec、Glove、ELMO、GPT、BERT等。 基于矩阵:基于降维表示和基于聚类表示 基于神经
阅读全文
posted @ 2024-05-20 23:14 踩坑大王
阅读(94)
评论(0)
推荐(0)
【文本挖掘】(二)句法分析
摘要: 句法分析是机器翻译的核心数据结构,用于确定句子的句法结构或词汇之间的依存关系; 完全句法分析 部分句法分析 基于规则的句法分析 存在语法规则覆盖有限、系统可迁移性差等缺陷 基于统计的句法分析 主流 基于PCFG的句法分析 句法结构分析 S 表示句子(sentence),NP 表示名词短语(noun
阅读全文
posted @ 2024-05-20 17:55 踩坑大王
阅读(109)
评论(0)
推荐(0)
【文本挖掘】(一)语料库、分词、词性标注、关键词提取、停用词
摘要: 目录语料库中文分词基于规则的中文分词:最大匹配法正向最大匹配法逆向最大匹配法双向最大匹配法分词jiebaHMM模型 Hidden Markov Model词性标注停用词停用词种类过滤方法关键词提取TF-IDFTextRank 语料库 存放语言真实使用场景、且经过加工的例句,而非脱离具体场景的标准例句
阅读全文
posted @ 2024-05-20 03:32 踩坑大王
阅读(509)
评论(0)
推荐(0)
2024年5月17日
【机器学习】第二节-模型评估与选择-性能度量、方差与偏差、比较检验
摘要: 三个关键问题: 如何获得测试结果? → 评估方法 如何评估性能优劣? → 性能度量 如何判断实质差别? → 比较检验 目录思路总结一、性能度量1.回归任务:均方误差2.分类任务(1)错误率与精度(2)查准率P与查全率R(3)平衡点BEP:P-R曲线图/PR图(查准率-查全率曲线)(4)F1系数(4-
阅读全文
posted @ 2024-05-17 00:46 踩坑大王
阅读(326)
评论(0)
推荐(0)
2024年5月15日
python中logging和print的区别
摘要: https://zhuanlan.zhihu.com/p/69071435
阅读全文
posted @ 2024-05-15 15:47 踩坑大王
阅读(23)
评论(0)
推荐(0)
基于asyncio+pyppeteer的增量式微博网页版爬虫(一)思路分析篇
摘要: 项目介绍 本项目旨在利用高级搜索功能,爬取微博网页版的详细数据。而大多数爬虫以单线程为主,但单线程存在资源利用率低的不足,针对这以问题,本项目主要使用如下技术: (1)多线程+协程技术+Redis实现增量式爬虫。实现过程中存在两个技术难点:一是使用redis数据传输时开销频繁,服务器容易崩溃;二是多
阅读全文
posted @ 2024-05-15 01:42 踩坑大王
阅读(102)
评论(0)
推荐(0)
2024年5月13日
微博爬虫-获取cookie的几种方式与对比
摘要: 待补充
阅读全文
posted @ 2024-05-13 21:08 踩坑大王
阅读(181)
评论(0)
推荐(0)
微博爬虫-站点分析(含移动端、PC端、API)
摘要: 待补充
阅读全文
posted @ 2024-05-13 21:05 踩坑大王
阅读(25)
评论(0)
推荐(0)
2024年5月12日
基于asyncio+pyppeteer的增量式微博网页版爬虫(二)爬虫构建篇
摘要: 目录安装数据库安装Redis安装PostGreSQL实现步骤微博站点分析asyncio获取cookieaiohttp+redis构造待爬取URLpyppeteer构建爬虫执行爬虫性能优化thread构建线程redis Pipline爬取异常处理总结项目总结不足 安装数据库 安装Redis 该步骤实现
阅读全文
posted @ 2024-05-12 20:35 踩坑大王
阅读(86)
评论(0)
推荐(0)
【FastApi】异步编程笔记
摘要: 目录异步编程OpenAPI文档相关命令 异步编程 FastAPI和Sanic都是异步框架 ASGI:一种接口协议,是WSGI的扩展,为了规范支持异步的Python Web服务器、框架和应用之间的通信定制的,囊括了同步和异步的通信规范。 OpenAPI文档 http://127.0.0.1:8000/
阅读全文
posted @ 2024-05-12 19:03 踩坑大王
阅读(89)
评论(0)
推荐(0)
云服务器基本操作指南
摘要: 目录CentOS 7.9 服务器操作查看已启动的服务AWS EC2操作 CentOS 7.9 服务器操作 查看防火墙运行状态 firewall-cmd --state 开启防火墙 sudo systemctl start firewalld 开机自启动防火墙 sudo systemctl enabl
阅读全文
posted @ 2024-05-12 15:49 踩坑大王
阅读(26)
评论(0)
推荐(0)
2024年5月9日
【深度学习项目】基于改进Bert模型的夸夸聊天机器人(1)数据预处理篇
摘要: 目录项目概述数据预处理数据爬取数据清洗构建敏感词字典树去除不相关问题和回答去除敏感词去除HTML标签去除标点符号去除emoji去除夸夸词过滤长度,转换格式 项目概述 该项目构建一个基于UniLM的生成式夸夸bot UniLM 是在微软研究院在BERT的基础上,最新产出的预训练语言模型,被称为统一预训
阅读全文
posted @ 2024-05-09 17:10 踩坑大王
阅读(87)
评论(0)
推荐(0)
2024年5月7日
if __name__ == '__main__' 是什么意思
摘要: __name__是python中的内置变量,表示当前模块/方法/函数的名称 当.py文件被直接运行时,if name == 'main'之下的代码块将被运行;当.py文件以模块形式被导入时,if name == 'main'之下的代码块不被运行。 如: 定义const.py PI = 3.14 de
阅读全文
posted @ 2024-05-07 17:44 踩坑大王
阅读(1173)
评论(0)
推荐(0)
【阅读笔记】关于《一本书读懂ChatGPT》阅读笔记
摘要: 目录机器学习与深度学习比较神经网络简述感知机单层感知机 Perceptron多层感知机/全连接神经网络 Multilayer Perceptron/MLP卷积神经网络CNN Convolutional Nerual Nets循环神经网络RNN Recurrent Neural NetsLSTM Lo
阅读全文
posted @ 2024-05-07 14:19 踩坑大王
阅读(45)
评论(0)
推荐(0)
上一页
1
···
4
5
6
7
8
9
10
11
下一页
公告