Latent Dirichlet Allocation(潜在狄利克雷分配)
Latent Dirichlet Allocation (LDA),中文译作潜在狄利克雷分配,它是主题建模(Topic Modeling)领域最经典和最常用的算法之一。
📊 Latent Dirichlet Allocation (LDA) 算法解析
1. 核心目标:发现文本中的“隐藏主题”
LDA 是一种无监督学习模型,它旨在解决以下核心问题:
给定一批文档(例如,大量的患者反馈文本),如何自动发现这些文档集背后隐藏的、抽象的“主题”(Topic)?
2. 基本原理(如何工作):
LDA 认为文档、主题和词语之间存在以下概率关系:
- 文档由主题构成: 每篇文档(即一条患者反馈)都是由若干个主题(例如:“等待时间”、“护士态度”、“药品费用”)以不同的比例(概率分布)混合而成的。
- 主题由词语构成: 每个主题都是由一系列词语(例如,主题“等待时间”对应着“排队”、“预约”、“太久”、“叫号”)以不同的频率(概率分布)构成的。
简而言之,LDA 算法通过数学计算(使用狄利克雷分布进行概率建模),反向推导出:
- 每篇文档最可能包含哪些主题。
- 每个主题最可能由哪些高频关键词组成。
3. 在患者反馈中的应用(综述中的 Purpose):
在分析非结构化患者反馈(UPF)时,LDA 的主要目的就是:
- 自动分类: 快速将海量、杂乱无章的反馈文本,归纳为少数几个可解释的管理主题。
- 识别盲点: 发现患者关注的、但传统标准化问卷中没有涉及的新主题(例如,关于医院账单透明度的主题)。
其他参考:
https://zhuanlan.zhihu.com/p/309419680
https://blog.csdn.net/qq_21201267/article/details/105884879
https://cs.hit.edu.cn/_upload/article/files/92/bf/c4379506408a8c1b6902ddf0f9e6/a7a12c0d-3114-441b-ad5b-9559198e29e8.pdf
https://geekdaxue.co/read/nanke-yikns@fgyr0q/xge6bd
https://blog.csdn.net/shizheng_Li/article/details/144153486
https://www.jianshu.com/p/648027250cf4
https://zhuanlan.zhihu.com/p/1918416429008520120
https://zh-cn.statisticseasily.com/词汇表/潜在狄利克雷分配的解释是什么/#main

浙公网安备 33010602011771号