• 博客园logo
  • 会员
  • 众包
  • 新闻
  • 博问
  • 闪存
  • 赞助商
  • HarmonyOS
  • Chat2DB
    • 搜索
      所有博客
    • 搜索
      当前博客
  • 写随笔 我的博客 短消息 简洁模式
    用户头像
    我的博客 我的园子 账号设置 会员中心 简洁模式 ... 退出登录
    注册 登录
华东 博客
17年国科大博士毕业,曾就职于三星电子,清华博后,目前在某大模型创业公司工作,研究方向大模型、智能体 新浪博客: http://blog.sina.com.cn/u/2463286753
博客园    首页    新随笔    联系   管理    订阅  订阅
2023年7月9日
用python语言统计PPT文档的所有slides备注的总字数
摘要: 在一些场景下我们需要对PPT的备注进行字数统计, 比如非常严格的项目答辩、报奖等的PPT音频录制。但是我们发现Macrosoft PowerPoint和WPS PPT等,都没有直接的统计功能,官方提供的统计指导,速度非常慢效率很低。下面提供一种通过Python快速统计中文备注的方法。 方法: 使用p 阅读全文
posted @ 2023-07-09 16:23 华东博客 阅读(253) 评论(0) 推荐(0)
用 Spark's MinHashLSH进行文本语料去重
摘要: (1)MinHashLSH进行文本去重的算法原理 MinHash (最小哈希) 是一种用于估计两个集合的 Jaccard 相似度的方法,而 MinHashLSH (局部敏感哈希) 则是一种使用 MinHash 来近似查找相似项的技术。 MinHash 算法基于以下观察:如果我们随机排列所有可能的元素 阅读全文
posted @ 2023-07-09 15:35 华东博客 阅读(2986) 评论(0) 推荐(0)
博客园  ©  2004-2025
浙公网安备 33010602011771号 浙ICP备2021040463号-3