NLP(一)

 

 

 

19-21周,每周学习15小时以上

基础:Python编程基础;基础的概览统计、了解线性代数;足够的时间投入。

完成9个课程项目,每个5小时-15小时

完成聊天机器人项目(40-80小时)

Capstone项目(40-100小时)

至少6篇技术博文

个人github满足标准

期中、期末考试,一周一次Quiz

论文阅读

 

AI工程师必备的核心技能

现实生活中问题--->数学优化问题--->通过合适的工具解决

 

 

什么是NLP

NLP = NLU + NLG

NLU(Natural Language Understanding):语音/文本 -> 意思(meaning)

NLG(Natural Language Generator):意思 -> 文本/语音

 

NLP为什么难?

歧义:

多种表达方式

一词多义

 

解决歧义:从数据中学习

 

 

 

 

机器翻译的三个问题

 

 

Language Mode

 

 语言模型的训练过程就是计算概率

 

应用场景

  • 问答系统

  • 情感分析

  • 机器翻译
  • 自动摘要
  • 聊天机器人
  • 信息抽取

 

关键技术

自然语言处理技术四个维度

Semantic(语义)机器学习 情感分析

Syntax(句子结构)句法分析、依存分析

Morphology(单词)分词、词性标注、命名实体识别

Phonetics(声音)

https://www.quora.com/What-are-the-major-open-problems-in-natural-language-understanding

 

请列出至少5位你感兴趣的国外顶尖NLP专家以及他们目前所在单位和主要研究领域:

    1. Kevin Knight: 之前USC,现在滴滴LA, 主要研究 Machine Translation

  • 1.Dan Roth:宾夕法尼亚大学计算机和信息科学系的讲席教授,致力于通过机器学习和推理的方法帮助机器理解自然语言

  • 2.Regina Barzilay:MIT CSAIL 教授,通过 NLP 结合患者的诊断报告,对数据进行检索、总结及文本的理解,研究将计算机应用于健康领域

  • 3.Michael Collins:Columbia,NLP结构学习领域贡献极大,开发了著名的句法分析器Collins Parser

  • 4.Chris Manning:Stanford,以《统计自然语言处理基础》一书以及Stanford NLP (toolkit) 而闻名

  • 5.Dan Klein:UCBerkeley,无指导领域学习

请列出至少5位你感兴趣的国内顶尖NLP专家以及他们目前所在单位和研究领域:

  • 1.孙茂松:清华大学,研究兴趣比较广泛,涵盖中文信息处理、社会计算、信息检索等

  • 2.马少平:清华大学,研究兴趣偏重搜索引擎

  • 3.刘挺:哈工大,研究领域主要是自然语言处理、信息检索、内容安全,包括汉语理解、问答系统、基于统计和基于实例的机器翻译、语音合成、文本过滤、文本水印等

  • 4.王海峰:百度,机器翻译

  • 5.刘群:华为,机器翻译

请列出至少3个国内外你感兴趣的博客(个人博客,提供链接):

请列出至少5个你感兴趣的国内做NLP的公司以及他们主要产品

  • 1.科大讯飞,录音笔

  • 2.小米,小爱同学

  • 3.腾讯,腾讯云文智中文语义平台

  • 4.百度,AI开放平台NLP

  • 5.阿里,阿里云NLP

 

作业

搭建一个简单的智能客服系统

 

语料库:问题和答案

 

方法之一:用户输入语句,计算用户输入和问题的相似度,选择相似度最高问题的答案

问题分词--->预处理: 拼写错误 原型 停用词过滤 单词过滤 同义词替换--->向量:boolean、vector count、vector tf-idf、word2vec、seq2seq--->计算相似度--->相似度排序--->返回结果

posted on 2019-12-24 17:22  AI数据  阅读(548)  评论(0)    收藏  举报

导航