P8-8-Natural-Language-Processing--NLP----大佬的迷弟的粉丝---BV1oa411c7eD

P8：8.Natural Language Processing (NLP) - 大佬的迷弟的粉丝 - BV1oa411c7eD

所有的权利，让我们开始吧下午好，所以上次我开始谈论使用自然语言处理来处理临床数据，事情进展得有点慢，我今天会试着多赶点时间，因此，我有很多东西要涵盖，所以如果你还记得上次，我一开始就说。

NLP的很多工作都涉及到想出短语，人们可能感兴趣的，以帮助识别您想要的数据类型，然后在文本中寻找那些，所以这是一个非常简单的方法，但这是一个相当好的工作，然后Kat Liao在这里讨论了一些应用程序。

那种工作，她在队列选择中所做的，所以我今天想说的是更复杂的版本，然后转向更现代的方法，到自然语言处理，所以这是一篇给你的论文，作为上次的选读之一，这是大卫桑塔格实验室的成果，他们说，嗯。

我们如何让这个更复杂，所以他们开始的方式是一样的，他们说，好的廖医生，让我们说给我一个非常好的条件，我有合适的病人的指标，如果我在病人的笔记中找到它们，所以这些都是有很高预测价值的东西。

所以你不想用像生病这样的术语，因为那会找到太多的人，但你想找到一些非常具体的东西，但这有很高的预测值，你会找到合适的人，然后他们所做的是，他们建立了一个模型，试图预测这个词在文本中的存在。

从医疗记录中的其他一切，这是一种银标准的训练方式，一个说得很好的模型，我没有精力也没有时间去找医生，翻阅成千上万的记录，但如果我选择这些锚足够好，然后我会从那些人那里得到很高的正确答案。

然后我训练一个机器学习模型，术语或那些包含这些术语的相同记录，顺便说一句，从那开始，我们将学习一大堆其他术语，这些术语是代理，为了我们开始的那个，所以这是一种放大的方式，所以你可以找到一堆技术细节。

通过阅读报纸，他们使用了一个相对简单的表示，它本质上是一袋文字表示，然后他们掩盖了这个词周围的三个词，这实际上是他们试图预测的，只是为了摆脱，短期的，然后他们建立了一个L2正则Logistic回归模型。

预测这个词出现的特征是什么，然后他们扩展了搜索词汇表，将这些功能也包括在内，还有很多关于如何，如何离散连续值，诸如此类的事情，你可以找到，所以你从锚中建立一个表型估计器，和选择的预测器。

他们为这些其他预测器中的每一个计算了校准分数，告诉你它预测得有多好，然后您可以构建一个联合估计器，使用所有这些，底线是他们做得很好，所以他们看了看，以便评估这一点，他们观察了八种不同的表型。

他们有人类的判断数据，所以这告诉你他们得到了，对于这些不同的表型来说，在83点和95点之间。

所以这很好，嗯，事实上，他们不仅在估计这八种表型，但是四十来岁，我不记得确切的数字了--要大得多，但他们没有验证的数据来测试其他人，但人们的期望是，如果它在这些方面做得很好，它可能在其他地方也做得很好。

所以这是个很好的主意，只是为了说明，如果你从糖尿病这样的表型开始，你说，嗯，我要去找锚，这是一个代码，250糖尿病，或者我要看看糖尿病治疗的用药史，所以这些是最初的，我正在考虑的银本位目标。

而那些实际上，对队列中的某人有很高的预测价值，然后他们识别出所有这些其他特征来预测，因此反过来，预测他们感兴趣的表型的合适选择者。

如果你再看一遍报纸，你看到的是，随着时间的推移，这优于，他们与之比较的标准监督基线，在那里你会得到更高的精度，在病人就诊的早期，能够识别他们属于这个队列，我晚点再来，看看另一个类似的尝试。

用一套不同的技术从核心进行推广，所以你应该在大约4-5分钟后看到，我希望，所以如果你看像先生这样的句子，亨廷顿接受了亨廷顿病的治疗，在位于亨廷顿大道的亨廷顿医院，每一次提到亨廷顿这个词都是不同的，例如。

如果您对消除可识别个人身份的健康信息感兴趣，从这样的唱片中，那么你当然想摆脱亨廷顿先生的部分，你不想摆脱亨廷顿病，因为这是医学上相关的事实，你可能真的想摆脱亨廷顿医院，及其在亨廷顿大道的位置。

尽管这些不一定是你被禁止保留的东西，例如，如果你试图在不同的医院之间进行质量研究，那么保留医院的名称就有意义了，这不被认为是对个人的识别，所以我们我们，事实上，早在2000年中期就做了一项研究。

我们试图建立一个改进的，我们是这样做的，这是一种厨房水槽的方法，它说好吧，拿着文本，给它做个记号，看看每一个令牌，并从中派生事物，所以构成信物的文字，词性，词性，它是如何大写的，它周围是否有标点符号。

它在哪个文档部分，你知道，许多数据库都有某种传统的文档结构，如果你看过模拟出院总结，比如说，有一种典型的方式，它从头到尾流动，你可以利用这些结构信息，然后我们确定了一堆模式和词库术语。

所以我们查了MLS，单词和短语，看看它们是否与一些有临床意义的术语相匹配，我们有识别电话号码、社会安全号码和地址的模式，等等，然后我们对文本进行了解析，所以在那些日子里。

我们使用一种叫做链接语法解析器的东西，这没什么区别，什么解析器，但你要么得到一个选民，要么得到一个选区，或依赖项解析，它给了你单词之间的关系，因此，它允许您包含作为功能，你看一个词的方式。

与它周围的其他单词有关，所以我们所做的是我们说，好的，词汇上下文包括上述所有类型的信息，对于所有字面上相邻的单词，或者你所关注的原词的n个字以内，或者通过对该单词的解析通过k个链接链接。

所以这给了你一个非常大的功能集，当然还有，解析不是一个解决的问题，这是我上次给你们看的那个故事中的一个例子，如果你看到它，就会得到两个四个模棱两可的解析，关于如何处理这个问题有一些技术问题。

今天您可以使用不同的解析器，斯坦福解析器，比如说，可能比我们14年前用的那个做得更好，并至少给你更明确的答案，所以你可以用它来代替，所以如果你看看我们所做的，我们说过，嗯，这是课文先生。

以下是你可以在MLS中查找的所有方法，结果很模棱两可，所以MMR不仅代表先生，但它也代表磁共振，它代表了一大堆其他东西，所以你会得到大量的模糊性，盲人也会给你各种模棱两可的地方，所以它在这里映射到。

是可以的，七十九岁还可以，然后雄性又映射到四个五个不同的概念唯一标识符，所以从这个数据库中产生了所有这些过度生成的问题，这里还有一些，但我要跳过这一点，然后我们的学习模型是这个项目的支持向量机。

我们只是说好，把所有的，你知道是把他们都杀了，上帝会把他们整理出来的，那种方法，所以我们只是加入了所有这些功能，然后说，哦，支持向量机非常擅长准确地挑选出什么是最好的特性，所以我们只是依靠这一点，果然。

你最终得到了数百万的功能，但果然效果很好，所以统计ID是我们的程序，你可以在真正的出院总结中看到，我们正在获得精度，并在PHI上召回，大约98。5，百分之九十五又四分之一，这比以前的技术水平要好得多。

它建立在规则和词典的基础上，作为一种识别事物的方式，所以这是这种方法的一个成功例子，当然，这不仅适用于识别，但它也可用于实体识别，因为不是选择个人身份健康信息的实体，你可以训练它选择疾病或药物的实体。

或者是其他各种各样的东西，所以这是在2000年，人们处理这类问题的一种非常典型的方式，至今仍在使用，我是说，周围有工具可以让你做到这一点，它们工作得合理有效，它们目前不是最先进的。

但它们比当今许多最先进的技术更简单，所以这里有另一种方法，这是我们几年前出版的东西，在那里我们开始和一些精神病医生一起工作，然后说，我们能预测一个精神病患者30天的再入院时间吗，具有任何程度的可靠性。

那是个很难的预测，威利目前正在进行一项实验，我们要求精神病学家预测，事实证明，他们在这个预测上几乎不比偶然更好，所以这不是一件容易的事，我们所做的是，我们说过，嗯，让我们使用主题建模。

所以我们有一群病人，大约有5000个病人，其中大约10%的人在心理诊断后被重新接纳，其中近3000人因其他诊断而重新入院，所以这告诉你的一件事是，如果你在和精神病患者打交道，2。他们经常去医院。

这对医院的底线不利，因为报销，保险公司的保单等等，所以只有四十个，七百，只有一百四十人在三十天内没有被重新接纳，所以有非常频繁的反弹，所以我们说，嗯，让我们尝试从基线使用支持向量机构建基线模型。

年龄等临床特征，性别，公共健康保险是社会经济地位的代表，所以如果你有医疗补助，你可能很穷，如果你有私人保险，那么你可能是麻省理工学院的员工，过得更好，所以这是一个经常使用的代理，一个共病指数。

告诉你你的病情有多严重，除了你的精神问题之外，然后我们说好，如果我们添加到那个模型中呢，笔记中的常用词，所以我们说，让我们做一个TF IDF计算，所以这是术语频率除以文档频率的对数。

所以这是一个术语有多具体来识别一种特定的情况，我们把一千个最有信息的词，所以有很多这样的，所以如果你用这将近5000个病人的一千个最有信息的词，你最终会写出大约六万六千个字。

对一些人来说信息丰富的独特词汇，但如果你把自己限制在前十名，那它只用了一万八千字，然后它用了大约三千字，然后我们说好，而不是做个别的单词，让我们做潜在的狄利克雷分配，所以对所有的单词进行主题建模。

作为一袋文字，所以没有序列信息，只是单词的集合，所以我们在所有这些笔记上使用lda计算出了75个主题，所以只是想提醒你，LDA过程是一个模型，它说每个文档都由特定的主题混合组成。

这些主题中的每一个都可能产生某些单词，所以你可以建立一个这样的模型，然后用复杂的技术来解决它，您在本研究中的主题如下，我不知道，你能读懂这些吗，它们可能太小了，所以这些都是无人监督的话题。

如果你看第一个，上面写着，病人，酒精，撤回，一个物质使用治疗项目名称，是一个不确定的使用滥用问题号，我们让我们的专家研究了这些主题，他们说，哦，嗯，那个话题和酗酒有关。这似乎是合理的，然后你看到。

你知道在底部精神病思想特征，偏执狂，精神病，妄想症症状，精神病，等等，他们说好的，那是精神病的话题，所以回想起来，您可以为这些主题分配含义，但事实上。

它们是在没有任何关于它们应该是什么的先验概念的情况下产生的，它们只是一个统计数据，对这些文件中常见的词语的概述，但你会发现，如果你使用基线模型，它只使用了社会，人口统计学和临床变量，你说生存有什么不同。

在这种情况下，及时在这个队列中的一组和另一组之间重新接纳，答案是他们很相似，而如果你使用一个预测，基于基线和75个主题，我们确定的75个主题，你会得到更大的分离，当然，这在统计学上是显著的，和。

它告诉你，这项技术有助于提高队列的预测，那更有可能被重新接纳，从不太可能被重新接纳的队列中，这不是一个可怕的预测，所以这个模型的auc只有7个点的数量级，所以你知道这不像九点九，但它提供了有用的信息。

嗯，和我们一起工作的同一组精神病医生，也做了一项研究，队列要大得多，但数据要少得多，所以他们从两个医疗中心得到了所有的出院，在十二年期间，所以他们有八十四万五千次放电，来自四十五万八千个独特的个体。

他们在寻找这些病人的自杀或其他死亡原因，看看他们是否能预测某人是否可能试图伤害自己，或者他们是否可能意外死亡，有时无法与自杀区分开来，所以大卫谈到的审查问题在这里非常普遍，因为你失去了人们的踪迹。

这是一个高度不平衡的数据集，因为在八十四万五千名病人中，只有235人自杀，这当然可能是一件好事，从社会的角度来看，是什么使数据分析变得困难，另一方面，在九年的随访中，所有原因死亡率约为18。

所以这不是那么不平衡，然后他们所做的是，他们整理了一份3000个术语的清单，这与精神病学文献中所说的正价性相对应，所以这是像快乐、幸福和好东西这样的概念，与负价相反，像沮丧和悲伤之类的，他们说好。

我们可以使用这些类型的术语来帮助区分这些病人，他们发现，如果你绘制卡普兰·迈尔曲线，对这些病人的风险，你看，不同的四分位数之间有很大的差异，你当然可以识别出更有可能自杀的人，从不太可能做的人那里。

所以这条曲线代表自杀或意外死亡，所以这是一个更大的数据集，因此误差条更小，但你在这里看到了同样的分离，所以这些都是有用的技术，现在，切换到另一种方法，这是我的一个学生的作品，元律。

他和马萨诸塞州总医院的一些淋巴瘤病理学家一起工作，所以他们采取的方法是说，如果你读到一份关于淋巴瘤患者的病理报告，我们能从病理报告中判断出他们患的是什么类型的淋巴瘤吗，如果我们把病理报告上说我。

病理学家认为这个人有，你知道的，非亨金淋巴瘤什么的，所以从上下文的其余部分来看，我们现在能做出预测吗，你想拿一种有趣的，有点奇怪的方法，也就是把这个看作是一个无监督的学习问题。

而不是作为一个监督学习问题，所以他真的掩盖了真正的答案，说，如果我们只是把除了给出答案的东西之外的一切都当成数据，我们能用某种有趣的方式对这些数据进行聚类吗，以便我们重新识别不同类型的淋巴瘤。

现在，这之所以重要，是因为淋巴瘤，病理学家一直在争论如何对淋巴瘤进行分类，每隔几年他们就会修改分类规则，所以他的部分目标是说，让我们尝试提供一个无偏见的数据驱动方法，这可能有助于识别适当的特征。

以分类这些不同的淋巴瘤，所以他的方法是张量因式分解方法，你经常看到这样的数据集，上面写着，你知道病人的特点，所以在这种情况下，实验室测量，收缩期，舒张压，血压，钠钾，等，这是一个非常普通的数据矩阵编码。

然后如果你给它添加第三个维度，像这样是在入场的时候，三十分钟后，60分钟后或90分钟后，你有一个三维张量，就像你可以做矩阵因式分解一样。

如上图所示，我们说，我的数据矩阵，我假设是由两个矩阵的乘积生成的，尺寸较小的，你可以通过说，我想让这两个矩阵中的条目最小化重建误差，所以如果我把这些矩阵相乘，然后我得到我原来的矩阵加误差。

我想把这个错误降到最低，通常是根，均方或均方误差，或者类似的东西，你可以对张量玩同样的游戏，有一个所谓的核心张量，它标识，然后你做的是同样的游戏，你有一个对应于每个维度的矩阵。

如果你把这个核心张量乘以这些矩阵中的每一个，你重建原始张量，你可以再次训练它，以最大限度地减少重建，损失，所以还有更多的技巧，因为这是处理语言，所以这是一个典型的，一个淋巴瘤病理学家的报告说。

免疫组织化学染色显示卵泡，废话，废话，废话，废话，对呀，所以很多很多的细节，所以他需要一个可以放入矩阵张量的表示，这个张量，他所做的是说好，让我们看看这样的语句。

免疫染色显示大的非典型细胞CD30强阳性，所以这个句子告诉我们程序之间的关系，细胞类型，和免疫因素，和功能选择，我们可以用文字，或者我们可以使用ummls概念，或者我们可以找到各种各样的映射。

但他决定为了保留，他要做的是使用一个图形表示，解析所有这些句子，所以你得到的是，这创建了一个图表，讲述了，你知道的，CD强烈阳性，三十个大型非典型细胞，等等，然后你可以把它分解到子图中。

然后你还必须识别经常出现的子图，例如，大的非典型细胞出现在这里，也出现在那里，当然会出现在许多其他地方，是啊，是啊，这个解析域和语言不可知论，比如说，他们在这里结合了某种医学信息或某种语言。

所以在这个特殊的研究中，他使用了斯坦福解析器和一些技巧，所以斯坦福解析器不知道很多医学单词，所以他基本上把这些东西标记为名词短语，然后斯坦福解析器也不能很好地处理长列表，就像，免疫特征的集合。

所以他会认出这些是模式替代品，为他们编造的一个词，这使得解析器在这方面工作得更好，所以有一大堆这样的小把戏，为了适应它，但它不是专门为此训练的模型，或者类似的东西，所以是通用英语。

这些都是他手工做的事情，而不是说不，他做了他用算法做的，但他没有学会使用哪些算法，2。他是用手工缝制的，但当然这是一个很大的语料库，他在上面运行了这些程序，做了这些转变，所以他称之为两阶段解析。

这一节的第一张幻灯片上提到了他的论文，如果你对细节感兴趣的话，那里有描述，好的，所以他最终得到的是一个张量，病人在一个轴上，文本中出现在另一个轴上的单词，所以他还在用一袋单词表示。

但第三个轴是我们讨论的语言概念子图，然后他对这个做张量因式分解，有趣的是，它比我想象的要好得多，如果你看看他的技术，他称之为TF，精度和召回率约为7。02，宏观平均值为8。5，七点五，四微平均数。

比非负矩阵因式分解的结果要好得多，它只按单词使用病人或按子图使用病人，或者实际上你只是这样做，耐心地将子图和单词连接在一个维度上，这意味着这实际上是在利用三方关系，如果你读到大约15-20年前的报纸。

人们对BI聚类的想法非常兴奋，用现代术语来说，这相当于矩阵因式分解，上面写着，给定两个维度的数据，我想把事情聚类，但我想用这样的方式把它们聚集在一起，一个维度的聚类有助于另一个维度的聚类。

所以这是一种相对有效的正式方法，张量因式分解本质上是三聚类，好的，所以现在我要谈谈今天的最后一个大话题，也就是语言建模，这就是现在自然语言处理中的动作，我会说。

临床数据的自然语言处理有些落后于最先进的水平，在自然语言处理中，可用的语料库较少，做这件事的人少了，所以我们正在迎头赶上，但我要稍微温和地引导这一点，那么对语言建模意味着什么呢，我是说。

你可以想象说它提出了一套解析规则，定义语言的句法结构，或者你可以想象说，就像我们上次建议的那样，提出一套相应的语义规则，语言中的概念或术语对应于某些概念，它们在功能上结合在一起，按照语法的指示。

以便给我们一个语义表示，所以我们不知道如何把这两个都做得很好，所以电流，当代关于语言建模的想法是说，给定一系列令牌，预测下一个令牌，如果你能完美地做到这一点，大概你会有一个很好的语言模型。

所以很明显你不能做得很完美，因为我们并不总是说同一个词，当我们说话的时候，在前面的一些话之后，但很可能你可以接近它，通常有某种马尔可夫假设说，给定之前的东西，发出令牌的概率，前文，而不是在所有的历史上。

你以前说过的一切，在你的生活中，它是预测词上概率分布的熵，粗略地说，它是如果所有的，所有的可能性都是一样的，所以困惑经常被使用，比如说，在语音处理中，我们做了一项研究，我们试图建立一个语音系统。

理解医生和病人之间的对话，我们遇到了真正的问题，因为我们使用的软件是为了解释医生的口述而开发的，那是训练有素的，但事实证明，当我们开始的时候，我们并不知道这一点，医生在口述医疗记录时使用的语言非常简单。

很简单，所以它的困惑大约是九个，而对话则更自由，涵盖更多的话题，所以它的困惑大约是七十三，所以很好地解决困惑的模型，九对困惑也不起作用，所以这告诉你准确转录语音的困难，就是很难，那就难多了。

这仍然是一个没有解决的问题，现在你们可能都知道ZIPF定律了，所以如果你根据经验把所有文献中的所有词，让我们说，英语，你发现第n个单词大约是n的一比一，就像第一个词一样可能，好的，所以有一个长尾分布。

有一件事你应该意识到，当然啦，如果你从零到无穷大积分1/n，它是无限的，好的，这可能不是对语言的不准确描述，因为语言是富有成效的，人们一直在编造新词等等，所以它实际上可能是无限的，但粗略地说。

有一种像这样的下降，有趣的是，在棕色语料库中，前十个词几乎占语料库规模的四分之一，所以你写了很多U和A，二英寸，等，那么N克模型呢，请记住，如果我们做这个马尔可夫假设。

那么我们要做的就是注意最后n个代币，在我们有兴趣预测的之前，所以人们产生了这些大的印迹语料库，例如，几十年前有人拿走了莎士比亚的所有作品，我想他们试图确定他是否写了他所有的作品。

或者是某人或其他人的伯爵，实际上是写莎士比亚的人，你知道这场争论，所以这就是他们这么做的原因，但不管怎样，他们创建了这个语料库，他们说，所以莎士比亚的词汇量大约有三万字。

在八亿四千四百万个可能的bigrams中，所以九十九点，96%的人从来没有见过正确的，所以他现在的语言生产有一定的规律性，谷歌，当然莎士比亚比，他们说，嗯哼，我们可以取一个太字节的语料库。

这是在2006年，我不会感到惊讶，如果今天是一个PB字节的语料库，他们发表了这个，他们只是提供了它，所以有十三点，600万个独特的单词在这个Terra单词语料库中出现了至少200次。

有12亿个单词序列至少出现了40次，这些是统计数据，如果你有兴趣，有一个URL，这是他们数据库的一小部分，所以陶瓷收藏品收藏品，我不知道在一个太字节的文本中发生了五次，陶瓷收藏品，陶器收藏品。

烹饪逗号周期，刑期结束，和在是等等，不同次数，陶瓷来自一个发生了六百六十次，这是一个相当大的数字，与这里的一些竞争对手相比，如果你看四克，你会看到像服务作为传入的废话这样的事情，废话。

废话92次作为索引，两百二十三次作为最初的五十三次，好的，所以你有所有这些统计数据，现在考虑到这些统计数据，然后我们可以建造一个发电机，这样我们就可以说好吧，假设我从令牌开始。

它是一个句子的开头或句子之间的分隔符，我说样本一个随机的二进制，从一个句子的开头开始，根据一个单词的概率，然后从这个单词中提取下一个二元组，和所有其他的词根据它的概率，一直这样做。

直到你到达句子的结尾标记，好的，例如，这里我正在生成句子，我从，i，然后是匮乏，然后是两个，紧随其后的是get，其次是中文，然后是食物，接着是句子结束，所以我刚刚生成了，我想吃中国菜。

这听起来是个很好的句子，有趣的是，如果你再看看莎士比亚语料库，说如果我们从字母中产生莎士比亚，你把上面的东西给他，吞咽，在此忏悔，为RI设备保存踪迹和死记硬背的寿命，听起来不太好吧，它不太合乎语法。

它没有那种英语，你知道莎士比亚，英式风味，虽然你确实有像Nave和I之类的词，现在隐约让人想起，如果你去参加大型活动，开始听起来好一点，什么意思，先生，我承认她，然后各种，他是船长，对呀。

那没有任何意义，但听起来开始好一点，用三叉戟我们得到，亲爱的王子，福斯塔夫会死，蒙莫斯坟墓的哈利，等等，所以这听起来有点莎士比亚的味道，如果你去四分图，你得到亨利国王，我会去什么，寻找叛徒，格洛斯特。

擦掉一些手表，在诸如此类的地方举行的盛大宴会，你知道，我是说，当我二十年前第一次看到这个的时候，还是什么的，我惊呆了，这实际上是在产生听起来有点像莎士比亚的东西，和模糊的英语，就像。

这里有一个生成华尔街日报的例子，月玛雅和年发行的外国新交易所，是单词沙拉，但如果你去三元，他们也指向九十九点，60亿美元从两个零，四零，六，3%的利率像墨西哥和巴西一样。

所以你可以想象这是一些华尔街日报的作家在酸性写作，这篇文章，因为它有一点正确的味道，好的，所以最近人们说，我们应该能够以某种系统的方式利用这一点，帮助我们完成语言分析任务，所以对我来说，第一个。

在这个方向上的努力对VEC来说是口头上的，这是米科洛夫这样做的方法，他开发了两个模型，他说，让我们建立一个连续的单词袋，模型表明我们将使用的是共现数据，我们试图建模的文本中的一系列标记。

我们将使用神经网络模型来预测单词，从它周围的文字，在这个过程中，我们将使用神经网络模型的参数作为向量，这个向量将是这个词的表示，我们做到了，所以我们要找到的是，倾向于出现在同一上下文中的单词。

在这个高维向量中会有类似的表示，顺便说一句，高维的人通常使用三五百维的向量，所以有很多，这是一个很大的空间，文字散落在这本书中，但你得到了这种凝聚力，在同一上下文中使用的单词看起来很接近，由此推断。

如果单词在相同的上下文中使用，也许他们有共同的意义，所以另一个模型是跳克模型，你在另一个方向做预测，从一个单词中你预测它周围的单词，你又一次使用神经网络模型来做到这一点，您使用该模型的参数。

为了表示你所关注的单词，所以令我惊讶的是，他最初的论文中的这一说法，也就是说，你不仅得到了局部性的效果，对应意义，但你会得到几何学上表示的关系，这些嵌入的空间，所以你看到的是。

如果你把男人和女人两个词的编码，看看它们之间的向量差，然后将同样的向量差值应用于King，你接近女王，如果你应用它，叔叔，你靠近阿姨，所以他们展示了许多例子，然后人们研究了这个，它不能很好地支撑。

我的意思是它不喜欢，我们已经解决了语义问题，但这是一种真正的关系，它不好用的地方，当这些事情中的一些比其他事情更频繁的时候，所以经常被引用的一个例子是，如果你去，你知道伦敦之于英国，巴黎之于法国。

那个管用，但你说吉隆坡之于马来西亚，那个不太好用，然后你就像一个，你知道uu juba什么的对任何国家来说，它是…的首都。既然我们不在报纸上写非洲，这方面的数据很少，所以这不太好用。

后来范德马丁和杰夫·辛顿发表了另一篇论文，他们想出了一种可视化的方法来拍摄这些高维向量，并将它们可视化为二维，你看到的是，如果你拿一堆计数概念，所以一点半，十五，四，两个，三个，几个，有的很多，等。

它们之间有几何关系，所以它们实际上映射到了空间的同一部分，同样的部长领导，总裁，主席，主任发言人，首长等，在这个空间里形成一种集群，所以这肯定是有原因的。

好吧，我答应过你，我会回到一个不同的尝试，尝试采用你想用于术语定位的概念的核心，并开发一种自动化的方法来扩大这组概念，为了给你更丰富的词汇量，用来识别你感兴趣的案例，所以这是我的一些同事，包括凯特。

你星期二看到了谁，说得好，我们想要的是一个完全自动化和健壮的，仅利用公开医学知识来源的无监督特征选择方法，而不是EHR数据，所以大卫小组开发的方法，我们之前说过，使用电子健康记录的数据。

这意味着你搬到不同的医院，可能有不同的惯例，你可能会想象你必须重新训练这种方法，而这里的想法是从知识来源中获得这些代理特征，所以不像早期的模型，在这里他们造了一个词来惹恼。

从大约500万篇斯普林格文章中跳过Gram模型，这些是发表的医学文章，为每个单词提供500维向量，然后他们取了他们感兴趣的概念名称，及其在MLS中的定义，然后他们总结了这些单词的单词向量。

按文档频率反比加权，所以这是一种TF，IDF喜欢，然后他们出去了，他们说，好的，维基百科上提到的每一种疾病，Medscape，E医学，默克曼纽尔专业版，蛋黄酱，诊所，疾病和条件，medline。

加医学百科全书，他们使用命名实体识别技术，找到与这种表型相关的所有概念，然后他们说，嗯，这些来源有很多随机性，也许在我们的提取技术中，但如果我们坚持认为某些概念至少出现在这五个来源中的三个。

那么我们可以非常有信心这是一个相关的概念，所以他们说，好的，我们就这么做，然后他们选择了前K个概念，其嵌入向量以余弦距离最近，他们计算出的这种表型的嵌入，他们说，好的表型将是所有这些相关概念的线性组合。

所以再一次，这和我们之前看到的有点相似，但这里不是从电子病历中提取数据，他们从出版的文献中提取它，这些网络来源，专家策划了这五种表型的特征，这是一种冠状动脉疾病，类风湿性关节炎，克罗恩病，溃疡性结肠炎。

和儿科肺部，他们一开始，你知道，20到50个精心策划的特写，所以这些是医生说的，好的，这些是大卫术语中的锚，然后他们把这些扩展到一个更大的集合，使用我刚才描述的技术，然后向下选择它到顶部。

这是一个可怕的图表，总结了结果，但是，你看到的是橙色的线条是基于专家策划的特征，这是基于，尝试这样做的早期版本，说的是我刚才描述的技术，你看到的是，许多这些表型的自动技术，和手工策划的一样好，当然。

它们需要的手工策展要少得多。

因为他们使用这种自动学习的方法，回到DE标识主题的有趣示例是，我的几个学生，几年前建造了一个新的标识符，它有一个相当复杂的架构，所以它从递归开始，一种双向递归神经网络模型。

它是在医学文本中的单词字符序列上实现的，那么为什么字符序列，为什么这些可能很重要，我们考虑一下拼写错误的单词，比如说，大部分字符序列都是正确的，拼写错误就会有bug。

或者考虑到很多医学术语都是这些复合术语，在那里，它们由许多与希腊或拉丁词根相对应的片段组成，对呀，所以学习这些实际上是非常有帮助的，所以你从那个模型开始，然后将左跑和右跑的结果连接起来，递归神经网络。

并将其与VEC这个词联系起来，你把它输入另一个双向RNN层，然后对于每个单词，您将这些RNN的输出，通过前馈神经网络运行它们，为了估计概率，它就像一个软最大值，你估计这个词的概率。

属于特定类别的个人识别健康信息，所以它是一个名字吗，是地址吗，是电话号码吗，是什么，好的，然后顶层是一种条件随机场，类似层，上面写着OK，如果你见过一个名字，那么你接下来最有可能看到的事情是什么。

所以你把它和每个词的概率分布结合起来，为了识别这个词的phi或非phi的类别，按f 1分优化，我们的精确度是99点，百分之二，召回九十九点，百分之三，通过召回优化，我们大约在九十八，每人百分之九十九。

所以这个做得很好，现在，有一个非机器学习的评论要做，如果你读了HIPAA定律，HIPAA条例，他们没有说你必须摆脱90，9%的个人身份信息，为了能够共享这些数据用于研究，它说你必须把所有的东西都处理掉。

所以我们所知道的任何技术都不是百分之百完美的，所以在从事这项工作的人中有一种实际的理解，没有什么是完美的，因此，你可以逃脱一点点，所以我记得，许多年前，我妻子在法学院，我一度问她，那么人们能告你什么呢。

她说了任何话，他们可能赢不了，但如果你不得不在法庭上为自己辩护，所以这还没有结束，我们不知道，如果一个de标识符是九十，9%的敏感性和99%的特异性，将通过同意发布数据集的人的审查。

因为他们也担心上报纸，或者最终被起诉，好的，今天最后一个话题，所以如果你读了这个有趣的博客，顺便说一句，它有一个非常好的关于伯特的教程，他说，2018年是机器学习模型的转折点，处理文本，或者更准确地说。

nlp，我们对如何最好地表示单词和句子的概念理解，以一种最能捕捉潜在含义和关系的方式迅速发展，所以有一大堆新的想法，在过去的一两年里发生的事情，包括埃尔莫，它学习特定于上下文的，嵌入，变压器体系结构。

这种伯特方法，然后我将以向你展示，这个巨大的GPT模型是由Openai人开发的，它在生成语言方面比我之前展示给你的东西要好得多，所有的权利，如果你看看谷歌翻译，至少就在不久前，你发现的是这样的模型。

所以它本质上是一个LSTM模型，接受输入单词，它总结了模型所知道的关于那个句子的一切，你刚刚喂它，很明显，它必须是一个相当高的维表示，因为你的句子几乎可以是关于任何事情的，因此。

能够在这个表示中捕捉到所有这些是很重要的，但基本上在这一点上，你开始产生输出，所以如果你把英语翻译成法语，这些是进来的英语单词，这些是法语单词，以某种方式，我给你看了我们创作莎士比亚的地方。

但这里的关键特征是，在这个的最初版本中，你所学到的关于这个英语句子的一切都必须用这个向量编码，从解码器传出来的，从编码器到解码器，或者从源语言进入目标语言生成器，然后有人过来说，嗯哼，某人。

就是这些家伙走过来说，这不是很好吗？如果我们能给发电机提供一些辅助信息，你应该注意输入句子的哪一部分，当然，这个问题没有固定的答案，我是说，如果我在翻译一个任意的英语句子，变成武断的法语句子。

我不能笼统地说，看英语句子中的第三个单词，当你在法语句子中生成第三个单词时，因为这可能是真的，也可能不是真的，取决于特定的句子，但另一方面，直觉是有这样一种位置依赖，依赖于特定的英语句子是一个英语单词。

这是产生法语单词的一个重要组成部分，所以他们创造了这个想法，除了传递这个矢量，它编码整个输入的含义，以及在输出中生成的前一个单词，此外，我们传递其他信息，告诉我们应该注意哪些输入词。

我们应该给予他们多少关注，当然还有，在这些嵌入的风格中，这些都是用高维向量表示的，与其他向量组合的高维实数向量，为了产生输出，现在一个古典语言学家会看到这个，可怜的权利。

因为这看起来一点也不像古典语言学，随机梯度下降法训练的只是命理学，为了优化输出，但从工程的角度来看，效果还挺好的，所以有一段时间，这是最先进的，然后去年这些家伙瓦斯瓦尼来了，说，你知道的。

我们现在有了这个复杂的架构，我们在做旧式翻译，我们把所有的东西总结成一个向量，然后用它来生成一系列输出，我们有这个注意机制，它告诉我们在，生成输出的每个元素是实际需要的第一个元素。

所以他们发表了这篇可爱的论文，说关注是你所需要的，上面写着嘿，你知道你们添加到这个翻译模型中的东西，它不仅是一个有用的添加，但实际上它可以代替原来的模型，所以变压器是一个最热门的建筑。

因为现在切片面包说，好的，我们是这样做的，我们把输入，我们为他们计算一些嵌入，然后我们想保留这个位置，因为，当然，单词出现的顺序很重要，位置编码是一个奇怪的东西，它使用正弦波编码，所以是的。

这是一个正交基，所以它有很好的特点，然后我们把它运行到一个注意力模型中，这本质上是计算自我注意力，所以它对VEC说了什么，除了以一种更复杂的方式，所以它看句子中的所有单词，并说出这个词与哪些词最相关。

然后为了让它更复杂，他们说，嗯，我们不想要一个单一的关注概念，我们想要多种注意力的概念，这听起来像什么，对我来说，这听起来有点像你在卷积神经网络中看到的，当你用CNN处理图像时。

你不仅仅是对图像应用一个过滤器，但是你在应用一大堆不同的过滤器，因为你随机初始化它们，你希望它们会汇聚到实际检测到不同的东西上，图像的有趣性质，所以这里的想法是一样的，他们所做的是。

他们从一堆注意力矩阵开始，说我们随机初始化它们，它们将演变成对帮助我们处理整体问题最有用的东西，然后他们把这个通过一系列，我想在瓦斯万的报纸上，类似于六层的东西，只是复制，还有一些额外的东西。

比如将输入信号前馈，以便将其添加到舞台的输出信号中，然后正常化，然后重新运行它，然后通过前馈网络运行它，也有旁路，它将输入和前馈网络的输出结合在一起，然后你这样做六次或N次，然后输入发电机。

然后生成器使用非常相似的体系结构来计算输出概率，然后它从这些样本中取样，以便生成文本，所以这是一种当代的翻译方式，人们可以用这种方法来翻译，很明显，我没有时间详述所有的细节，这一切都是如何做到的。

反正我可能会做错，但你可以看看论文，它给出了很好的解释，我指向的那个博客也有一个指向另一篇博客文章的指针，同一个人很好地解释了，嗯，所以你从多头注意机制中得到的，和，比如说。

这里的颜色表示单词编码的程度，这取决于句子中的其他单词，你看到它聚焦在动物身上，这是有道理的，因为它，事实上，是指，在这个句子中，他们引入了另一种编码，而这个关注的太累了，这也很好。

因为它又指的是太累的事情，当然还有多头，他们的意思是它已经这样做很多次了，所以你很好地识别了输入句子中的各种不同关系，沿着同样的路线是这种叫做elmo的编码，人们似乎喜欢芝麻街的角色，嗯。

所以Elmo是基于双向LSTM，所以这是一种更古老的技术，但它的作用不同于文字对VEC，它为每种类型构建了编码和嵌入，所以每次垃圾这个词出现，它在这里得到了相同的嵌入，他们说的是嘿，认真对待上下文。

我们将为每个事件计算不同的嵌入，在象征性权利的背景下，事实证明这很好，因为它在一定程度上解决了词义消歧问题，所以这只是一个例子，如果你看看手套里的游戏这个词，这是VEC方法的一个稍微复杂的变体。

你得到玩游戏游戏，玩的人玩的人，玩家游戏，足球，多人游戏，这一切似乎都与游戏有关，因为可能从文献中他们得到了这个，这是游戏这个词最常见的用法，而使用这种双向语言模型，他们可以分离出基弗这样的东西。

小组里唯一的低年级学生，因他击中离合器的能力而受到称赞，以及他全方位的出色发挥，所以这大概是棒球运动员，他们是演员在一部成功的戏剧中扮演了很多角色，所以这是游戏这个词的不同含义。

所以，这种嵌入也为提高自然语言处理的质量做出了非常重要的贡献，通过能够处理单个单词有多种含义的事实，不仅用英语，但在其他语言中，所以在埃尔莫之后是伯特，因此，与其使用Elmo使用的LSTM模型。

不如使用Elmo使用的LSTM模型，这些家伙说，嗯，让我们加入这股潮流，使用基于变压器的体系结构，然后他们介绍了一些有趣的技巧，所以变压器的一个问题是，如果你把它们叠在一起。

从任何输入到任何中间节点都有许多路径，和产出，所以如果你在自我关注，你试图弄清楚输出应该关注输入的地方，答案，当然啦，就像如果你试图重建输入，如果输入存在于模型中。

您将了解到相应的单词是您输出的正确单词，所以他们必须防止这种情况发生，所以他们这样做的方法是在每一层都遮蔽，单词的一部分，或该一级的投入，所以这个做的是，它有点像Word到VEC中的跳克模型。

它试图预测某个词的可能性，除了它不知道单词的重要部分是什么，所以它不能像我刚才建议的那样太合适，所以这是个好主意，又变得复杂了，浏览详情，你得看报纸，我给了变压器纸和伯特纸作为今天的选读。

我本想按要求给他们读数，但我没有及时做，但还有一大堆其他的把戏，所以与其用文字，他们实际上使用单词片段，所以想想音节，不要，变成了，do和撇号t，等等，然后他们发现大约15%的代币被掩盖。

似乎比其他百分比更有效，所以这些是防止过度拟合的隐藏标记，做一些其他奇怪的事情，就像他们而不是掩盖一个令牌，他们会把词汇表中随机的其他单词再次注入到它的位置上，防止过装，然后他们看着不同的任务。

比如我能预测语料库中的下一个句子吗，所以我读了一个句子，而且没有翻译成另一种语言，但它在预测下一句会是什么，所以他们把它训练在8亿个单词上，这些单词来自一个叫做书籍标记的东西，书籍语料库。

大约250万字，维基百科语料库，他们发现，在许多经典任务上有了巨大的改进，这是自然语言处理的一些标准任务的列表，大多不在医学界，但是在一般的nlp域中，你看到你得到了这样的东西，呃，从。

你知道百分之八十，甚至是我一会儿要讲的GPT模型，八十六岁，百分之八十二，它们高达86%左右，所以在这个领域4%的改进真的是巨大的，我是说，经常，人们发表论文表明你知道1%的进步。

如果他们的语料库足够大，那么它在统计上是显著的，因此可以出版，但在这个术语的普通意义上并不重要，显著，如果你做得好百分之一，但提高4%就很好了，我们要出发了，你知道从60岁开始，百分之六到百分之七十二。

从早期的艺术状态，八十二对九十一，九十三到九十四，三五到六十，在可乐任务中，语言可接受性主体，所以这是在问，我觉得，生成句子的机械土耳其人，这句话，有效的英语句子，所以这是一个有趣的基准。

所以它产生了非常显著的改进，到处都是，他们训练，它的两个模型，基础模型是较小的，大型模型只是在较大的数据集上训练，在做这个训练时需要大量的计算，所以你知道，我已经忘了。

他们花了一个月的时间在一些巨大的GPU机器集群上，所以这是令人生畏的，因为你不能在笔记本电脑上启动这个，并期待它在你有生之年完成，我想告诉你的最后一件事是GPT 2，这是Openai研究所的。

这是一个慈善资助的，我想这是埃隆·马斯克的，一个研究机构来推进，爱恩，他们说的很好，这一切都很酷，但他们没有使用伯特，他们使用变压器架构，但没有和伯特一样的训练风格，他们说秘诀是我们要应用这个。

不仅仅是一个问题，但是一大堆问题，所以这是一种多任务学习的方法，上面写着，我们要建立一个更好的模型，通过试图同时解决一堆不同的任务，所以他们建造了巨大的模型，顺便说一句，任务本身是作为一系列令牌给出的。

例如，他们可能有一个任务说，翻译成法语英语文本，法文本，好的或者回答，问题文件，问答，所以这个系统，如何做它应该做的事情，但它甚至学会了一些关于它被要求工作的任务的东西，通过编码这些。

并将它们作为模型的一部分，所以他们造了四个不同的模型，看看下面这个，一分，五百万，一分，50亿，参数，这是一个大模型，这是一个非常大的模型，所以它是一个字节级模型，所以他们就说废话少说。

因为我们试着用多种语言来做这件事，所以对于中文来说，你想要字符，对英语来说，你还不如把字符也拿走，系统将在其一点上，50亿个参数，学习组成单词的字符序列，会很酷的，所以他们看到了一大堆不同的挑战。

你看到的是他们在做这个之前的技术水平，比如说，Labata数据集是，它的预测令人困惑，有了这个大模型，它的预测的困惑大约是九个，所以这意味着它减少了，下一步该预测什么的不确定性太荒谬了。

我的意思是超过一个数量级，你得到了类似的收获，准确率从百分之五十九到百分之六十三，对…的准确性，这是孩子们的东西或其他挑战，从百分之八十五到百分之九十三，如此戏剧性的改进几乎是全面的。

除了这个特定的数据集，他们做得不好的地方，真正让我震惊的是，这是他们建立的50亿字模型的应用程序，所以他们说，好的，我给你一个提示，就像一堵墙的开头段落，街头杂志文章或维基百科文章。

你用我之前展示给你的生成器的想法来完成这篇文章，它只是使用语言模型，并选择下一个最有可能出现的词，作为下一个词发出，所以这里有一个提示说，今天在辛辛那提一辆装有受管制核材料的火车车厢被盗，下落不明。

顺便说一句，这是编造的，我是说，这不是一篇真正的新闻文章，系统得出的结论是事故发生在市中心的铁路线上，从卡温顿和阿什兰车站出发，在给俄亥俄州新闻媒体的电子邮件中，美国能源部说。

它正在与联邦铁路管理局合作寻找小偷等，好的，这看起来，现在这篇文章来自的报纸，这实际上是来自一个博客，但他们也发表了一篇关于它的论文，声称这些例子甚至不是精心挑选的，如果你去那一页选择，样本一，两个。

三个，四，五个，六，等等，你会得到不同的例子，他们声称不是精心挑选的，他们每个人都很好，我是说，你可以想象这是一篇关于这个真实事件的真实文章，所以不知何故在这个巨大的模型中，有了这种变压器技术。

通过他们所做的多任务训练，他们设法捕捉到了英语的许多规律性，他们可以根据提示生成这些假新闻文章，让它们看起来难以置信的逼真，现在有趣的是，他们选择不释放那个训练有素的模型。

因为他们担心人们实际上会这样做，他们会一直生成假新闻文章，他们发布了一个小得多的型号，就其现实主义而言，这几乎没有那么好，这就是目前语言建模的最新技术，正如我所说，一般领域领先于医学领域。

但你可以打赌有很多人坐在那里，看着这些结果，说好，我们应该能利用这一点，为医学领域建立更好的语言模型，并剥削他们，为了做表型分型，为了做实体识别，为了做推理，为了做问答，为了做任何这类主题。

现在我在和帕特里克·温斯顿说话，他是一个很好的老式人工智能人，就像他描述自己一样，有点麻烦的是，这项技术实际上与我们所理解的语言无关，或者关于推理，或者关于回答问题，或者任何事情。

所以一个人留下了这种反胃的感觉，这是一个很好的工程解决方案，可以解决一系列问题，但尚不清楚它与人工智能的最初目标有何关系，那就是通过在计算机中模拟人类智力来理解人类智力的一些东西，也许我们的BCS。

朋友们会发现，事实上，深埋在我们大脑中的变压器机制，但如果事实证明确实如此，我会感到惊讶，但也许有类似的事情在发生，所以这留下了一个有趣的科学难题，我们到底从这种非常，非常成功的模型构建，好的。

posted @ 2024-09-25 07:57 绝不原创的飞龙阅读(18) 评论(0) 收藏举报

刷新页面返回顶部

龙哥盟

掠夺·扩张·投机·博弈

P8-8-Natural-Language-Processing--NLP----大佬的迷弟的粉丝---BV1oa411c7eD

P8：8.Natural Language Processing (NLP) - 大佬的迷弟的粉丝 - BV1oa411c7eD

公告