AI夏令营丨每日一题
2023-07-21
1. 自然语言处理是计算机科学领域的一个重要分支,其主要目标是:
- A. 创建自然语言数据库
- B. 使计算机能够理解、解释和生成自然语言
- C. 优化编程语言的性能
- D. 增加计算机的处理速度
答案:B
解析:自然语言处理的主要目标是使计算机能够理解、解释和生成人类的自然语言,从而更自然地与人类交互和沟通。
2. 在自然语言处理中,以下哪些任务属于文本分类? (可多选)
- A. 垃圾邮件识别
- B. 命名实体识别
- C. 语言翻译
- D. 情感分析
答案:A 垃圾邮件识别;B 情感分析;
解析:文本分类是自然语言处理中的一个任务,它包括将文本分为不同的类别或标签。垃圾邮件识别和情感分析都是文本分类的例子。命名实体识别和语言翻译属于其他不同的NLP任务。
2023-07-22
1. 词袋模型在考虑单词顺序时具有较好的效果。
答案:错
解析一:词袋模型下,像是句子或是文件这样的文字可以用一个袋子装着这些词的表现方式,这种表现方式不考虑文法以及词的顺序。
解析二:词袋模型是一种忽略单词顺序,仅考虑单词出现与否的模型,因此不会考虑单词的顺序信息。
2. 请简要解释什么是词嵌入(Word Embeddings)?它在自然语言处理中有什么作用?
解析:词嵌入是自然语言处理中的一种表示方法,它将单词映射到低维度的实数向量空间中。每个单被表示为一个密集向量,其中向量的每个维度代表着该单词在不同语义或上下文方面的信息。
词嵌入在自然语言处理中具有重要作用:
- 语义表达:词嵌入能够捕捉单词的语义信息,使得具有相似语义的单词在向量空间中距离较近,从而更好地表达了单词之间的关联性。
- 降维:通过使用词嵌入,可以将高维稀疏的单词表示转换为低维稠密的向量表示,从而减少数据维度,节省存储和计算资源。
- 提高模型性能:将词嵌入用作预训练的初始化参数,有助于改善模型的性能。在自然语言处理任务中,通过在大规模语料库上预训练词嵌入,可以帮助模型更好地理解语义和上下文信息。
- 处理稀疏性:在传统的表示方法中,每个单词通常表示为高维的独热向量,但是这样会导致表示的稀疏性。而使用词嵌入后,可以获得更加紧凑且密集的表示,有效地处理了这种稀疏性。
2023-07-23
1. 以下哪项不是自然语言处理任务?
- A. 语言翻译
- B. 图像分类
- C. 命名实体识别
- D. 文本摘要
答案:B
2. 下面哪些评估指标可以用于文本分类任务?
- A. 准确率(Accuracy)
- B. 平均绝对误差(MAE)
- C. 精确率(Precision)
- D. 召回率(Recall)
- E. F1-score
答案:ACDE
2023-07-24
1. N-gram 被定义为 N 个关键词组合在一起。从给定的句子可以产生多少二元组短语 (Bigram)[Analytics Vidhya is a great source to learn data science]
- A. 7
- B. 8
- C. 9
- D. 10
- E. 11
答案:C
解析:可以产生如下二元组短语: Analytics Vidhya, Vidhya is, is a, a great, great source, source to, to learn, learn data, data science, 共计9个
2. 关于无语境依赖关系图 (context-free dependency graph) ,句子里有多少子决策树 (sub.trees)
- A. 3
- B. 4
- C. 5
- D. 6
答案:D
解析:依赖关系图中的子决策树可以被看做是拥有外部连接的节点,例如: Media,networking, play, rolebillions,和 lives 是子决策树的根。
2023-07-25
1. 下面哪个文档包含相同数量的词条,并且在整个语料库中其中一个文档的词数量不等同于其他任何文档的最低词数量.
- A. d2和d4
- B. d6和d7
- C. d1和d4
- D. d5和d6
答案:A
2. 语料库中最常见和最稀少的词条分别是什么?
- A. t4、t6
- B. t3、t5
- C. t5、t1
- D. t5、t6
答案:C
3. 在该文件中使用最多次数的词条的频次是多少?
- A. t6-2/5
- B. t3-3/6
- C. t4-2/6
- D. t1-2/6
答案:B
2023-07-26
1. Seg2Seg模型在解码时可以使用贪心法或Beam Search方法。
答案:对
解析:贪心法在每个时刻选择生成概率最高的单词作为输出,然后将这个单词作为下一个时刻的输入。Beam Search会在每个时刻保留概率最高的k个序列,直到达到最大解码长度或满足停止条件。
2. 下列方法中,解决欠拟合的方法有哪些:
- A. 正则化方法
- B. 集成学习方法
- C. 添加新特征
- D. 减少正则化系数
答案:BCD
解析:集成学习是通过将多个不同的模型进行组合来提高整体模型的泛化能力和减少过拟合。添加新特征可能会提供更多的信息,提升模型的性能。减少正则化系数是降低正则化的影响,允许模型更好地拟合数据。
2023-07-27
1. 本次学习中,使用的特征提取+机器学习的思路步骤?
解答:首先读取数据进行预处理,包括损失值填充以及构造新特征,划分训练集和测试集,然后通过CountVectorizer或者TfidfVectorizer将文本转化为词向量,将词向量传入给机器学习模型LogisticRegression,进行回归分析,输入是包括title,author,abstract和keywords。输出是0,1的label,判断是否为医学文献
2. 本次学习中,论文关键词划分哪两类?在提取这两类关键词分别可采用哪些方法?
解答:第一类是在标题和摘要中出现的关键词,第二类是没有在标题和摘要中出的关键词。提取第一类关键词时,一般采用词频统计,词性过滤,TF-IDF等算法,直接从文本信息中精炼总结。提取第二类关键词时,一般采用文本聚类,上下文分析,或者一些深度学习算法,来训练模型,从文本中提取标题中未出现的却很重要且相关的关键词。
2023-07-28
1. Word2Vec是一种用于词嵌入的方法,它包括以下哪几种模型:
- A. CBOW (Continuous Bag of Words)
- B. RNN (Recurrent Neural Network)
- C. LSTM (Long Short-Term Memory)
- D. Skip-gram
答案:AD
2. 简述BERT模型中的NSP任务和MLM任务的目标和实现方式
答案: