- CASE:基于内容的推荐 :就是说咱给用户推荐东西(像推荐电影、酒店啥的),不是瞎推荐,是看内容像不像。比如你爱看科幻电影,就给你推其他科幻的 。
- 什么是 N - Gram :简单说就是把文字拆成连续的 “小片段”。比如 “我喜欢学习”,2 - Gram 就是 “我喜”“喜欢”“欢学”“学习” ,用这些片段找规律、做分析。
- 余弦相似度计算 :就是算两个东西(像两段文字、两个物品描述)有多像的一种办法。数值越接近 1,就越像,就像双胞胎兄弟,相似度高;离 1 远,就不太像啦 。
- 为酒店建立内容推荐系统 :就是用前面这些招,分析酒店的介绍、用户评价这些内容,然后给用户推荐他们可能喜欢的酒店。比如你喜欢 “海景、安静” 的酒店,系统就找有这些内容特点的酒店推给你 。
- Word Embedding :把单词变成数字向量,让电脑能 “理解” 单词意思。比如 “苹果” 和 “水果” 的向量,在电脑眼里,它们的关系就像现实中一样,是能体现出关联的 。
- 什么是 Embedding :说白了,就是把各种东西(文字、图片、声音啥的)转换成电脑能懂的数字向量,这样电脑就能处理、比较这些东西啦 。
- Word2Vec 进行词向量训练 :就是一种教电脑把单词变成向量的方法,让电脑学会单词之间的关系。比如训练后,电脑知道 “国王” 和 “王后” 的向量关系,有点像 “男人” 和 “女人” 的向量关系 。
- 什么是向量数据库 :专门存那些向量数据(就是前面说的 Embedding 后的数字向量)的数据库。普通数据库存文字、数字,它存的是向量,方便快速找相似的向量 。
- FAISS, Milvus, Pinecone 的特点 :这仨都是向量数据库相关的工具。FAISS 是 Facebook 搞的,能高效找相似向量;Milvus 是开源的,适合各种场景用;Pinecone 是云服务形式的,用着方便,不用自己搭复杂环境 。
- 向量数据库与传统数据库的对比 :传统数据库存普通数据,查的时候靠字段匹配啥的。向量数据库存向量,查的时候是找相似向量,适合处理像推荐系统、图像识别这些需要找 “相似” 的活儿,各有各的用处 。
posted @
2025-06-21 10:27
m516606428
阅读(
13)
评论()
收藏
举报