中科创达AI_AGENT岗位面试

面试问题

  1. 如何做的 docparse?如何进行拆分的?

    • (需要根据你的实际项目经验回答,以下提供一些可能涉及的点)
    • 文档解析工具/库的选择(如:PDFBox, Tika, PaddleOCR等)
    • 文档结构分析:识别标题、段落、表格、图片等
    • 拆分策略:
      • 按章节/段落拆分
      • 固定长度的文本块拆分
      • 基于语义的拆分 (利用 NLP 技术)
    • 拆分后的数据清洗和预处理
  2. 如何做的召回?召回有哪些策略?为啥选择这个?

    • (需要根据你的实际项目经验回答,以下提供一些可能涉及的点)
    • 召回策略:
      • 基于关键词的召回:
        • BM25
        • TF-IDF
      • 基于向量相似度的召回:
        • Embedding 模型 (Word2Vec, Sentence-BERT, OpenAI Embedding API 等)
        • 相似度计算方法 (Cosine Similarity, Dot Product 等)
      • 基于图的召回:
        • 知识图谱
        • Graph Embedding
      • 混合召回: 结合多种召回策略,提高召回率
    • 选择的原因:
      • 需要说明你选择的具体召回策略,以及该策略的优点和缺点。
      • 结合你的应用场景,解释为什么该策略更适合。 (例如,如果需要处理长文本,Sentence-BERT 可能更适合;如果需要处理结构化数据,知识图谱可能更适合)
    • 可以提及的评估指标:
      • 召回率 (Recall)
      • 准确率 (Precision)
  3. 提示词工程可以讲讲吗?比如我的 JSON 格式返回缺失,如何做?

    • 提示词工程 (Prompt Engineering):
      • 定义:设计有效的提示词,引导大模型生成符合预期的结果。
      • 技巧:
        • 明确指令:清晰地告诉模型需要做什么。
        • 提供上下文:提供足够的背景信息,帮助模型理解问题。
        • 指定格式:明确要求模型以特定格式返回结果。
        • Few-shot Learning:提供少量示例,让模型学习输出模式。
        • CoT (Chain of Thought):引导模型逐步思考,提高推理能力。
    • JSON 格式返回缺失的修复:
      • 更明确的提示: 在提示词中更明确地要求模型返回完整的 JSON 格式,并提供 JSON Schema 示例。
      • 指定输出格式: 使用 "JSON:"、"Output as JSON:" 等关键词,强调输出格式。
      • Few-shot Learning: 在提示词中提供几个 JSON 格式完整的示例,让模型学习。
      • 解析与重试: 对模型返回的结果进行解析,如果 JSON 格式不完整,则进行重试,并调整提示词。
      • 后处理: 使用代码对模型返回的 JSON 进行后处理,补全缺失的字段。
  4. 图片内容是如何做的?如何聚合的?如何保证效果的?

    • (需要根据你的实际项目经验回答,以下提供一些可能涉及的点)
    • 图片内容分析:
      • 目标检测 (Object Detection):识别图片中的物体。
      • 图像分类 (Image Classification):对图片进行分类。
      • 图像描述 (Image Captioning):生成图片的文字描述。
      • OCR (Optical Character Recognition):识别图片中的文字。
    • 聚合:
      • 将图片内容分析的结果 (如:物体、类别、描述) 与其他信息 (如:用户、文本) 进行关联。
      • 可以使用 Embedding 模型将图片和文本转换为向量,然后进行相似度计算。
    • 保证效果:
      • 选择合适的模型: 根据任务选择合适的图像分析模型。
      • 数据增强: 使用数据增强技术,提高模型的泛化能力。
      • 评估指标: 使用合适的评估指标 (如:Precision, Recall, mAP) 评估模型效果。
      • 人工审核: 对于重要的图片内容,进行人工审核。
  5. 大模型效果不好,你如何尽快地修复呢?你修复的时间预计是多少?

    • 快速修复流程:
      1. 问题诊断: 确定问题类型 (例如:生成内容不准确、格式错误、有害信息等)。
      2. 数据分析: 分析输入数据,找出导致问题的模式。
      3. 提示词优化: 调整提示词,引导模型生成更好的结果。
      4. 模型参数调整: 调整模型的参数 (例如:温度、Top-P),探索更合适的生成策略。
      5. Few-shot Learning: 提供示例,引导模型学习。
      6. 数据增强: 增加训练数据,提高模型的泛化能力。
      7. 模型微调: 使用少量数据对模型进行微调。
      8. 评估与迭代: 评估修复效果,并根据结果进行迭代。
    • 修复时间:
      • 修复时间取决于问题的复杂程度。
      • 简单的提示词优化可能只需要几分钟。
      • 模型微调可能需要几个小时或几天。
      • 强调快速迭代和持续改进。
  6. 模型微调如何评估?

    • 评估指标:
      • 准确率 (Accuracy): 对于分类任务。
      • F1-Score: 对于分类任务,特别是数据不平衡时。
      • BLEU: 对于文本生成任务。
      • ROUGE: 对于文本摘要任务。
      • Perplexity: 评估语言模型的流畅度。
      • 人工评估: 对于生成质量的评估。
    • 评估方法:
      • 训练集评估: 评估模型在训练集上的表现。
      • 验证集评估: 评估模型在验证集上的泛化能力。
      • 测试集评估: 评估模型在测试集上的最终效果。
      • A/B 测试: 在实际应用中进行 A/B 测试,比较微调后的模型和原始模型的表现。
  7. 你会 Python 吗?

    • (根据你的实际情况回答。 如果会,说明你的 Python 技能水平,以及在哪些项目中使用过 Python。)
  8. 模型微调你会吗?

    • (根据你的实际情况回答。 如果会,说明你使用过的微调方法、工具和数据集,以及微调后的模型效果。)
    • 可以提及的微调方法:
      • Full Fine-tuning: 微调所有模型参数。
      • LoRA (Low-Rank Adaptation): 只微调少量参数,降低计算成本。
      • Prefix Tuning: 在输入前添加可学习的 Prefix,微调 Prefix 参数。
    • 可以提及的工具:
      • Hugging Face Transformers
      • PyTorch
      • TensorFlow
posted @ 2025-07-09 16:48  贺艳峰  阅读(10)  评论(0)    收藏  举报