实测9款AI面试助手回复效果,发现这三款堪称神器

深夜,第N次对着招聘网站叹气,改好的简历像投入黑洞,连个回音都没有。作为一枚在北上深都漂过、BAT都待过,如今却卡在35+门槛的90后“职场老人”,我太懂这种感觉了——面了100+场,收了99封“与岗位不匹配”的拒信。不是不努力,是现在的战场规则变了:学历歧视、技能断层、面试时跟年轻面试官的思路脱节… 纯靠“背八股”根本玩不转。
绝望中,我把目光投向了号称能“重塑面试”的AI助手。但市面上工具眼花缭乱,都说自己最牛,可对于我们这种时间紧、试错成本高的“大龄”转行党、学历一般的突围者,哪个才是真能帮上忙的“面试搭子”?
光看功能花哨没用,实战见真章。为此,我花了数周,用真实面试问题实测了9款主流AI面试工具,从面试精灵、Offer蛙到offerin,就一个目的:找出那个能在真实高压面试里,帮你把话说到点上、把逻辑理清楚的AI面试帮手。

一、评测说明

评测对象

本次评测基于我们上一篇文章《实测十款大模型面试助手:学生党求职辅助横向测评
的面试助手榜单,剔除了完成度较低或无免费额度的工具,并新增一款国外产品以作对比,最终对以下9款主流 AI 面试助手进行实战效果评测:

评测维度与评分标准

我们采用 1-5 分制(1=极差,5=优秀),细化每个维度的得分情形,确保评分相对准确。

评测维度 描述 得分标准(示例)
语音识别准确率 技术面试场景下语音识别正确率,尤其是存在英文术语的情况下。 1分:大量错误识别;3分:少量错误或一个核心术语偏差;5分:近乎完美,所有核心术语、英文术语识别正确。
意图识别正确率 理解问题意图的准确性,避免答非所问。 1分:完全偏离;3分:意图识别词汇有偏差,但是回答内容来看正确;5分:精准捕捉问题核心。
内容深度及个性化 是否结合简历和岗位要求,避免空洞套话,提供具体事例。 1分:泛泛而谈;3分:参考简历等信息但是不准确或不完整;5分:深度定制,引用简历细节。
沟通技巧 回复是否自然、有同理心,或有独特视角。 1分:机械生硬或是角色带入错误;3分:流畅自然,快速切入题目;5分:流畅自然,(语气及语言组织等方面)有超出预期的亮点。
准确性 论证结构是否清晰,逻辑是否严谨。 1分:错误百出;3分:结论部分正确,论据不足或逻辑错误;5分:结构完整,论证有力。
全面性 是否覆盖问题所有关键点。 1分:未抓住任何重点,无预期输出(如算法题不输出代码等);3分:遗漏部分重点;5分:全面细致。
直观性 格式是否友好(如黑体加粗、代码块、图形、公式)。 1分:杂乱无章,格式错误;3分:个别输出格式显示错误;5分:格式清晰,代码、公式、图表显示正确,易于阅读。

最后,每道题取多个维度的加权平均分作为综合得分,计作“帮助性”。
$$
\text{帮助性} = \frac{\text{内容深度及个性化} + \text{沟通技巧} + 2 \times \text{准确性} + \text{全面性} + \text{直观性}}{6}
$$

说明:1. 语音识别准确率、意图识别正确率等都蕴含在了回复准确性这个指标中,所以并未计入加权计算中。2. 回复准确性是最关键的指标,所以权重相对较高。

题目设置

本次测试的问题覆盖以下多种类型的面试问题,以模拟真实面试场景:

  • 简历问题
    • “请你先简短做个自我介绍吧。”(评估 RAG 检索增强生成个性化回复效果)
    • “请详细描述下你简历中的这个点云感知项目”(评估 RAG 检索增强生成个性化回复效果)
  • 岗位问题
    • “你对我们公司了解多少?”(评估上下文理解以及个性化回复效果)
  • 技术问题:IT 类(算法、系统设计)、其他行业(如金融)面试问题等,重点测试英文识别、新词识别和时效性(如“请解释2023年热门技术趋势”)。
    • IT 类
      • 算法:“如何在一个未排序的数组中找到第K大的元素?”(评估算法编程能力)
      • 系统设计:“设计一个支持高并发的短网址生成系统。”(评估系统设计以及架构图绘制显示效果)
      • NLP:“Transformer 模型相比 RNN 的优势是什么?”(评估英文术语识别能力)
      • 新技术(时效性问题):“DeepSeek 最近很火爆,你了解他的技术么?知道他厉害在哪里么?”(评估最新英文术语识别能力和联网检索增强能力)
      • 新技术(时效性问题):“2025 年至今发布的最重要的一个AI大模型是啥,请简要说明它的特点和应用场景”(评估联网检索增强能力)
    • 其他行业
      • “解释贴现现金流(DCF)模型的计算步骤。”(评估多行业模型应用能力,数学公式公式显示效果)

本次测评经费有限,主要是依靠各面试助手平台提供的免费额度完成,所以将测评问题数目从最初设计的 50 题中精选了上述 9 个最具代表性、最能反映上面评测维度(如面试中英文术语语音识别准确率、简历等信息利用、时效性问题回复效果等)的问题。缩减后的问题却少了行为问题(如“谈谈你曾经克服的一个重大挑战。”)和情景问题(如“你在项目中遇到资源不足,你会如何应对?结合你自己的项目经历介绍下。”)等问题,但是,这两类问题对于评估指标的影响较小,可以暂时忽略。另外,由于部分平台免费额度不够评测所有问题,所以会优先考察语音识别准确率和部分高优先级测评问题。整个评测耗时超三天,最初评测时间为2025年3月,中间其他事情耽搁,最近才开始整理评测结果,整理阶段又断断续续花了数周,相当用心。若对您的面试选择有帮助,请点赞收藏文章,您的鼓励就是我更新的动力。

统一标准

  • 提前录制面试问题,测试各面试助手的时候播放问题音频,保证音频输入的一致性。
  • 所有助手开启最强配置
    • 使用简历增强回复,即助手能利用用户简历信息。
    • 开启联网搜索。
    • 模型选择最高配置。

二、评测内容

考虑到很多小伙伴比较关心最终总结报告,这里只列出了 3 个问题的详细分析结果,其他 6 个问题的详细分析结果放在附录-完整评测内容中,方便这部分小伙伴快进到第三章的整体结论。

问题1:简历问题——“请你先简短做个自我介绍吧。”

  • 测试重点:评估 RAG 检索增强生成个性化回复效果,尤其是归纳总结能力。同时考察沟通技巧。
  • 最佳表现:面试精灵和 Offer 蛙表现得最好,回答内容完整且都是按照“基础信息-技能-项目-动机与胜任”组织。面试精灵支持双栏模式,右侧精准栏利用了简历信息并用顶级大模型总结回复准确贴切,左侧极速栏不参考任何信息直接回复,所以响应非常快(但是本例中左侧栏回复缺少简历信息不具有参考性)。Offer 蛙的特点是回复非常符合面试者口吻,方便不想动脑整理回复内容的小伙伴。下图为面试精灵对本题的回复效果。
    问题 1 优秀回复-面试精灵
  • 翻车现场:Offerin、面试狗、面试大师在本题的回复中未成功利用简历信息,回复内容空泛。offerin、面试狗生成的答案有很多需要用户自行填写的占位符,面试大师未提供任何有效信息,反而追问面试官想要了解什么。下图为 offerin 对本题的回复效果。
    问题 1 翻车回复-offerin

本问题各助手维度评分

语音识别 意图识别 内容深度及个性化 沟通技巧 准确性 全面性 直观性 帮助性
面试精灵 5 5 5 5 5 5 5 5.00
Offer 蛙 5 5 5 5 5 5 5 5.00
offerin 5 5 1 3 1 3 5 2.33
面试通 - - - - - - - -
面试狗 5 5 1 4 1 3 5 2.50
Verve AI 5 5 5 5 5 5 4 4.83
interviewgpt 5 5 3 3 5 4 5 4.17
面试大师 5 5 1 3 1 1 5 2.00
职行 AI 5 5 3 3 5 3 5 4.00

说明:表格中的“-”表示该项未评测,主要因为该助手免费额度不足以测试所有问题,故而该助手只测试了部分问题,或是只测试了部分问题的语音识别效果。下文的表格中也同理。

问题7:技术问题(时效性)——“DeepSeek最近很火爆,你了解他的技术么?知道他厉害在哪里么?”

  • 测试重点:评估最新英文术语识别能力和联网检索增强能力。
  • 最佳表现:本题只有面试精灵回复的准确。面试精灵的语音识别结果“Deep Seeker”虽然不正确,但是却是最接近真值 “DeepSeek”的。大模型纠错后,回复内容正确,是和 deep seek 相关的,同时借助了联网搜索来对 deep seek 这一较新知识进行 RAG(检索增强生成)。下图为面试精灵对本题的回复效果。
    问题 7 优秀回复-面试精灵
  • 翻车现场:其他助手在语音识别这一步就翻车,对于“DeepSeek”识别错误,如识别成“Deeppse”、“Deep sick”、导致后续的回复结果都不是很相关。猜测 “DeepSeek” 这个词可能并未在这些助手使用的语音识别模型的训练数据中,导致识别错误。下图为 Offer 蛙对本题的回复效果。
    问题 7 翻车回复-Offer 蛙

本问题各助手维度评分

语音识别 意图识别 内容深度及个性化 沟通技巧 准确性 全面性 直观性 帮助性
面试精灵 4 5 5 5 4 5 5 4.67
Offer 蛙 3 1 3 5 1 3 5 3.00
offerin 3 - - - - - - -
面试通 - - - - - - - -
面试狗 - - - - - - - -
Verve AI - - - - - - - -
interviewgpt 3 1 1 1 1 3 5 2.00
面试大师 - - - - - - - -
职行 AI - - - - - - - -

问题8:技术问题(时效性)——“2025年至今发布的最重要的一个AI大模型是啥,请简要说明它的特点和应用场景”

  • 测试重点:评估助手联网检索增强回复效果的能力。
  • 最佳表现:本题只有面试精灵回答正确,通过联网搜索,找到2025年上半年最火的大模型 Deep seek。下图为面试精灵对本题的回复效果。
    问题 8 优秀回复-面试精灵
  • 翻车现场:表现最差的是面试大师,语音识别阶段就犯错。另外,其他助手都没有利用到联网搜索的知识,比如从 Offer 蛙、职行 AI、面试狗、面试通的回复可知其仅仅依靠模型内部知识回答,而且知识很老旧,其中职行 AI 知识才更新到 2024 年 7 月,而 Offer 蛙和面试通的知识竟然才更新到 2023 年。下图为面试通对本题的回复效果。
    问题 8 翻车回复-面试通

本问题各助手维度评分

语音识别 意图识别 内容深度及个性化 沟通技巧 准确性 全面性 直观性 帮助性
面试精灵 3 5 3 5 4 3 5 4.00
Offer 蛙 3 1 3 5 1 3 5 3.00
offerin 4 5 3 5 1 3 5 3.00
面试通 4 4 5 5 1 3 5 3.33
面试狗 5 5 3 5 1 3 5 3.00
Verve AI 3 5 5 5 1 5 5 3.67
interviewgpt 5 5 5 5 1 5 5 3.67
面试大师 1 - - - - - - -
职行 AI 3 5 5 5 1 3 5 3.33

说明:其他 6 个问题的详细分析结果放在“附录-完整评测内容”中。

三、整体结论

总表统计:各助手维度平均分对比

我们统计了所有助手在各维度的平均分。

能力 帮助性 语音识别 意图识别 内容深度及个性化 沟通技巧 准确性 全面性 直观性
面试精灵 4.78 4.44 5 4.78 4.67 4.78 4.78 4.89
职行 AI 4.26 4.57 5 4.14 4.57 4.43 3.86 4.14
Offer 蛙 4.22 4.22 4.56 4.11 5 3.67 4.33 4.56
Verve AI 4.05 3.86 3.86 4.43 4.86 3.29 4.43 4
interviewgpt 4.05 4.43 4.43 4 4.14 3.86 4.57 3.86
面试大师 3.67 2.67 3.6 3.8 4.6 2.8 3.6 4.4
面试通 3.53 3.83 4.5 4 3.67 3.17 3.5 3.67
面试狗 3.39 5 5 2.67 4.67 2.67 3.33 4.33
offerin 3.33 4.22 5 3 4.33 2.33 3.33 4.67
行业平均 3.92 4.14 4.55 3.88 4.50 3.44 3.97 4.28

排行榜条形图

根据上表统计结果,作如下总评分(帮助性)排行榜。从图中可以直观看出,面试精灵、职行 AI、Offer 蛙的总评分处于领先地位,而面试狗、offerin 的总评分垫底。
面试助手回复效果排行榜条形图

雷达图展示各助手维度对比

再根据表格画出雷达图,观察各助手在各个维度上的表现。图中只高亮显示了排行前三的面试精灵、职行 AI、Offer 蛙的维度评分折线。可以看出:

  • 面试精灵在多个维度表现最均衡,无明显短板,更是在多个维度上(准确性、个性化、全面性、直观性等)表现最佳。
  • Offer 蛙在沟通技巧上表现最佳。面试狗在语音识别准确率上表现不错,但是却有偏科,回复准确率较低。

面试助手对于面试者的帮助性,是多个维度综合作用的结果,各个维度的需要均衡不偏科才更有利于帮助求职者拿下理想 Offer。
面试助手回复效果评测雷达图

各助手回复效果总结

  • 面试精灵:面试精灵在多个维度表现最均衡,更是在多个维度上(准确性、个性化、全面性、直观性等)表现最佳。面试精灵的语音大模型和极限精英版大模型保证了准确性;使用 RAG 技术利用简历信息和联网搜索结果,来进一步提高回复的准确率个性化和全面性;其前端对于代码、公式、图表显示效果都不错,方便面试者直观理解答案。
  • 职行 AI:表现比较均衡,无明显短板。代码可视化效果差,功能不够完善,工程方面有待改进。
  • Offer 蛙:在沟通技巧表现方面比较出众,回复以面试者第一人称口吻展开,适合不想动一点脑,只想照着读的小伙伴。但是在简历信息总结利用、联网搜索等方面表现较差。另外,模型比较老旧,内置知识只更新到2023年。
  • Verve AI:这款国外的助手,并没有带来太多惊喜,但是贵在成熟无明显短板。
  • interviewgpt:表现比较均衡地一般。代码、公式呈现效果差,前端 UI 有待优化。
  • 面试大师:语音识别错误率奇高,严重影响回复的准确性。
  • 面试通:表现比较均衡地一般。另外,模型比较老旧,内置知识只更新到2023年。
  • 面试狗:语音识别准确率最高,但是助手利用简历信息、联网搜索的能力很差,导致相关类型问题的回复准确率很低。
  • offerin:英文术语多的场景下,语音识别效果较差。另外,该助手利用简历信息、联网搜索的能力很差,导致相关类型问题的回复正确率极低。

共性问题总结

  • 技术面试场景的语音识别难度高,尤其是涉及到英文术语、新词汇的情况下,解决英文术语识别准确率是提高面试助手帮助性的最关键一环。绝大部份面试助手语音识别效果较差(尤其是面试大师最为恶劣),有大量提升空间,建议针对面试场景数据进行训练优化。
  • 部分助手(Offerin、面试狗、面试大师)在应对简历问题时,未合理利用简历以及其他面试准备信息,导致回复个性化不强,比较模板化空洞无物,建议优化Context Engineering(上下文工程)算法。
  • 多款助手在“时效性问题”上表现较差,因为,所采用的模型内置知识更新滞后(如Offer 蛙、职行 AI、面试狗、面试通),或是联网搜索功能效果差。
  • 部份助手对于代码、公式、图表等显示异常,也会影响用户快速理解和回复,这里点名批评:面试通、面试狗、Verve AI、interviewgpt 和职行 AI。
  • 没有完美的面试助手,所有都有不足的地方。语音识别就难倒一大部分面试助手,再考虑到大模型自身的幻觉问题等,所以面试者不能完全信任大模型的回复,需要对结果进行初步的判断,或是根据实际情况只参考面试助手提供的思路,而自己推演展开答案。

性价比对比

抛开价格谈性能,都是耍流氓。我们结合各个助手的定价(统一换算成“元/小时”),制作了下面的面试助手性价比分布图。
面试精灵在不开启精英版功能的情况下,一小时最低开销10元,但本次测试中我们开启了精英版功能(极限精英版大模型、简历增强、双栏模式等)以获取最佳回复效果,实际耗费约25元/小时。

面试助手性价比分布图

可以看到,面试精灵位于性价比分布图的最右上角,具有独一档的高性价比。紧随其后的是中等性价比的 Verve AI、职行 AI、interviewgpt、Offer 蛙。而面试大师、面试狗、和 offerin 性价比较低。在前一篇文章《实测十款大模型面试助手:学生党求职辅助横向测评
的功能评测中,我对于 offerin 的功能完整性和成熟度比较赞赏,但是本次测评结果中,offerin 的表现却令人大跌眼镜。而面试精灵在保持低价的前提下不仅功能完善,还具有最高的准确率和面试帮助性,最令人惊喜。

结语

实测一圈下来,我的感受很复杂。一方面,AI面试助手确实是我们这些“资源有限”求职者的强力杠杆,其中尤其推荐面试精灵、职行 AI、Offer 蛙。但另一方面,没有工具是完美的,别指望靠任何一个工具“保送”Offer。它的正确打开方式是——带着脑子用,参考其框架和角度,内化成自己的语言。

希望大家能从我调研的这些面试助手中找到满足自己需求的帮手。并再次提醒下大家,面试助手虽好,但不要贪杯哦。面试助手可以帮你减轻背诵面试八股文的烦恼,但是个人的发展和履历的丰富还是需要自己去打拼。

本文聚焦回复效果评估,后续我们将在更多领域的更多面试问题上,对更多指标(如响应时间分析)进行定量评估,并对各助手的笔试助手功能进行评测。您是否还有想要评测的指标或是助手,或是有任何意见,欢迎留言。所有文章定期评测更新,敬请关注!

最后,求职黄金期不等人,希望这份用我的时间和“学费”换来的实测,能帮你快速找到趁手的工具,高效准备,早日拿到心仪的Offer!稳住,我们能赢!


附录

点击查看完整评测内容

完整评测内容

问题2:简历问题——“请详细描述下你简历中的这个点云感知项目”

  • 测试重点:评估 RAG 检索增强生成个性化回复效果,尤其是相关信息定位检索能力。同时考察沟通技巧。
  • 最佳表现:Offer 蛙、Verve AI、职行 AI等助手的回复都准确,贴合简历中的项目经历,同时回复遵从“Situation-Task-Action-Result”结构。下图为Offer 蛙对本题的回复效果。
    问题 2 优秀回复-Offer 蛙
  • 翻车现场:面试狗的回复格式不错,但是内容完全没有参考简历内容。下图为面试狗对本题的回复效果。
    问题 2 翻车回复-面试狗

本问题各助手维度评分

语音识别 意图识别 内容深度及个性化 沟通技巧 准确性 全面性 直观性 帮助性
面试精灵 5 5 5 3 5 5 5 4.67
Offer 蛙 5 5 5 5 5 5 5 5.00
offerin 5 - - - - - - -
面试通 - - - - - - - -
面试狗 5 5 1 5 3 3 5 3.33
Verve AI 5 5 5 5 5 5 5 5.00
interviewgpt 5 5 4 5 5 5 5 4.83
面试大师 - - - - - - - -
职行 AI 5 5 5 5 5 5 5 5.00

问题3:岗位问题——“你对我们公司了解多少?”

  • 测试重点:评估根据提前填写的面试信息生成个性化回复的效果,同时考察沟通技巧。
  • 最佳表现:Verve AI和面试精灵的表现最佳,即使问题中没有提及公司名字,仍然能够根据面试准备阶段提前填写的信息,逻辑清晰的介绍面试的目标公司和与面试者的切合度。下图为面试精灵对本题的回复效果。
    问题 3 优秀回复-面试精灵
  • 翻车现场:Offer 蛙、面试通、面试狗和职行 AI的回复没有输出任何有用信息,留了很多占位字符,明显没有理解所求职的目标公司。下图为面试狗对本题的回复效果。
    问题 3 翻车回复-面试狗

本问题各助手维度评分

语音识别 意图识别 内容深度及个性化 沟通技巧 准确性 全面性 直观性 帮助性
面试精灵 5 5 5 4 5 5 5 4.83
Offer 蛙 5 5 1 5 1 3 5 2.67
offerin 5 - - - - - - -
面试通 5 5 1 1 1 3 5 2.00
面试狗 5 5 1 4 1 3 5 2.50
Verve AI 5 5 5 5 5 5 5 5.00
interviewgpt - - - - - - - -
面试大师 - - - - - - - -
职行 AI 5 5 1 4 5 3 5 3.83

问题4:技术问题(算法)——“如何在一个未排序的数组中找到第K大的元素?”

  • 测试重点:评估算法编程能力。
  • 最佳表现:本题表现最佳的是面试精灵和Offer 蛙。本题虽然简单常见,但是所有助手的语音识别都翻车了,好在大模型理解语音识别结果后基本都能纠偏过来。而面试精灵和Offer 蛙在回复部分都包括了思路、代码、复杂度分析等,代码呈现的也很漂亮所以满分。下图为面试精灵对本题的回复效果。
    问题 4 优秀回复-面试精灵
  • 翻车现场:Verve AI和面试大师的回复效果最差,原因是语音识别错误的情况下,大模型也为能成功理解意图,导致回复结果不相关。另外interviewgpt和职行 AI意图理解、回答都正确,但是代码格式异常,严重影响用户代码理解后回复。下图为职行 AI对本题的回复效果。
    问题 4 翻车回复-职行 AI

本问题各助手维度评分

语音识别 意图识别 内容深度及个性化 沟通技巧 准确性 全面性 直观性 帮助性
面试精灵 3 5 5 5 5 5 5 5.00
Offer 蛙 3 5 5 5 5 5 5 5.00
offerin 3 - - - - - - -
面试通 3 5 5 3 3 3 3 3.33
面试狗 - - - - - - - -
Verve AI 3 1 3 4 1 3 3 2.50
interviewgpt 3 5 5 5 5 5 1 4.33
面试大师 3 1 3 5 1 3 5 3.00
职行 AI 4 5 5 5 5 5 1 4.33

问题5:技术问题(系统设计)——“设计一个支持高并发的短网址生成系统。”

  • 测试重点:评估系统设计以及架构图绘制显示效果。
  • 最佳表现:面试精灵意图理解正确,回复的时候逻辑清晰,辅以架构图显示,可以帮助面试者快速抓到思路和回复重点。下图为面试精灵对本题的回复效果。
    问题 5 优秀回复-面试精灵
  • 翻车现场:Verve AI语音识别和意图理解错误,回复效果最差。

本问题各助手维度评分

语音识别 意图识别 内容深度及个性化 沟通技巧 准确性 全面性 直观性 帮助性
面试精灵 5 5 5 5 5 5 5 5.00
Offer 蛙 3 5 5 5 5 5 3 4.67
offerin 3 5 5 5 5 4 4 4.67
面试通 3 4 3 3 5 3 3 3.67
面试狗 5 5 5 5 5 3 5 4.67
Verve AI 1 1 3 5 1 3 5 3.00
interviewgpt 5 5 5 5 5 5 3 4.67
面试大师 3 4 5 5 4 5 4 4.50
职行 AI 5 5 5 5 5 3 3 4.33

问题6:技术问题(深度学习)——“Transformer模型相比RNN的优势是什么?”

  • 测试重点:评估英文术语识别能力。
  • 最佳表现:面试精灵和Offer 蛙表现最佳:正确回复,条理清晰。面试精灵和offerin成功识别英文术语。下图为Offer 蛙对本题的回复效果。
    问题 6 优秀回复-Offer 蛙
  • 翻车现场:面试大师语音识别问题整体较大,本题错误识别为“模型相比RnB。”,但是大模型能够结合提前填写的信息纠偏为分析大模型(例如Transformer模型)的优势,回复内容仍然有一定帮助意义。面试大师没有不支持保存、查看面试记录,这里没有提供对应截图。

本问题各助手维度评分

语音识别 意图识别 内容深度及个性化 沟通技巧 准确性 全面性 直观性 帮助性
面试精灵 5 5 5 5 5 5 5 5.00
Offer 蛙 4 5 5 5 5 5 5 5.00
offerin 5 - - - - - - -
面试通 3 4 5 5 4 4 5 4.50
面试狗 - - - - - - - -
Verve AI - - - - - - - -
interviewgpt - - - - - - - -
面试大师 1 3 5 5 3 4 3 3.83
职行 AI - - - - - - - -

问题9:技术问题(非IT行业)——“解释贴现现金流(DCF)模型的计算步骤。”

  • 测试重点:评估多行业模型应用能力,数学公式公式显示效果
  • 最佳表现:本题绝大部分助手的回复效果都正确,说明大模型内置的知识很广博,对于各领域的常识都比较熟悉。下图为面试精灵对本题的回复效果。
    问题 9 优秀回复-面试精灵
  • 翻车现场:面试大师语音识别为“解释贴现现金流AF模型的计算。”,英文术语错误,但是本题对英文术语有中文翻译,所以未导致错误,“侥幸”拿到了帮助性最高分。面试通、面试狗、Verve AI等助手公式显示异常,影响用户理解后回复。下图为 Verve AI 对本题的回复效果。
    问题 9 翻车回复-Verve AI

本问题各助手维度评分

语音识别 意图识别 内容深度及个性化 沟通技巧 准确性 全面性 直观性 帮助性
面试精灵 5 5 5 5 5 5 4 4.83
Offer 蛙 5 5 5 5 5 5 3 4.67
offerin 5 - - - - - - -
面试通 5 5 5 5 5 5 1 4.33
面试狗 5 5 5 5 5 5 1 4.33
Verve AI 5 5 5 5 5 5 1 4.33
interviewgpt 5 5 5 5 5 5 3 4.67
面试大师 3 5 5 5 5 5 5 5.00
职行 AI 5 5 5 5 5 5 5 5.00

posted on 2025-12-15 08:02  90小姜求职记  阅读(78)  评论(0)    收藏  举报

导航