你怎么知道别人在骗你呢?嗯,你要么知道他们说的是错的,要么你有一种感觉。是什么让你有这种感觉?你的直觉,来自你以前被骗过的时候,或者是一个迹象,比如坐立不安、低头、看向别处,或者只是行为异常。好吧,但如果说谎的人是说谎高手呢?那就难多了!他们在行为上没有任何差异,而且对他们告诉你的事情很有信心。人工 ...
前言 大家都说2025年是AI Agent元年,自然agent智能体开发也非常热门。很多公司的所谓的智能体其实是通过扣子、dify这种平台配出来的。就像是通过低代码平台配置出来的web页面一样,虽然能用,但是如果你的需求很复杂,往往平台就无法满足你的需求。作为程序员所以我们还是得需要自己动手来实现智 ...
介绍 (1) 发表:NIPS'24 (2) 背景 考虑直接与 Linux 终端直接互动的 Agent 的简单设置,我们发现 LM Agent 很难在这种环境下可靠地采取行动。例如,它无法提供简单的命令来编辑一个小文件段,并且如果用户进行无效编辑,则不会提供任何反馈。这些缺陷大大阻碍了性能,激发了对代 ...
1. AI是驱动第四次工业革命的通用技术 1.1. AI不仅被用作科学家的实验工具,而且开始广泛渗透到日常生活中,重塑着我们的工作、教育、社交、健康乃至情感体验 1.2. 着眼于构建公平、透明且负责任的AI系统,确保技术进步惠及每一个人,尤其是那些在传统社会结构中常被忽视的群体 1.3. AI不再是 ...
GPT-5智能提升多少很难说,相信后面更深度的体验才能感受到它的优缺点。从目前的感受而已,很有主动性,积极建议下一步动作,感觉多了一个催我干活的队友。 ...
背景GLM4.5V 是智谱AI于2025年8月11日发布的开源视觉推理模型,基于新一代旗舰文本基座模型 GLM-4.5-Air 开发,延续了 GLM-4.1V-Thinking 技术路线。参数规模:总参数 106B,激活参数 12B。 性能表现:在 41 个公开视觉多模态任务中,综合效果达到同级别开 ...
欢迎 GPT OSS —— 来自 OpenAI 的全新开放模型家族! GPT OSS 是 OpenAI 推出的 重量级开放模型,面向强推理、智能体任务以及多样化开发场景。该系列包含两款模型:拥有 117B 参数的 gpt‑oss‑120b 和拥有 21B 参数的 gpt‑oss‑20b。二者皆采用 ...
介绍 (1) 发表:Arxiv 06.12 (2) 挑战 主要探讨了基于 LLM 的 APR 的两个主要类别:代理和程序。尽管这两个范式都表现出希望,但它们依然表现出两个重要的局限性: 忽视历史修复经验:现有方法都忽略了从同一存储库中先前解决的问题中积累的宝贵历史经验,而实际上,软件项目在其演变过程 ...
背景OpenAI于北京时间2025年8月8日凌晨1时举行了线上发布会,正式推出GPT-5。CodeBuddy IDE,主打“产品-设计-研发部署”全流程一体化,旨在降低开发门槛,尤其适合独立开发者和非技术背景的用户。CodeBuddy整合了PRD、TRD、DRD文档生成、Figma设计稿转网页、 ...
背景 笔者写过多个模型OOP重构实践,包括《基于CodeBuddy自定义Agent知识库重构实践》与《Trae智能复杂项目重构实践》,三方与其他主流模型的评测今天我们在Trae来试试Kimi K2模型:实践杂上下文,长度可以满足,一次性对话。我们看重构多个文件还生成一个markdown文档# Thi ...
捏着鼻子用多了就会发现:各家模型都有自己擅长的能力,这与不同平台所掌握的优质数据有关系,比如电商跨境,本地生活,内容制作,行业分析等。 ...
介绍 (1) 发表:ISSTA'24 (2) 背景 软件工程涉及程序改进的过程,特别是软件维护(例如,程序错误修复)和软件演变(例如,功能添加) 自动化程序维修任务对实现自动软件工程愿景的重要性。鉴于自动化程序维修的动机,并且开发人员经常花费大量的时间来修复错误。本工作提出了 AutoCodeRov ...
20个AI 爱好者必听的顶级播客(含推荐单集)1. TWIML AI 播客The TWIML AI Podcast 深入探讨机器学习与人工智能,邀请业内顶尖专家进行访谈。内容涵盖 AI、机器学习、深度学习、自然语言处理与数据科学。无论你是行业专家、技术型商业领袖,还是科技爱好者,都会有所收获。主持人 ...
前两天朋友刷到HRM这个27M模型的文章,想让我试着部署训练一下。此文用于记录部署过程 前期准备 克隆仓库 sapientinc/HRM 安装CUDA 我的CUDA是已经安装好的12.8版本,安装过程不再赘述 安装torch torch版本如下 Version: 2.7.1+cu128 pip in ...
介绍 (1) 发表:ICSE'24 (2) 背景 APR 任务的这些模型的当前评估仅关注错误所在的单个功能或文件的有限上下文,从而忽略了存储库级上下文中的有价值信息。现有的数据集要么不是在存储库中构建的,例如 Quixbugs,要么无法准确恢复存储库级错误的方案,例如 Defects4J。本文研究了 ...
背景百度Comate基于文心大模型(ERNIE-Code),结合百度内部编程大数据及GitHub优质开源数据训练,具备深度语义理解能力。 支持100+编程语言(如Go、Java、Python、JavaScript等),兼容主流IDE(VS Code、JetBrains系列)。Zulu智能体提示词依然 ...
背景 论文《Working with AI: Measuring the Occupational Implications of Generative AI》。这篇由微软研究院团队撰写的论文,通过分析20万条用户与Microsoft Bing Copilot(现Microsoft Copilot) ...
背景1. GLM4.5 GLM(General Language Model,通用语言模型)是大语言模型(LLM)的一种技术路线,以支持多模态、长文本理解和复杂推理为特点。GLM4.5的代码生成能力基于对海量代码语料(如GitHub开源项目、技术文档、问答社区)的学习,支持主流编程语言( ...
背景各模型概要性能评估Ghost Comments看那些右箭头,就是动态注释,没有真实写入文件代码BUG修复总体一般,没有智能体的特色,只有CodeGeeX问答模式。增加注释速度快,但不生成方法头部的注释解释代码文字解释后,生成了流程图实战代码扩展性修改PK提示词@workspace #codeba ...