刷新
OpenEvals下一代AI模型评估标准

博主头像 OpenEvals下一代AI模型评估标准一. 介绍 随着人工智能技术的飞速发展,大型语言模型(LLM)等先进模型的能力正以前所未有的速度增强。然而,这一进步也带来了一个日益严峻的挑战:如何科学、公正、可复现地评估这些复杂的 AI 系统,已成为制约行业健康发展的关键瓶颈。作为全球领先的开源 AI 社区 ...

氛围编程工具个人推荐

博主头像 大模型推理能力(脑子) > 编辑器功能(手)。它更推崇拥有强大逻辑架构能力的模型(如Claude),而不是单纯的IDE集成工具。第一梯队 (First Echelon):主力军这一层级是作者认为完成“Vibe Coding”最核心的工具组合。Claude Code (核心大脑)定位: 架构师、总指挥 ...

六顶思考帽深度解析AI赋能代码生成技术

博主头像 六顶思考帽深度解析AI赋能代码生成技术简介 人工智能(AI)赋能的代码生成技术已不再是简单的代码补全工具。它已经迅速演变为一个复杂而庞大的生态系统,涵盖了从底层的代码基础模型、推动软件工程自动化的智能体(Agents),到保障系统可靠性的安全对齐技术,乃至探索通用人工智能(AGI)边界的通用智能代理 ...

免费Google 官方的中文提示词教程

博主头像 什么是提示工程?提示工程是一门设计和优化提示的艺术和科学,可指导 AI 模型(尤其是 LLM)生成所需回答。通过精心设计提示,您可以为模型提供上下文、说明和示例,帮助模型理解您的意图并做出有意义的回答。您可以将其视为 AI 提供一个路线图,引导它朝着您预想的特定输出的方向前进。如需深入了解提示设计领 ...

中国电动汽车充换电市场技术趋势、核心挑战与未来竞争格局

博主头像 中国电动汽车充换电市场技术趋势、核心挑战与未来竞争格局1. 市场概述:从基础设施建设到服务生态演进 在中国电动汽车市场以前所未有的速度迅猛发展的宏大背景下,充换电基础设施不仅是关键的配套支撑,更已上升为决定产业成败的核心战略环节。根据国家规划,到“十四五”末期,中国的充电基础设施体系需满足超过200 ...

基于LLM持续改进文章的方法

博主头像 核心转变:从"被动听摘要"变为"主动提问,让AI当编辑"原创文章起点:待打磨的初稿。NotebookLM自定义音频(评论模式)关键动作:上传文档后,选择自定义提示词,向AI主持人主动提问。示例:"点评第一段是否成功勾起读者兴趣?" 示例:"审阅文档结构,对一般受众来说主要观点明确吗?" 示例:"针对 ...

AI浏览器Comet用户体验测试

博主头像 移动Web应用 UI/UE 测试的 5 大核心痛点移动Web应用(H5/PWA)的 UI/UE 测试与传统的 PC 网页测试截然不同,也比原生 App 测试更具挑战性。以下是 移动Web应用 UI/UE 测试的 5 大核心痛点,这些通常是测试人员和设计师最头疼的地方:1. 极致的“碎片化”兼容性 ( ...

在测试领域,如何写一个更好的prompt来进行测试提效

前言 假设你作为测试团队负责人,要被安排让团队成员接入公司的大模型服务,进行测试工作提效,那么能想到的第一个方向就是让大模型辅助生成测试用例。 在一段时间内使用大模型对话来生成用例,可能大家一开始会有新鲜感多去尝试,但后面可能会渐渐地觉得对话本身也是降低效率的一种表现,并且大模型生成的用例能够被采纳 ...

DeepSeek-V3.2 Speciale介绍

博主头像 DeepSeek-V3.2 Speciale介绍1. 引言当前,大语言模型(LLM)领域正经历一个显著的分化阶段。一方面,以 OpenAI、DeepMind 等为代表的闭源专有模型性能持续加速迭代;另一方面,尽管开源社区不断进步,但两者间的性能差距却日益扩大。行业分析普遍将此归因于开源模型面临的三大 ...

2025年11月份博文汇总与视频

博主头像 2025年11月份博文汇总与视频一.LLM相关1.如何构建和训练世界级LLM 一份关于如何构建和训练世界级大型语言模型(LLMs)的详细指南,由Hugging Face团队撰写。它涵盖了从模型架构设计、数据准备、训练过程到后处理的全过程,提供了丰富的技术细节和实践经验2.美团多智能体WOWServi ...

Z-Image图像生成模型发布与竞品

博主头像 1. 引言 当前,高性能文本到图像(Text-to-Image, T2I)生成模型市场呈现出一种根本性的二元格局。一方面,是以Nano Banana Pro、Seedream 4.0为代表的专有(闭源)商业模型,它们性能强大,但其技术实现被封装于“黑盒”之内,限制了社区的研究与创新。另一方面,则是以 ...

Google生成式UI下一代人机交互技术

博主头像 Google生成式UI下一代人机交互技术1.0 摘要 在当前的技术浪潮中,大语言模型(LLM)已展现出在内容生成方面的卓越能力,深刻地改变了我们获取与处理信息的方式。然而,这些强大的模型在输出形态上普遍受限于静态、预定义的界面,最常见的便是由标题、列表和代码块组成的Markdown“文本墙”。这种呈 ...

原来用聊天记录就可以创造数字分身!WeClone项目在Lab4AI平台上的复现

博主头像 01 | WeClone如何创造数字分身 拥有一个数字分身可能是很多人的一个愿望。其实通过给大模型喂我们的聊天记录,就可打造出我们的数字分身,当前爆火的Weclone项目采取的就是这种做法。先导出自己的聊天记录,再把聊天记录作为数据用来微调大模型,让模型学习我们的语言风格和习惯,就能打造出专属的数字 ...

实战利用LLM辅助小程序逆向与HTTP报文漏洞挖掘

博主头像 摘要在Web安全与小程序逆向分析中,传统的自动化扫描器(如AWVS、Nessus)往往是“语法大师,逻辑白痴”——它们能轻易发现SQL注入,却难以理解复杂的业务上下文 。本文探讨了一种新的安全审计范式:利用大语言模型(LLM)作为虚拟安全专家,填补自动化工具的广度与人类专家的深度之间的鸿沟 。通过婚 ...

Qwen是“源神”?实际上GLM-4.6才是被低估的黑马

博主头像 在AI科技圈,Qwen因其开源模型数量位居世界第一、模型涵盖各种大小、开销低而表现不俗,被称为“源神(开源界的神)”。这也导致有些人在体验之后,觉得Qwen写的代码质量是国内第一,仅次于Claude、chatGPT、Gemini、grok这些国外大模型之后。但GLM却像是被遗忘了一样,网上对它知之甚 ...

优化需求评审流程论LLM与人工审查协同模式

博主头像 重新定义需求评审的未来 高质量的需求是软件项目成功的基石,然而,传统的需求评审流程往往耗时、繁琐且容易出错。需求文档中的模糊性、不一致性和遗漏是导致项目失败最常见的因素之一。大型语言模型(LLM)作为一种颠覆性技术,为解决这些长期存在的挑战提供了新的可能性。它强大的自然语言处理能力,能够以前所未有的 ...

揭开Claude Opus 4.5神秘面纱

博主头像 一位对 AI 充满好奇的学习者——揭开 Claude Opus 4.5 的神秘面纱,清晰展示它在软件工程、安全性和多语言处理等领域取得的革命性进步。1. 软件工程领域的“超强大脑”无人能及的工程能力一个令人震撼的事实是:在一项时长2小时、极其困难的内部工程带回测试中,Opus 4.5 的得分“超过了 ...

SWE-smith规模化生成软件工程训练数据

博主头像 1. 破解软件工程领域AI的数据瓶颈 近年来,大型语言模型(LM)Agent在自动化软件工程(Software Engineering, SE)任务方面取得了显著进展。然而,在能力飞速提升的背后,开源社区与掌握海量私有数据的专有模型之间正形成一道日益扩大的鸿沟。其核心症结在于:高质量、大规模训练数据 ...

123···29>