集

背景：上周末刷到 Vovious、ACE Studio 2 的国区买断，差点被吓死，遂成篇。

生成式 AI 对学习的作用，已经不能用“愈发不可忽视”来形容。我发现我在做什么东西，就会有什么样的 AI 半路杀出来把我按在地上一顿爆草。就近两年，我的成长就是 AI 的成长：

初三那会，国内 genAI 还是一片蓝海（空白），而 gpt 的文本处理已经相当成熟了，又因为 ftq 还是稀缺资源，所以我们机房的人几乎次次大作业都离不开大模型。
竞赛这块：
- 24 年秋，gpt 蠢如猪，简单算法架构不全，拿它做题是天方夜谈。
- 25 年 WC，有人指出 gpt 的水准达到 CF *2300。偶尔将技术难点扔给它，它能解决。我们互相嘲讽“打不过人机”。
- 下赛季，25 年暑以后，gpt 开始能做模拟赛 T3。数据正确性经常拿它验证。
- 到我退役之前（以及现在），机房的人每天要花 \(30\%\) 左右时间和 gpt 对话。\(5.2\) model 几乎能 \(100\%\) 解决困难题目以及知识盲区。
25 年 3 月刚回班就撞见人手一个 DS，以及一顿围绕人之存在的、激烈的思想斗争。它几乎重构了我们的演讲筹备以及作文学习等等。
我第一次写项目就是跟着 Trae（它的弊端在 25 年 6 月才逐渐显现），充分体会到了什么叫人机协作。

我理解的人机协作的理想状态（Ⅰ. 代码生成，Ⅱ. 写歌）：

体现	Ⅰ	Ⅱ
机器整体架构	刷的一下出几百行，基本框架都给定义好	搭好整体结构和思路
机器传达逻辑	告诉你每一行代码在干啥	提示词生成。有时候 AI 比你更懂你在做什么。
机器提供灵感		创作就是多个偶然的集合体。
人类表达需求	要求的前端功能传达给机器	风格、和声、律动、织体，Via prompt design 或 Music Enhancement
人类参与微调	提升可读性、删除冗余等等	机器要用 midi 逻辑、乐谱逻辑去思考，机器做什么人就可以调什么
人类整体优化	反复迭代提升运行效率	做减法，确定重心层级，调用审美，自己编辑或者要求机器去自我审视

All in one：好比你跟一个学长在面对面交流。

在音乐领域，当前 AI 的逻辑：

很明显功能与设想之间存在显著差距，但这并不意味着我们可以坐视不管。

Trend \(\alpha\)：以 ACE 相比 Suno 为例（Ⅰ），我宣称它和 DS（Ⅱ）的大方向是一致的。

Trend	Ⅰ	Ⅱ
国产	北京人	杭州出牛子
开源程度	早于 Suno 的上一轮	DS在国内火爆的一大原因就是它的可部署性。
使用简化	更加便捷的账号管理、友好的 UI；还有买断	同

言下之意 AI-Integrated DAW 马上会变得如 DS / 豆包一般触手可及。我认为音乐的【线性性】，注定了它相比图像、视频更加为大众可编辑（即更加倾向于类比为文字），随之而来的淘汰率相比其它行业也会更高。

Trend \(\beta\)：AI 无缝塞进创作者的工作流，并不是什么遥不可及的事情。看下面的实操。
图像和视频领域的创作者都做了一轮重新审视，没有理由认为音乐可以不做。

那么不变量是？

行业准入门槛。有人宣称技术壁垒会转化为版权壁垒，有待观望。此外还有老生常谈的 AI 工具论、只会提升大众和专业者的差距云云，讲得很清楚了，也是我一贯的想法。

我们要做什么？

不要忘记最终的目标是人机协作。
技能树要稍微往【审美】方向去靠一靠。我猜的。
死死盯着新技术的涌现。去年国庆以来每个月的月初都有一个新的平台 / 工具蹦出来把大环境炸一炸。
学点英语😂学点好的表达😂

来听这个好康的，我的天哪十七帧雨大人。没时间调，剩下就是该删的删了。

稍微写点 Ace2 的 log：参考，省流

人声本身就是公认的顶流，会调的上限非常高。

Stem Split 肯定是相当干净的，比 Suno 慢但是更准，相较于去年 9 月份以前的模型更是降维打击。

Music Enhancement 相当抽奖，对整个编曲的增强和单单对人声的增强差不了多少，只能把握住最基本的和声色彩、结构与情绪变化，律动是完全打散的，风格则 \(100\%\) 基于文字 prompt（也可能是我做的四不像的东西 AI 读不懂）。

Add Layer 是真可以，单线条可以把 midi 导出来编辑一手再喂回他们家的 AI Instrument 直接出可用的音频，小打基本不会有律动冲突可以直接采样，甚至和声识别不到位也能给你一个意外的惊喜让你丰富你的和弦。比较难搞的是吉他与弦乐组，这个难以集成，还是得自己写，或者多抽几遍。我觉得这更符合 Give Me Inspiration 的定义啊。

声线转换就有点幽默了，它是直接把人声的 sound feature 改成对应乐器的音色，什么东西都带着点卡祖笛味儿，还有概率出 bug 把整个软件的 dsp 给卡爆。感觉不如导 midi 然后 AI Instrument。

整体上还是依靠音频的来回转换去做东西（AI 自己内部也是以音频为载体去思考），期待未来可以导入外部音源，实现更多 daw 的基础功能。

解放人抄袭人的无用功，让人都去真正地“创作”

posted @ 2026-01-18 15:10 Albertvαn 阅读(8) 评论(0) 收藏举报

刷新页面返回顶部

Loading

Albertvαn

集

公告