Loading

背景:上周末刷到 VoviousACE Studio 2国区买断,差点被吓死,遂成篇。

生成式 AI 对学习的作用,已经不能用“愈发不可忽视”来形容。我发现我在做什么东西,就会有什么样的 AI 半路杀出来把我按在地上一顿爆草。就近两年,我的成长就是 AI 的成长:

  • 初三那会,国内 genAI 还是一片蓝海(空白),而 gpt 的文本处理已经相当成熟了,又因为 ftq 还是稀缺资源,所以我们机房的人几乎次次大作业都离不开大模型。
  • 竞赛这块:
    • 24 年秋,gpt 蠢如猪,简单算法架构不全,拿它做题是天方夜谈。
    • 25 年 WC,有人指出 gpt 的水准达到 CF *2300。偶尔将技术难点扔给它,它能解决。我们互相嘲讽“打不过人机”。
    • 下赛季,25 年暑以后,gpt 开始能做模拟赛 T3。数据正确性经常拿它验证。
    • 到我退役之前(以及现在),机房的人每天要花 \(30\%\) 左右时间和 gpt 对话。\(5.2\) model 几乎能 \(100\%\) 解决困难题目以及知识盲区。
  • 25 年 3 月刚回班就撞见人手一个 DS,以及一顿围绕人之存在的、激烈的思想斗争。它几乎重构了我们的演讲筹备以及作文学习等等。
  • 我第一次写项目就是跟着 Trae(它的弊端在 25 年 6 月才逐渐显现),充分体会到了什么叫人机协作。

我理解的人机协作的理想状态(Ⅰ. 代码生成,Ⅱ. 写歌):

体现
机器整体架构 刷的一下出几百行,基本框架都给定义好 搭好整体结构和思路
机器传达逻辑 告诉你每一行代码在干啥 提示词生成。有时候 AI 比你更懂你在做什么。
机器提供灵感 创作就是多个偶然的集合体。
人类表达需求 要求的前端功能传达给机器 风格、和声、律动、织体,Via prompt design 或 Music Enhancement
人类参与微调 提升可读性、删除冗余等等 机器要用 midi 逻辑、乐谱逻辑去思考,机器做什么人就可以调什么
人类整体优化 反复迭代提升运行效率 做减法,确定重心层级,调用审美,自己编辑或者要求机器去自我审视
  • All in one:好比你跟一个学长在面对面交流。

在音乐领域,当前 AI 的逻辑:

很明显功能与设想之间存在显著差距,但这并不意味着我们可以坐视不管。

  • Trend \(\alpha\):以 ACE 相比 Suno 为例(Ⅰ),我宣称它和 DS(Ⅱ)的大方向是一致的。

    Trend
    国产 北京人 杭州出牛子
    开源程度 早于 Suno 的上一轮 DS在国内火爆的一大原因就是它的可部署性。
    使用简化 更加便捷的账号管理、友好的 UI;还有买断

    言下之意 AI-Integrated DAW 马上会变得如 DS / 豆包一般触手可及。我认为音乐的【线性性】,注定了它相比图像、视频更加为大众可编辑(即更加倾向于类比为文字),随之而来的淘汰率相比其它行业也会更高。

  • Trend \(\beta\):AI 无缝塞进创作者的工作流,并不是什么遥不可及的事情。看下面的实操。

  • 图像和视频领域的创作者都做了一轮重新审视,没有理由认为音乐可以不做。

那么不变量是?

  • 行业准入门槛。有人宣称技术壁垒会转化为版权壁垒,有待观望。此外还有老生常谈的 AI 工具论、只会提升大众和专业者的差距云云,讲得很清楚了,也是我一贯的想法。

我们要做什么?

  • 不要忘记最终的目标是人机协作。
  • 技能树要稍微往【审美】方向去靠一靠。我猜的。
  • 死死盯着新技术的涌现。去年国庆以来每个月的月初都有一个新的平台 / 工具蹦出来把大环境炸一炸。
  • 学点英语😂学点好的表达😂

来听这个好康的,我的天哪十七帧雨大人。没时间调,剩下就是该删的删了。

稍微写点 Ace2 的 log:参考省流

人声本身就是公认的顶流,会调的上限非常高。

Stem Split 肯定是相当干净的,比 Suno 慢但是更准,相较于去年 9 月份以前的模型更是降维打击。

Music Enhancement 相当抽奖,对整个编曲的增强和单单对人声的增强差不了多少,只能把握住最基本的和声色彩、结构与情绪变化,律动是完全打散的,风格则 \(100\%\) 基于文字 prompt(也可能是我做的四不像的东西 AI 读不懂)。

Add Layer 是真可以,单线条可以把 midi 导出来编辑一手再喂回他们家的 AI Instrument 直接出可用的音频,小打基本不会有律动冲突可以直接采样,甚至和声识别不到位也能给你一个意外的惊喜让你丰富你的和弦。比较难搞的是吉他与弦乐组,这个难以集成,还是得自己写,或者多抽几遍。我觉得这更符合 Give Me Inspiration 的定义啊。

声线转换就有点幽默了,它是直接把人声的 sound feature 改成对应乐器的音色,什么东西都带着点卡祖笛味儿,还有概率出 bug 把整个软件的 dsp 给卡爆。感觉不如导 midi 然后 AI Instrument。

整体上还是依靠音频的来回转换去做东西(AI 自己内部也是以音频为载体去思考),期待未来可以导入外部音源,实现更多 daw 的基础功能。


解放人抄袭人的无用功,让人都去真正地“创作”

posted @ 2026-01-18 15:10  Albertvαn  阅读(8)  评论(0)    收藏  举报