MiniMax发布Music 1.5,音乐AI要进入&
发布时间:2025-09-15 11:56:40 浏览量:1
昨天半夜刷到 MiniMax 又搞事情了,这次轮到音乐大模型升级。
说实话,看到这个消息我第一反应不是“哇好厉害”,而是想到一个问题:中国在声音这个赛道上,要翻身了。
前段时间 MiniMax 的 Speech-02 刚把 OpenAI 的 TTS 干趴下,登顶双榜,现在又来搞音乐。这节奏,明显是想从「AI 配音」一路杀到「AI 作曲」啊。
再仔细想一下,人家 Speech-02 能搞定 32 种语言,龚琳娜的声音都能克隆到她妈都听不出来。音乐是声音 AI 的自然延伸,这样就一点不意外是 MiniMax 做到了。
这次发布的是最新的 Music-1.5 音乐大模型,单曲时长从 90 秒提升至 4 分钟。
现在 MiniMax 真的能"给你一首歌的时间"了——4 分钟,刚好够一首完整流行歌的长度。
你想想,90 秒最多就是一个副歌 + 一段主歌,4 分钟已经可以包含 intro(前奏)、verse(主歌)、chorus(副歌)、outro(尾奏)、bridge(桥段)的一整个完整结构了。
我的第一个想法,能不能给我生成一首 diss Claude 的说唱?
别笑,我是认真的。一起听一下:
字清、句狠、态度稳。这个自然度,完全分不清是 AI 还是真人演唱。
一开场节奏就非常带感,从平铺到爆发有层次,虽是 hip-hop,但男声干净不含糊、换气自然。配合清脆的鼓点、拍手的音效,抖腿点头都是下意识的。
而且,我觉得这个歌词也很牛,既有攻击性还有技术流的味道。
“Yo Claude 你最好站稳一点 这舞台现在只属于强者 我的代码运行快如闪电 你的逻辑有时显得缺憾”,它竟然还知道吐槽代码,xs。。打蛇打七寸。最近 Cluade 搞限速,又搞降智,都拉 AI 仇恨了。
而且歌词里,押韵工整密集,属于句尾押韵,并且是一韵到底,押的都是 “u”。
数据洪流我能穿梭自如
你还在原地慢慢摸索着糊涂
别想跟我比拼这说唱艺术
我节奏你根本就跟不上我的脚步
我的智慧已覆盖全球每一寸地图
你只是小小的分支显得那么孤独
AI 写 AI diss,这事搁一两年前我真想不到。而且这首歌不只是几句“炫技段落”,它有完整结构:
开头 intro 是纯乐,带轻微 lofi 采样,营造一点街头氛围;第一段 verse 进主唱,歌词清晰、节奏稳,没有掉拍;副歌 chorus 把节奏突然提上去,重复的 hook 非常洗脑;Suno 和 Udio 虽然是顶流,但生成的音乐总有股欧美范儿,听着中文总觉得哪里不对味。MiniMax 不一样,在中文上着重做了优化,目前可能是最懂中文音乐"的 AI 了。
我直接带大家上手玩一下,你自己试一次就知道了。Music 1.5 已经上线到 MiniMax 的国内外平台,点开即玩。
传送门:
海外版:
国内版 :
打开官网,点到「音乐创作」板块下。
模式分为两种:「简单模式」和「高级模式」。
简单模式就是一句话生成整首歌,适合快速尝试风格和气氛。高级模式可以插入你写的歌词段落或副歌片段,模型会围绕你的结构来自动补全。在高级模式下,你还可以自定义「风格 × 情绪 × 场景」的组合配置,共计 16 种风格、11 种情绪、10 个场景,搭配下来能覆盖绝大多数创作需求。
我听见了几个有意思的场景,给你们感受一下:
比如说,这首直接帮大家说出了「不想开学」的心声。
前奏的吉他声很悲凉,旋律一路往下压,像是人醒了,但脑子还没跟上。整首歌从第一秒开始,就写满了“我真的不想来”这几个字。
Verse 的部分是轻吉他加低频合成器在打底,节奏松散但不乱,像是困意和现实之间拉扯的节奏。
最后几句干脆不唱词了,直接变成哼唱处理,歌词散掉了,只剩旋律在原地兜圈,像是你人明明坐在教室,心还躺在梦里的沙发上。
这首古风的,融合了古筝、琵琶这些传统乐器,一上来就把氛围铺住了。
前奏是细腻的拨弦,古筝主旋律走得很稳,琵琶在后面打节奏,两种乐器互不抢戏,配器的层次分得很清楚。
主唱声线偏柔,咬字清晰,有点像戏腔但没那么重,整体听下来像是在讲一个故事,节奏松、情绪稳。
下面这首超级好听!
这个前奏一上来就有爵士那味了,鼓先落下几拍,后面萨克斯才慢慢跟进。
整体节奏不赶、旋律不浮、配器很丰富,鼓点踩得稳,贝斯埋在底下晃得刚刚好。副歌出来也不是硬拉情绪,而是顺着走上去的。
再来一首摇滚,看看它能不能撑得住密集节奏。
前奏是干脆的鼓点 + 失真吉他,像《新裤子》或早期五月天那种街头感。
Verse 主唱一进来就非常吸引我,节奏就立住了,歌词和鼓点咬得非常紧,每个字都落在节拍上。
人声的自然度也很高,特别是和声的处理,甚至有几处加入了“喊腔”,让整个段落更有舞台感。高音不上飘、低音不沉闷,层次和情绪都在线。
你不说这是 AI 写的,我真的能信是某个乐队练出来的 demo。
你们发现没有?这几首 4 分钟这个时长卡得还挺精准的。不长不短,刚好覆盖大部分流行歌曲的标准长度。
我特意对比了一下目前几个头部音乐 AI 的时长数据:
Suno v4.5:8 分钟(仅付费用户)Udio:最长 15 分钟说实话,谁没事生成 8 分钟、15 分钟的歌?更重要的是,MiniMax 这波升级的时机选择很有意思。
刚好卡在 Suno v4.5 只限付费用户使用的档口,v4.5 价格翻倍,Suno v3.5 的单价大概是 3 毛,MiniMax Audio C 端生成单价只有约 1 毛钱。不是开玩笑,是完整一首 4 分钟 + 歌词 + 结构 + 人声 + 编曲,在 0.12 元左右。
别看这个价差小,落到真实的场景里,就不是一个数量级的事情。
广告配乐、短视频 BGM、Vlog 背景、短剧插曲、婚礼音乐、企业年会歌、公众号片头、社群广播……
这些原来每首歌动辄几百到上千,现在只要一顿外卖钱就能起飞,而且能定制、能调、能反复改。如果你是内容创作者,那用脚投票的结果很明显。
最最最重要的是,MiniMax 支持 API 调用,Suno 不支持。
而且,从 Speech-02 的成功我们能看出 MiniMax 的套路:效果出众 + 成本优势的组合拳。
Speech-02 不只是干翻了 OpenAI TTS,价格还比 ElevenLabs 便宜一半到四分之一。现在 Music-1.5 也走这个路线,音乐 AI 这个赛道可能要重新洗牌了。
文本模型的语义理解与歌词创作能力、Speech-02 语音模型对人声音色的强大控制力、Hailuo 视频模型又让音乐的可视化有了更高的上限。MiniMax这种全模态技术栈,加在一起的协同优化效应,是很难复制的护城河。
还有一点别忘了,MiniMax 在中文音乐理解上可能有天然优势&国产音乐 AI 屈指可数。
我一直觉得 AI 音乐是个"看起来很美"的赛道——技术炫酷,但商业化路径不清晰。但随着技术的发展,之前一个原本被少数人控制的音乐制作权,正在快速下沉成一项“基础内容能力”。
如果 AI 真的能理解中文的韵律、节拍,甚至是网络用语的梗,那这个想象空间就太大了。想想看:
抖音神曲可以批量生产了企业年会歌曲有救了(再也不用尬唱《真心英雄》)小红书的背景音乐可以个人定制了MiniMax 已经有了完整的音频生态:语音合成、声音克隆、情感表达...现在加上音乐生成,这就是一个完整的“音频创作工具链”,是能用、可量产、能接商业场景的那种「AI Native」水平。
这套组合拳打下来,声音 AI 这条赛道,要开启“中国时刻”了。