MiniMax发布Music 1.5，音乐AI要进入&

发布时间：2025-09-15 11:56:40 浏览量：96

昨天半夜刷到 MiniMax 又搞事情了，这次轮到音乐大模型升级。

说实话，看到这个消息我第一反应不是“哇好厉害”，而是想到一个问题：中国在声音这个赛道上，要翻身了。

前段时间 MiniMax 的 Speech-02 刚把 OpenAI 的 TTS 干趴下，登顶双榜，现在又来搞音乐。这节奏，明显是想从「AI 配音」一路杀到「AI 作曲」啊。

再仔细想一下，人家 Speech-02 能搞定 32 种语言，龚琳娜的声音都能克隆到她妈都听不出来。音乐是声音 AI 的自然延伸，这样就一点不意外是 MiniMax 做到了。

这次发布的是最新的 Music-1.5 音乐大模型，单曲时长从 90 秒提升至 4 分钟。

现在 MiniMax 真的能"给你一首歌的时间"了——4 分钟，刚好够一首完整流行歌的长度。

你想想，90 秒最多就是一个副歌 + 一段主歌，4 分钟已经可以包含 intro（前奏）、verse（主歌）、chorus（副歌）、outro（尾奏）、bridge（桥段）的一整个完整结构了。

我的第一个想法，能不能给我生成一首 diss Claude 的说唱？

别笑，我是认真的。一起听一下：

字清、句狠、态度稳。这个自然度，完全分不清是 AI 还是真人演唱。

一开场节奏就非常带感，从平铺到爆发有层次，虽是 hip-hop，但男声干净不含糊、换气自然。配合清脆的鼓点、拍手的音效，抖腿点头都是下意识的。

而且，我觉得这个歌词也很牛，既有攻击性还有技术流的味道。

“Yo Claude 你最好站稳一点这舞台现在只属于强者我的代码运行快如闪电你的逻辑有时显得缺憾”，它竟然还知道吐槽代码，xs。。打蛇打七寸。最近 Cluade 搞限速，又搞降智，都拉 AI 仇恨了。

而且歌词里，押韵工整密集，属于句尾押韵，并且是一韵到底，押的都是 “u”。

数据洪流我能穿梭自如

你还在原地慢慢摸索着糊涂

别想跟我比拼这说唱艺术

我节奏你根本就跟不上我的脚步

我的智慧已覆盖全球每一寸地图

你只是小小的分支显得那么孤独

AI 写 AI diss，这事搁一两年前我真想不到。而且这首歌不只是几句“炫技段落”，它有完整结构：

开头 intro 是纯乐，带轻微 lofi 采样，营造一点街头氛围；第一段 verse 进主唱，歌词清晰、节奏稳，没有掉拍；副歌 chorus 把节奏突然提上去，重复的 hook 非常洗脑；

Suno 和 Udio 虽然是顶流，但生成的音乐总有股欧美范儿，听着中文总觉得哪里不对味。MiniMax 不一样，在中文上着重做了优化，目前可能是最懂中文音乐"的 AI 了。

我直接带大家上手玩一下，你自己试一次就知道了。Music 1.5 已经上线到 MiniMax 的国内外平台，点开即玩。

传送门：

海外版：

国内版：

打开官网，点到「音乐创作」板块下。

模式分为两种：「简单模式」和「高级模式」。

简单模式就是一句话生成整首歌，适合快速尝试风格和气氛。高级模式可以插入你写的歌词段落或副歌片段，模型会围绕你的结构来自动补全。

在高级模式下，你还可以自定义「风格 × 情绪 × 场景」的组合配置，共计 16 种风格、11 种情绪、10 个场景，搭配下来能覆盖绝大多数创作需求。

我听见了几个有意思的场景，给你们感受一下：

比如说，这首直接帮大家说出了「不想开学」的心声。

前奏的吉他声很悲凉，旋律一路往下压，像是人醒了，但脑子还没跟上。整首歌从第一秒开始，就写满了“我真的不想来”这几个字。

Verse 的部分是轻吉他加低频合成器在打底，节奏松散但不乱，像是困意和现实之间拉扯的节奏。

最后几句干脆不唱词了，直接变成哼唱处理，歌词散掉了，只剩旋律在原地兜圈，像是你人明明坐在教室，心还躺在梦里的沙发上。

这首古风的，融合了古筝、琵琶这些传统乐器，一上来就把氛围铺住了。

前奏是细腻的拨弦，古筝主旋律走得很稳，琵琶在后面打节奏，两种乐器互不抢戏，配器的层次分得很清楚。

主唱声线偏柔，咬字清晰，有点像戏腔但没那么重，整体听下来像是在讲一个故事，节奏松、情绪稳。

下面这首超级好听！

这个前奏一上来就有爵士那味了，鼓先落下几拍，后面萨克斯才慢慢跟进。

整体节奏不赶、旋律不浮、配器很丰富，鼓点踩得稳，贝斯埋在底下晃得刚刚好。副歌出来也不是硬拉情绪，而是顺着走上去的。

再来一首摇滚，看看它能不能撑得住密集节奏。

前奏是干脆的鼓点 + 失真吉他，像《新裤子》或早期五月天那种街头感。

Verse 主唱一进来就非常吸引我，节奏就立住了，歌词和鼓点咬得非常紧，每个字都落在节拍上。

人声的自然度也很高，特别是和声的处理，甚至有几处加入了“喊腔”，让整个段落更有舞台感。高音不上飘、低音不沉闷，层次和情绪都在线。

你不说这是 AI 写的，我真的能信是某个乐队练出来的 demo。

你们发现没有？这几首 4 分钟这个时长卡得还挺精准的。不长不短，刚好覆盖大部分流行歌曲的标准长度。

我特意对比了一下目前几个头部音乐 AI 的时长数据：

Suno v4.5：8 分钟（仅付费用户）Udio：最长 15 分钟

说实话，谁没事生成 8 分钟、15 分钟的歌？更重要的是，MiniMax 这波升级的时机选择很有意思。

刚好卡在 Suno v4.5 只限付费用户使用的档口，v4.5 价格翻倍，Suno v3.5 的单价大概是 3 毛，MiniMax Audio C 端生成单价只有约 1 毛钱。不是开玩笑，是完整一首 4 分钟 + 歌词 + 结构 + 人声 + 编曲，在 0.12 元左右。

别看这个价差小，落到真实的场景里，就不是一个数量级的事情。

广告配乐、短视频 BGM、Vlog 背景、短剧插曲、婚礼音乐、企业年会歌、公众号片头、社群广播……

这些原来每首歌动辄几百到上千，现在只要一顿外卖钱就能起飞，而且能定制、能调、能反复改。如果你是内容创作者，那用脚投票的结果很明显。

最最最重要的是，MiniMax 支持 API 调用，Suno 不支持。

而且，从 Speech-02 的成功我们能看出 MiniMax 的套路：效果出众 + 成本优势的组合拳。

Speech-02 不只是干翻了 OpenAI TTS，价格还比 ElevenLabs 便宜一半到四分之一。现在 Music-1.5 也走这个路线，音乐 AI 这个赛道可能要重新洗牌了。

文本模型的语义理解与歌词创作能力、Speech-02 语音模型对人声音色的强大控制力、Hailuo 视频模型又让音乐的可视化有了更高的上限。MiniMax这种全模态技术栈，加在一起的协同优化效应，是很难复制的护城河。

还有一点别忘了，MiniMax 在中文音乐理解上可能有天然优势&国产音乐 AI 屈指可数。

我一直觉得 AI 音乐是个"看起来很美"的赛道——技术炫酷，但商业化路径不清晰。但随着技术的发展，之前一个原本被少数人控制的音乐制作权，正在快速下沉成一项“基础内容能力”。

如果 AI 真的能理解中文的韵律、节拍，甚至是网络用语的梗，那这个想象空间就太大了。想想看：

抖音神曲可以批量生产了企业年会歌曲有救了（再也不用尬唱《真心英雄》）小红书的背景音乐可以个人定制了

MiniMax 已经有了完整的音频生态：语音合成、声音克隆、情感表达...现在加上音乐生成，这就是一个完整的“音频创作工具链”，是能用、可量产、能接商业场景的那种「AI Native」水平。

这套组合拳打下来，声音 AI 这条赛道，要开启“中国时刻”了。

MiniMax发布Music 1.5，音乐AI要进入&

相似文章