“一人即乐队”成为现实，上海AI企业发布音乐大模型，生成作品时长达4分钟

发布时间：2025-09-12 20:23:58 浏览量：23

今天，上海通用人工智能企业MiniMax发布的一段视频引起众多网民关注，这段视频的画面均由“海螺”视频大模型生成，音乐均由Music 1.5大模型生成。黑人歌手的动情吟唱、萨克斯管的悠扬乐音、架子鼓的激情敲打……Music 1.5生成的音乐颇有感染力，且时长达到4分钟，较上一代音乐生成大模型有了长足进步。

MiniMax研发团队介绍，新一代音乐生成大模型实现了四个方面的突破。首先是歌曲控制力的提升。Music 1.5支持长达4分钟的音乐创作，出品即成品，不再仅是demo小样。在简单模式下，用户只需输入几个关键词或一句自然语言描述，它就能生成完成度很高的歌曲作品。在高级模式下，用户可通过“16种风格×11种情绪×10个场景”自定义音乐特征，对歌曲的前奏、主歌、副歌等不同段落进行歌词编排，丰富用户的创作体验。

例如，用户输入“温柔女声嘻哈唱首流行歌曲”这样的简单描述，一首大模型填词、作曲的女声作品《甜甜圈》很快问世。输入一首创作好的完整歌词，选中“爵士、浪漫、深夜酒吧”等关键词，一首动听的爵士乐《回眸》就创作完成了。

新一代音乐生成大模型的第二个突破是人声自然饱满。它能对人声唱腔和发音技巧进行深度建模，生成不同声线、唱腔的音色。与同类产品相比，Music 1.5生成的声音更具通透感和真实感，转音顺畅无断层，让歌曲的情感表现力更为丰富。这一技术突破，解决了过去人工智能生成音乐中人声机械化、缺乏情感表达的问题。

Music 1.5大模型的界面

第三个突破是乐器层次丰富的编曲能力。模型对乐器进行细粒度建模，使乐器层次清晰、演奏技巧富于变化。值得一提的是，Music 1.5还支持中国民族乐器的生成，这为传统文化与人工智能技术的结合提供了新的可能性。

第四个突破是歌曲结构的完整性。好的结构能让一首歌的情感表达层层递进，而过去音乐模型生成的作品，段落与段落之间的界限往往并不明显。Music 1.5真正实现了前奏、主歌、副歌之间的明显区别，副歌爆点明显，尾奏收束自然，能带来”叙事级”听觉体验。

研发团队介绍，这些突破源于公司在文本、语音、视觉等多模态领域的技术积累。今年6月，MiniMax发布的视频生成模型Hailuo 02获得广泛关注，它采用NCR（噪声感知计算重分配）架构，实现了1080p原生生成能力。这家企业研发的语音生成大模型Speech 2.5也刷新了语音大模型的性能上限。借助文本大模型的能力，Music 1.5对文本描述有很强的理解力和控制力，不仅可以对歌曲风格、情感色彩和适用场景进行整体控制，还能对人声特征进行细粒度控制，生成不同声线特质的人声音色。

随着Music 1.5的发布，“一人即乐队”已成为现实。在专业音乐创作领域，它可以通过人工智能辅助激发音乐人的创作灵感；在影视、游戏、短视频等内容产业，它可以快速定制背景音乐；在数字娱乐产业，它能为用户量身打造单曲和MV（音乐视频）；在企业营销领域，它能为品牌生成专属音频内容。

新一代音乐生成大模型将大幅降低音乐创作的门槛，非专业人士可以“只是为此刻的心情写一首歌”，从而激发更多人的音乐创作热情。

这款大模型不仅面向个人用户，还为全球开发者提供API接口，让更多开发者通过API接入构建新的音乐应用、工具或创作工作流。

栏目主编：黄海华

作者：解放日报俞陶然