温馨提示:本站为乐享票务官方授权演出订票中心,请放心购买。
你现在的位置:首页 > 演出资讯  > 音乐会

“一人即乐队”成为现实,上海AI企业发布音乐大模型,生成作品时长达4分钟

发布时间:2025-09-12 20:23:58  浏览量:1

今天,上海通用人工智能企业MiniMax发布的一段视频引起众多网民关注,这段视频的画面均由“海螺”视频大模型生成,音乐均由Music 1.5大模型生成。黑人歌手的动情吟唱、萨克斯管的悠扬乐音、架子鼓的激情敲打……Music 1.5生成的音乐颇有感染力,且时长达到4分钟,较上一代音乐生成大模型有了长足进步。

MiniMax研发团队介绍,新一代音乐生成大模型实现了四个方面的突破。首先是歌曲控制力的提升。Music 1.5支持长达4分钟的音乐创作,出品即成品,不再仅是demo小样。在简单模式下,用户只需输入几个关键词或一句自然语言描述,它就能生成完成度很高的歌曲作品。在高级模式下,用户可通过“16种风格×11种情绪×10个场景”自定义音乐特征,对歌曲的前奏、主歌、副歌等不同段落进行歌词编排,丰富用户的创作体验。

例如,用户输入“温柔女声嘻哈唱首流行歌曲”这样的简单描述,一首大模型填词、作曲的女声作品《甜甜圈》很快问世。输入一首创作好的完整歌词,选中“爵士、浪漫、深夜酒吧”等关键词,一首动听的爵士乐《回眸》就创作完成了。

新一代音乐生成大模型的第二个突破是人声自然饱满。它能对人声唱腔和发音技巧进行深度建模,生成不同声线、唱腔的音色。与同类产品相比,Music 1.5生成的声音更具通透感和真实感,转音顺畅无断层,让歌曲的情感表现力更为丰富。这一技术突破,解决了过去人工智能生成音乐中人声机械化、缺乏情感表达的问题。

Music 1.5大模型的界面

第三个突破是乐器层次丰富的编曲能力。模型对乐器进行细粒度建模,使乐器层次清晰、演奏技巧富于变化。值得一提的是,Music 1.5还支持中国民族乐器的生成,这为传统文化与人工智能技术的结合提供了新的可能性。

第四个突破是歌曲结构的完整性。好的结构能让一首歌的情感表达层层递进,而过去音乐模型生成的作品,段落与段落之间的界限往往并不明显。Music 1.5真正实现了前奏、主歌、副歌之间的明显区别,副歌爆点明显,尾奏收束自然,能带来”叙事级”听觉体验。

研发团队介绍,这些突破源于公司在文本、语音、视觉等多模态领域的技术积累。今年6月,MiniMax发布的视频生成模型Hailuo 02获得广泛关注,它采用NCR(噪声感知计算重分配)架构,实现了1080p原生生成能力。这家企业研发的语音生成大模型Speech 2.5也刷新了语音大模型的性能上限。借助文本大模型的能力,Music 1.5对文本描述有很强的理解力和控制力,不仅可以对歌曲风格、情感色彩和适用场景进行整体控制,还能对人声特征进行细粒度控制,生成不同声线特质的人声音色。

随着Music 1.5的发布,“一人即乐队”已成为现实。在专业音乐创作领域,它可以通过人工智能辅助激发音乐人的创作灵感;在影视、游戏、短视频等内容产业,它可以快速定制背景音乐;在数字娱乐产业,它能为用户量身打造单曲和MV(音乐视频);在企业营销领域,它能为品牌生成专属音频内容。

新一代音乐生成大模型将大幅降低音乐创作的门槛,非专业人士可以“只是为此刻的心情写一首歌”,从而激发更多人的音乐创作热情。

这款大模型不仅面向个人用户,还为全球开发者提供API接口,让更多开发者通过API接入构建新的音乐应用、工具或创作工作流。

栏目主编:黄海华

作者:解放日报 俞陶然