每日与世界30亿次交互！这家AI独角兽企业发布视频、音乐生成模型

发布时间：2024-09-03 17:08:17 浏览量：116

输入一段简单的提示词，等待1—2分钟，可生成6秒的视频；没有伴奏，音乐模型也可以是实力歌手。8月31日，AI独角兽企业上海稀宇科技有限公司（以下简称MiniMax）“Link 伙伴日”在西岸漩心拉开帷幕。当日，MiniMax正式发布视频模型video-01以及音乐模型music-01。

据了解，相比市面上的视频模型，MiniMax视频模型具有压缩率高、文本响应好和风格多样等优点，可生成原生高分辨率、高帧率视频，模型能力首屈一指。

从今年2月OpenAI发布视频大模型Sora后，视频模型内卷明显，有多家AI企业先后发布大模型视频，包括智谱AI推出的视频生成模型“清影”、爱诗科技的PixVerse V2、生数科技的Vidu、快手的“可灵AI”、阿里达摩院的寻光等。

至于MiniMax为何要加入这场“内卷”，MiniMax创始人闫俊杰表示：“从生活中不难发现，文字交互只是很小的一部分，更多的是语音和视频交互。多模态的内容，比如声音、图文和视频，已经成为信息传递的主流。为了能够提高渗透率，多模态是必经之路。”

闫俊杰透露，目前video-01只提供了文生视频，在未来产品会迭代图生视频、可编辑、可控性等功能。

MiniMax第一款音乐模型music-01的推出也同样精彩，可以合成纯音乐为制作人快速构建歌曲的基本结构，由歌手自由演绎主唱或和声部分。没有伴奏，音乐模型也可以是实力歌手，清唱作品同样不在话下。值得一提的是，MiniMax语音模型已实现对粤语、日语、韩语、西班牙语等多语种支持的升级。

目前，MiniMax音乐生成模型与视频生成模型已经在开放平台和海螺AI网页版上线。新⼀版能从速度和效果都对标GPT-4o的大模型abab7，会在未来⼏周内发布。

作为中国首个研发MoE大语言模型并成功上线的AI企业，MiniMax持续在模型算法上做创新，并最新推出基于MOE+ Linear Attention的新一代模型技术。通过此新型线性模型架构，MiniMax大模型能在单位时间内更加高效地训练海量数据，极大地提升了模型的实用性和响应速度。在与GPT-4o同一代模型能力对比上，新一代模型处理10万token时效率可提升2~3倍，并且随着长度越长，提升越明显。

据统计，MiniMax每日与全球用户进行超30亿次交互，处理超3万亿文本token、2000万张图片和7万小时语音，大模型日处理交互量排名国内AI公司首位。

活动现场，MiniMax携开放平台合作企业、产品用户、开发者等代表共同宣布打造“MiniMax Link创新生态圈”，推动AI产业协同创新，让AI与日常生活“连接”的愿景图变成实景图。

记者：王永娟

编辑：宁平英

校对：宋佳音（实习生）