HeartMuLa 是一个开源的“音乐大模型工具库”,它能把歌词和标签转化为完整的音乐作品,还能做歌词转录、音乐编码和跨模态检索。它的特点是多语言支持(中、英、日、韩、西班牙语等)、高保真音频生成,以及和文字描述的紧密结合。应用领域包括音乐创作、歌词转录、音乐检索、AI伴奏和多媒体内容生产。
简单的说,你给它几句歌词 + 一点风格描述(比如“伤感钢琴情歌”“激昂摇滚”“古风仙侠”),它就能自动给你生成一首还挺像样的歌,包括人声+伴奏,无需专业的音乐知识,无需复杂的参数设置。
今天分享的HeartMuLa一键包基于最新开源的 HeartMuLa 3B模型打包,测试下来,效果非常好,超越之前发布的几款开源模型,效果甚至可以跟2025年前后的一些商业AI音乐工具比一比了,尤其在中文歌词的表现上特别友好。缺点是目前生成速度略慢,且资源占用高。我在官方原版的基础上稍作优化,提升了生成速度,降低了资源占用。官方也把提升生成速度加入了后期优化的计划中,期待官方的优化版。
下载地址:点此下载
核心特点
音乐生成模型 HeartMuLa:输入歌词和标签(如“浪漫、钢琴、婚礼”),即可生成对应风格的音乐,支持多语言。
高保真音乐编码 HeartCodec:一种 12.5Hz 的音乐编码器,能高质量重建音频,保证生成音乐的清晰度。
歌词转录 HeartTranscriptor:基于 Whisper 调优的模型,专门用于把歌曲里的歌词转成文字。
跨模态检索 HeartCLAP:把音乐和文字描述映射到同一个空间,方便用文字搜索音乐或用音乐找描述。
多语言支持:不仅支持英文,还能处理中文、日文、韩文、西班牙语等歌词。
开源与可本地部署:基于 Apache 2.0 协议,用户可以下载模型权重,在本地运行生成音乐。
应用领域
音乐创作:帮助音乐人快速生成伴奏或完整曲目,适合灵感捕捉和草稿创作。
歌词转录:自动识别歌曲中的歌词,方便字幕制作或音乐分析。
音乐检索:通过文字描述找到对应的音乐片段,适合音乐库管理或推荐系统。
多媒体制作:为视频、游戏、广告生成定制化的背景音乐。
教育与研究:作为 AI 音乐生成的研究平台,探索跨模态学习和音乐语言建模。
使用教程:(建议N卡,显存12G起,支持50系显卡)
下载主程序压缩包和模型文件(ckpt文件夹),解压主程序,并把模型文件移动到主程序目录下
输入歌词,可以参考默认的标签,比如 副歌、桥段等,设置参数,比如最大音频长度(毫秒)等
最后点生成歌曲。
模型切换这里官方暂时开放了3B模型,后期开放7B下载后,即可自由切换。
软件目录结构
📂 HeartMuLa/
├── 📂 ckpt/
│ ├── 📂 HeartMuLa-oss-3B/
│ │ └── model-00001-of-00004.safetensors
│ │ └── model-00002-of-00004.safetensors
│ ├── 📂 HeartCodec-oss/
│ │ └── model.safetensors
📂 deepface/
......