谷歌全新AI神器问世,一耳听音，钢琴小提琴乐谱即刻呈现

匿名

作者

谷歌最近推出了一款全能扒谱AI，这款AI非常强大，只需要听一遍歌曲，就可以生成钢琴和小提琴的乐谱。这个AI使用了先进的机器学习技术，能够识别歌曲中的旋律、和弦和节奏等音乐元素，并将其转换为乐谱。
这款AI的推出对于音乐爱好者和专业人士来说都是一个巨大的福音。以前，想要获得一首歌曲的乐谱需要花费大量的时间和精力，而这款AI可以快速地生成乐谱，让用户可以更快地学习和演奏歌曲。
此外，这款AI还可以根据用户的需求生成不同难度和风格的乐谱。例如，用户可以选择生成简单的流行歌曲乐谱，也可以选择生成复杂的古典音乐乐谱。这使得这款AI可以满足不同用户的需求。
总的来说，谷歌推出的这款全能扒谱AI是一项非常实用的技术，它可以让人们更轻松地获取和学习音乐。

相关内容：

晓查发自凹非寺
量子位报道 | 公众号 QbitAI

听一遍曲子，就能知道乐谱，还能马上演奏，而且还掌握“十八般乐器”，钢琴、小提琴、吉他等都不在话下。

这就不是人类音乐大师，而是谷歌推出的“多任务多音轨”音乐转音符模型MT3。

首先需要解释一下什么是多任务多音轨。

通常一首曲子是有多种乐器合奏而来，每个乐曲就是一个音轨，而多任务就是同时将不同音轨的乐谱同时还原出来。

谷歌已将该论文投给ICLR 2022。

还原多音轨乐谱

相比于自动语音识别 (ASR) ，自动音乐转录 (AMT) 的难度要大得多，因为后者既要同时转录多个乐器，还要保留精细的音高和时间信息。

多音轨的自动音乐转录数据集更是“低资源”的。现有的开源音乐转录数据集一般只包含一到几百小时的音频，相比语音数据集动辄几千上万小时的市场，算是很少了。

先前的音乐转录主要集中在特定于任务的架构上，针对每个任务的各种乐器量身定制。

因此，作者受到低资源NLP任务迁移学习的启发，证明了通用Transformer模型可以执行多任务 AMT，并显著提高了低资源乐器的性能。

作者使用单一的通用Transformer架构T5，而且是T5“小”模型，其中包含大约6000万个参数。

该模型在编码器和解码器中使用了一系列标准的Transformer自注意力“块”。为了产生输出标记序列，该模型使用贪婪自回归解码：输入一个输入序列，将预测出下一个出现概率最高的输出标记附加到该序列中，并重复该过程直到结束。

MT3使用梅尔频谱图作为输入。对于输出，作者构建了一个受MIDI规范启发的token词汇，称为“类MIDI”。

生成的乐谱通过开源软件FluidSynth渲染成音频。

此外，还要解决不同乐曲数据集不平衡和架构不同问题。

作者定义的通用输出token还允许模型同时在多个数据集的混合上进行训练，类似于用多语言翻译模型同时训练几种语言。

这种方法不仅简化了模型设计和训练，而且增加了模型可用训练数据的数量和多样性。

实际效果

在所有指标和所有数据集上，MT3始终优于基线。

训练期间的数据集混合，相比单个数据集训练有很大的性能提升，特别是对于 GuitarSet、MusicNet 和 URMP 等“低资源”数据集。

最近，谷歌团队也放出了MT3的源代码，并在Hugging Face上放出了试玩Demo。

不过由于转换音频需要GPU资源，在Hugging Face上，建议各位将在Colab上运行Jupyter Notebook。

论文地址：
https://arxiv.org/abs/2111.03017

源代码：
https://github.com/magenta/mt3

Demo地址：
https://huggingface.co/spaces/akhaliq/MT3

发布于 2026-01-24 04:14

喜欢 0

收藏

1

上一篇：直播间扒谱卖谱风波,意外走红竟引索赔风波？下一篇：吉他世界APP全新升级,独家满减特惠来袭，全网首发惊喜，打印装订服务再升级

推荐阅读