Amphion:音频、音乐和语音AI生成的开源神器

admin 2025-04-08 79人围观 ,发现276个评论

音频、音乐和语音生成是一门涉及多个领域的交叉学科,它旨在利用人工智能技术将各种输入转换为音频输出,以实现多样化的应用场景,如语音合成、歌声合成、声音转换等。然而,音频、音乐和语音生成的研究和开发面临着许多挑战,如数据稀缺、模型复杂、评估困难等。为了促进这一领域的可复现研究和帮助初学者和工程师快速入门,因此有了一个开源的音频、音乐和语音生成工具包,名为Amphion。


Amphion的特色之一是提供了经典模型或架构的可视化,这对于初学者和工程师提高对模型的理解有益。Amphion的目标是提供一个平台,用于研究任何输入到音频的转换。Amphion支持多种生成任务,包括但不限于:

-TTS:文本到语音

-SVS:歌声合成

-VC:声音转换

-SVC:歌声转换

-TTA:文本到音频

-TTM:文本到音乐

除了具体的生成任务,Amphion还包含了多种声码器和评估指标。声码器是产生高质量音频信号的重要模块,而评估指标是保证生成任务的一致性的关键。

TTS:文本到语音

Amphion在文本到语音(TTS)系统方面达到了与现有开源仓库相媲美的性能。它支持以下模型或架构:

-FastSpeech2:一种非自回归的TTS架构,使用前馈变换器块。

-VITS:一种端到端的TTS架构,使用条件变分自编码器和对抗学习。

-Vall-E:一种零样本的TTS架构,使用离散编码的神经编码语言模型。

-NaturalSpeech2:一种用于TTS的架构,使用潜在扩散模型生成自然的语音。

SVC:歌声转换

Amphion支持多种基于内容的特征,来自于各种预训练模型,包括WeNet,Whisper,和ContentVec。

Amphion实现了多种最先进的模型架构,包括扩散、变换器、VAE和流式模型。扩散模型使用双向扩张CNN作为后端,并支持多种采样算法,如DDPM,DDIM,和PNDM。此外,它还支持基于一致性模型的单步推理。

TTA:文本到音频

Amphion支持使用潜在扩散模型进行TTA。它的设计类似于AudioLDM,Make-an-Audio,和AUDIT。

声码器

Amphion支持多种广泛使用的神经声码器,包括:

-GAN-based声码器:MelGAN,HiFi-GAN,NSF-HiFiGAN,BigVGAN,APNet.

-Flow-based声码器:WaveGlow.

-Diffusion-based声码器:Diffwave.

-Auto-regressivebased声码器:WaveNet,WaveRNN.

Amphion提供了多尺度常量Q变换判别器的官方实现。它可以用于在训练过程中增强任何GAN-based声码器的架构,而不影响推理阶段(如内存或速度)。

评估

Amphion提供了对生成音频的全面的客观评估。评估指标包括:

-F0建模:F0皮尔逊系数,F0周期性均方根误差,F0均方根误差,有声/无声F1分数等。

-能量建模:能量均方根误差,能量皮尔逊系数等。

-可懂度:字符/词错误率,可以基于Whisper等计算。

-频谱失真:Frechet音频距离(FAD),梅尔倒谱失真(MCD),多分辨率STFT失真等。

猜你喜欢
    不容错过