利用基于音频的生成式 AI，协调创新

April 1, 2024

Christina Cardoza

生成式人工智能

人工智能是许多不同技术的总称。生成式 AI 是我们经常听到的一个话题，尤其是 ChatGPT。ChatGPT 得到了广泛报道，但绝不是生成式 AI 行列中唯一一员。英特尔的 AI 软件架构师兼生成式 AI 推广者 Ria Cheruvu 最近一直感兴趣的一个问题是音频领域生成式 AI（视频 1）。

视频 1。英特尔生成式 AI 传播者 Ria Cheruvu 探索基于音频的生成式 AI 的商业和发展机遇。（来源：insight.tech）

但无论何种类型的生成式 AI 都令人震惊，开发人员并非始终确切知道从哪里开始，或者开始之后，如何优化模型。与英特尔合作，可以真正简化流程。例如，初学者开发人员可以使用英特尔^® OpenVINO^™ 笔记本电脑，利用教程和代码示例，帮助他们开始使用 GenAI 。然后，当他们准备好提升到一个新水平或准备扩展时，英特尔将随时帮助他们。

Ria Cheruvu 与我们讨论 OpenVINO 笔记本电脑存储库，以及生成式 AI 用于音频的现实应用，以及适用于呼叫中心的方面与适用于音乐家方面之间的差异。

生成式 AI 的不同领域有哪些？

就生成式人工智能的类型而言，这一领域无疑正在不断发展。ChatGPT 并非唯一！当然，文本生成是一种非常重要的生成式 AI，但也有图像生成，例如，使用 Stable Diffusion 等模型来生成艺术、原型以及不同类型的图像。还有音频领域，您可以开始制作音乐，或者制作合成化身的音频，以及许多其他类型的用例。

在音频领域，快速运行时尤为重要，这是常见的痛点之一。您希望模型超级强大，能够快速生成高质量输出的结果，那就需要大量计算。因此，我想说，优化生成式 AI 模型的技术堆栈绝对至关重要，这也是我在英特尔日常工作中研究的东西。

音频生成式 AI 的具体商机是什么？

使用语音人工智能或对话式人工智能来读取和处理音频，这确实非常有趣，这就是您使用语音代理（例如手机上的语音助手）所做的事情。将其与音频生成式 AI 比较，您实际上是在创建内容，例如，能够生成合成化身或声音，以便打电话和交谈。首先想到的商业应用肯定是呼叫中心，或者是具有使用这种所创建音频的模拟环境的元宇宙应用。

但创意领域、内容创作领域也有一些非传统商业用例，我们开始看到一些应用与音乐生成式 AI 相关。对我来说，这非常令人兴奋。英特尔开始研究生成式 AI 如何补充艺术家的工作流程：例如，创建作品，使用生成式 AI 来采样节奏。音乐家和音乐制作人如何利用生成式人工智能，将其纳入内容创作工作流程之中，这也有一个非常有趣的文化元素。

虽然它不是一个传统的商业用例，比如呼叫中心或使用音频进行零售的交互式自助服务终端，但我认为，音乐生成式 AI 在内容创作方面有着巨大的应用。最终，它还可以进入需要生成声音的其他类型领域，例如，创建用于 AI 系统训练的合成数据。

音频生成式 AI 的开发流程是什么？

生成式 AI 领域目前正在采用几种不同的方式。其中一种肯定是改造已有的模型架构，以用于其他类型的生成式 AI 模型。例如，Riffusion 基于图像生成模型 Stable Diffusion 的架构；它只是生成波形，而不是图像。

我最近与从事音乐领域研究的人交谈，我们讨论的一件事是，您可以为这些音频领域模型提供的输入数据多种多样。可以是音符，也许是钢琴作曲的一部分，一直到波形或特定类型的输入，专门用于 MIDI 格式等的用例。有多种多样的数据。

训练和部署这些模型需要哪些技术？

我们一直在调查许多有趣的生成式 AI 工作负载，这些工作负载是英特尔 OpenVINO 工具套件和 OpenVINO Notebook 存储库的一部分。我们将许多音频生成的关键示例当作非常有用的用例，用于提示和测试生成式 AI 功能。我们曾经与英特尔的其他团队合作，使用 Riffusion 模型，创作 Taylor Swift 类型的流行节奏，一直到更高级的模型，生成与某人说话的内容相匹配的音频。

我看到 OpenVINO 的一件事是，能够优化所有这些模型，特别是在内存和模型大小方面，而且能够在边缘、云和客户端之间实现灵活性。

OpenVINO 实际上针对该优化部分。有一个基本概念，即生成式 AI 模型的大小和内存占用面积很大；而所有这些模型的基础，无论是音频、图像还是文本生成，其中某些元素非常大。我们使用压缩和量化相关技术，将模型占用面积减半，不仅能够大幅减少模型尺寸，而且确保性能相差无几。

所有这些都源于一个非常有趣的本地开发概念。音乐创作者或音频创作者希望在创作内容时使用电脑，在从事密集型工作时，在云端工作，例如收集音频数据、录音、注释，以及与不同专家合作创建数据集。然后他们可以在电脑上执行其他工作负载，然后说：“好吧，现在让我在系统上本地生成一些有趣的流行节奏，然后在房间里制作原型。”

开发人员开始使用生成式 AI 有哪些示例？

我真正喜欢讨论的一个例子是，您如何正确地使用我们在笔记本存储库中展示的 OpenVINO 教程和工作负载，然后投入实际运用。在英特尔，我们与 Audacity 合作，后者是一个基本上实现开源音频相关编辑创作的工具。它是一种用于音频编辑的一站式 Photoshop 类型的工具。我们所做的一件事是通过我们提供的插件，将 OpenVINO 与其集成在一起。我们的工程团队从 Python 获取 OpenVINO Notebook 存储库中的代码，将其转换为 C++，然后将其部署到 Audacity 之中。

这样就能实现我之前提到的性能和内存改进，但它也直接集成到相同的工作流程中，许多编辑和操作音频的人也在利用此工作流程。您只需挑选一段声音，然后说 “生成”，OpenVINO 就会生成其余部分。

这是一个工作流程集成的例子，可用于艺术家工作流程；用于电影行业为语音制作生成合成音频；或用于零售行业中的交互式自助服务终端；或用于医疗保健领域的患者与医疗人员对话。工作流程的无缝集成是英特尔非常期待推动和帮助协作的下一步。

生成式 AI 还有哪些，特别是音频生成式 AI？

说到音频生成式人工智能，我认为在这个领域的任何一个特定时刻都是 “眨眼即失”。看到添加了如此众多工作负载，真是太神奇了。但是，展望不久的将来，也许是今年年底或明年，我能看到的一些发展肯定是围绕我之前提到的那些工作流程，以及确定您到底想在哪里运行，是在本地系统上，还是在云上，还是在两者的混合体上？这绝对是我真正感兴趣的事情。

我们正在尝试采用英特尔^® 酷睿^™ Ultra 和类似类型的平台，在 AI 电脑上生成音频，当您坐在房间里与一群音乐家一起制作原型并玩音乐时，理想情况下，您不必访问云端。相反，您可以在本地这样做，将其导出到云端，然后在本地和云端之间往返移动您的工作负载。关键在于，我们如何将利益相关者纳入该流程，即我们如何准确创建生成式 AI 解决方案，将其实例化，然后随时维护？