AudioGPT基于 LLM 的音频助手

联合创作 · 2023-09-29 19:45

AudioGPT 是一个借助大语言模型 (LLM) 处理音频的工具。

AudioGPT 在收到用户请求时使用 ChatGPT 进行任务分析，根据语音基础模型中可用的功能描述选择模型，用选定的语音基础模型执行用户指令，并根据执行结果汇总响应。借助 ChatGPT 强大的语言能力和众多的语音基础模型，AudioGPT 能够完成几乎所有语音领域的任务。

具体来说，AudioGPT 运行过程可以分成 4 个阶段：模态转化、任务分析、模型分配和回复生成。

AudioGPT 核心功能

生成音乐
背景音效
音频生成字幕
文字生成音频
文字生成音频并模拟声音
根据图片生成音频
对音频进行inpaint（局部屏蔽）
根据音频和人脸照片合成视频
检测音频中的事件，以及开始和结束时间
单声道变双声道
通过文本描述检测特定声音发生的时间
抽取某种声音
去除背景噪音
多人混合声分离出单人声音
语音翻译

浏览 4

点赞

收藏

分享

举报

评论

图片

表情

AudioGPT基于 LLM 的音频助手

AudioGPT是一个借助大语言模型(LLM)处理音频的工具。AudioGPT在收到用户请求时使用ChatGPT进行任务分析，根据语音基础模型中可用的功能描述选择模型，用选定的语音基础模型执行用户指令

AudioGPT基于 LLM 的音频助手

Marsha基于 LLM 的编程语言

Marsha 是一种基于 LLM的编程语言。用简单的语法描述你想要完成的任务，提供使用示例，Mars

Marsha基于 LLM 的编程语言

Marsha基于 LLM 的编程语言

Marsha是一种基于LLM的编程语言。用简单的语法描述你想要完成的任务，提供使用示例，Marsha编译器将指导LLM生成经过测试的Python软件。可通过终端或JupyterNotebook使用pi

Marsha基于 LLM 的编程语言

用 LLM 构建企业专属的用户助手

Siren基于文本的音频播放器

Siren 是一个基于文本的音频播放器，用于 Linux/Unix 系统。支持 Ogg Vorbis

Siren基于文本的音频播放器

FFmpeg — 应用程序中强大的视频音频助手

AI算法与图像处理

Siren基于文本的音频播放器

Siren是一个基于文本的音频播放器，用于Linux/Unix系统。支持OggVorbis,MP3,FLAC,WavPack,WAVE,AIFF等格式，通过sndio、PulseAudio、ALSA、

Siren基于文本的音频播放器

TypeChat基于 LLM 的自然语言构建 UI 库

TypeChat 是基于 LLM 的自然语言构建 UI 库，由微软开源。它通过 AI 在自然语言和应

TypeChat基于 LLM 的自然语言构建 UI 库

EnCodec基于深度学习的音频编解码器

EnCodec是一个基于深度学习的音频编解码器，由AI驱动，可以在音频质量没有损失的前提下，将音频压缩到比MP3格式还要小10倍的程度。实现过程如下：首先，编码器将未压缩的数据转换为较低帧率的"lat

EnCodec基于深度学习的音频编解码器

EnCodec基于深度学习的音频编解码器

EnCodec 是一个基于深度学习的音频编解码器，由 AI 驱动，可以在音频质量没有损失的前提下，将

EnCodec基于深度学习的音频编解码器

点赞

收藏

分享

举报