Speech to Text Made Easy with the OpenAI Whisper API(openai / whisper)

ChatGPT账号购买平台发布时间：2024-02-15 浏览量：19

一、OpenAI开源Whisper的背景和概述

A. OpenAI开源Whisper的动机和目标

OpenAI希望推动语音处理技术的进一步研究和利用开发

OpenAI开放模型和推理代码，鼓励开发者利用Whisper构建有用的利用程序
Whisper的开源意味着更多人可以参与模型的改进和优化

Whisper的训练数据和功能介绍

Whisper训练数据包括大量的多语言音频和转录文本
Whisper是一个通用的语音辨认模型，可以应对多种语言和任务

二、安装与使用Whisper

A. 安装pytube和Whisper

使用pip安装pytube

在终端中运行pip install pytube命令，安装pytube库

使用pip安装Whisper

在终端中运行pip install git+https://github.com/openai/whisper.git命令，安装Whisper库

B. 使用Whisper进行语音辨认

加载Whisper模型

使用import whisper导入Whisper库

分割输入音频

将输入音频分割成30秒的小段，以提高辨认准确性

进行语音辨认

调用Whisper的辨认函数对分割后的音频进行辨认

获得辨认结果

取得语音辨认的结果并进行后续处理或利用

三、Whisper的特点和利用场景

A. 多语言支持

Whisper可以处理多种语言的音频

使用Whisper进行跨语言的语音辨认和翻译任务

Whisper的训练数据中包括英语和其他语言的音频和转录文本

B. 多任务处理能力

Whisper是一个多任务模型

Whisper可以同时进行多个语音辨认任务

Whisper可以应对多种语音处理任务

Whisper可以用于语音辨认、翻译等多个领域的利用开发

四、Whisper的利用优势和使用案例

A. 高质量的语音辨认性能

Whisper经过大范围训练的数据集，具有较高的辨认准确性
Whisper可以在多语言环境下实现准确的语音辨认

B. 广泛的利用领域

Whisper适用于各种语音处理利用

Whisper可以用于语音辨认、翻译、转写等多个领域的利用开发

Whisper的多语言支持使其具有全球适用性

Whisper可以处理各种语言的音频，并帮助用户在多语言环境中实现语音处理任务

总结：

OpenAI开源Whisper是一款全球领先的多语言语音辨认系统，通过大范围数据集的训练，Whisper具有较高的辨认准确性和多语言处理能力。用户可以通过安装pytube和Whisper库，轻松进行语音辨认任务。Whisper的开源意味着更多人可以参与模型的改进和优化，而其多任务处理能力和多语言支持使其在各种语音处理利用领域具有广泛的利用前景。不但可以用于语音辨认、翻译、转写等任务，还可以帮助用户在多语言环境中实现语音处理任务的需求。

openai / whisper的进一步展开说明

OpenAI Whisper：一个强大的语音辨认工具

Whisper是一个通用的自动语音辨认模型，它是通过大范围的音频数据集进行训练的。该模型可以进行多语言转录、语音翻译和语言检测。

Whisper可以用作语音助手、聊天机器人、英语语音翻译、会议期间自动记录笔记和转录等自动化功能。

甚么是转录和它的好处？

转录是将口语转换为文字的进程。在过去，转录是通过人工进行的，而现在我们有了像Whisper这样能够准确理解口语的人工智能工具。

转录的好处有：

分析、方便访问和保存采访、会议、讲座和播客的记录。
实时语音转录用于字幕（YouTube）、字幕（Zoom会议）和口语翻译。
个人和专业用处的语音转录。用于转录语音笔记、信息、提示、备忘录和反馈。
聋哑人士的转录支持。
语音输入型利用程序的转录支持，例如聊天机器人、语音助手和语言翻译。

支持哪些语言？

Whisper API支持以下语言的转录和翻译：

Afrikaans、Arabic、Armenian、Azerbaijani、Belarusian、Bosnian、Bulgarian、Catalan、Chinese、Croatian、Czech、Danish、Dutch、English、Estonian、Finnish、French、Galician、German、Greek、Hebrew、Hindi、Hungarian、Icelandic、Indonesian、Italian、Japanese、Kannada、Kazakh、Korean、Latvian、Lithuanian、Macedonian、Malay、Marathi、Maori、Nepali、Norwegian、Persian、Polish、Portuguese、Romanian、Russian、Serbian、Slovak、Slovenian、Spanish、Swahili、Swedish、Tagalog、Tamil、Thai、Turkish、Ukrainian、Urdu、Vietnamese和Welsh。

支持哪些文件格式？

Whisper API支持的文件格式有：mp3、mp4、mpeg、mpga、m4a、wav和webm。目前，上传文件大小限制为25MB。如果您有更大的文件，可使用pydub将其拆分成较小的块。

怎样使用OpenAI API进行语音转文字？

您可使用Python编程语言的基本知识将OpenAI Whisper API集成到您的利用程序中。Whisper API是openai/openai-python的一部份，允许您访问各种OpenAI服务和模型。

首先，依照提示在终端中键入以下命令以在本地系统中设置API密钥的环境变量：

export OPENAI_API_KEY=’您的API密钥’

接下来，您可使用以下命令在Python程序中设置您的API密钥（不推荐使用这类方法，由于它会将您的API密钥暴露给公众）：

import openai
openai.api_key = “您的API密钥”

当您使用DataCamp Workspace时，可以通过单击“Integration”按钮 > “Create Integration” > “Environment Variables” > “Add Name and Value” > “Create”来轻松设置您的API密钥。

有了API密钥后，您可使用OpenAI Python API来进行语音转文本。

转录案例

以下是使用Whisper API进行英文转录的代码示例：

import openai
with open(“Audio/marvin_minsky.mp3”, “rb”) as audio_file:
transcript = openai.Audio.transcribe(
file = audio_file,
model = “whisper⑴”,
response_format=”text”,
language=”en”
)
print(transcript)

输出结果以下：

of theories called Steps Toward Artificial Intelligence around 1970. That sort of charted several possible lines of research, which pretty much predicted what several communities of researchers would do in the next 20 years. Those predictions started to fall apart around–so that paper was 1970, roughly. By the late 1980s, the world had changed. It was interesting because when I started research in that general area, almost all of my students soon became professors.

openai / whisper的常见问答Q&A

问题1：OpenAI 是甚么？

答案：OpenAI是一个人工智能研究实验室，致力于推动人工智能技术的发展，并推动人工智能对全社会的影响。它的目标是确保人工智能技术造福于所有人类。

OpenAI 是一个人工智能研究实验室。
OpenAI 的目标是推动人工智能技术的发展，并确保其造福于所有人类。
OpenAI 致力于推动人工智能技术在全社会的利用和发展。

问题2：Whisper 是甚么？

答案：Whisper是OpenAI开源的语音辨认系统，它能够辨认99种语言的语音。它是由OpenAI训练而成的一个自动语音辨认（ASR）模型。该模型在全球范围内搜集的680,000小时的多语种和多任务监督数据上进行训练，具有很高的鲁棒性和准确性。

Whisper是OpenAI开源的语音辨认系统。
Whisper能够辨认99种语言的语音。
Whisper是一个自动语音辨认（ASR）模型，具有高鲁棒性和准确性。

问题3：Whisper 对语音辨认领域有哪几种改变？

答案：Whisper的开源为语音辨认领域带来了重大改变。它提供了一个高效准确的语音辨认模型，使开发者能够更容易地构建语音处理利用程序和进行进一步的研究。另外，Whisper的开源还为语音辨认技术的发展提供了强大的基础。

Whisper的开源为语音辨认领域带来了重大改变。
Whisper提供了一个高效准确的语音辨认模型。
开发者可使用Whisper更容易地构建语音处理利用程序。
Whisper的开源为语音辨认技术的发展提供了强大基础。

问题4：Whisper 的工作原理是甚么？

答案：Whisper的工作原理主要包括以下几个步骤：

将输入的音频分割为30秒的小段。
使用训练好的模型将每一个小段的语音转录成文本。
将转录文本输出作为辨认结果。

Whisper 的工作原理是将输入的音频分割为30秒的小段。
使用训练好的模型将每一个小段的语音转录成文本。
将转录文本输出作为辨认结果。

问题5：怎么安装和援用Whisper模型？

答案：您可以通过以下步骤安装和援用Whisper模型：

使用命令`pip install git+https://github.com/openai/whisper.git –q`安装Whisper。
在代码中导入Whisper模块：`import whisper`。

使用命令`pip install git+https://github.com/openai/whisper.git –q`安装Whisper模型。
在代码中导入Whisper模块：`import whisper`。

问题6：Whisper可以辨认哪些语言？

答案：Whisper可以辨认99种语言的语音，包括但不限于英语、中文、法语、西班牙语、德语等。

Whisper可以辨认99种语言的语音。
Whisper包括但不限于英语、中文、法语、西班牙语、德语等。

TikTok千粉号购买平台：https://tiktokusername.com/