https://platform.openai.com/docs/overview
OpenAI 개발자 플랫폼
1
2
3
4
5
6
7
8
from openai import OpenAI
client = OpenAI()
completion = client.chat.completions.create(
model="gpt-4o",
messages=[
{"role": "user", "content": "write a haiku about ai"}
]
)
모델을 만나보세요
빠르고 가벼운 작업을 위한 저렴하고 지능적인 소형 모델
* 1M 토큰당 가격
텍스트 음성 변환
텍스트를 생생한 음성 오디오로 변환하는 방법 알아보기
개요
오디오 API는 다음을 제공합니다. speech TTS(텍스트 음성 변환) 모델을 기반으로 하는 엔드포인트입니다. 6개의 내장 음성이 함께 제공되며 다음과 같은 용도로 사용할 수 있습니다.
- 작성된 블로그 게시물에 대한 설명
- 여러 언어로 음성 오디오 제작
- 스트리밍을 사용하여 실시간 오디오 출력 제공
다음은 음성의 예입니다.alloy
Google의 사용 정책에 따라 최종 사용자에게 사용자가 듣고 있는 TTS 음성은 사람의 음성이 아니라 AI에서 생성한 음성임을 명확하게 공개해야 합니다.
퀵 스타트
엔드포인트는 모델, 오디오로 변환해야 하는 텍스트, 오디오 생성에 사용할 음성의 세 가지 주요 입력을 사용합니다. 간단한 요청은 다음과 같습니다.speech
1
2
3
4
5
6
7
8
9
10
11
12
from pathlib import Path
from openai import OpenAI
client = OpenAI()
speech_file_path = Path(__file__).parent / "speech.mp3"
response = client.audio.speech.create(
model="tts-1",
voice="alloy",
input="Today is a wonderful day to build something people love!"
)
response.stream_to_file(speech_file_path)
기본적으로 엔드포인트는 음성 오디오의 MP3 파일을 출력하지만 지원되는 형식을 출력하도록 구성할 수도 있습니다.
오디오 품질
실시간 응용 프로그램의 경우 표준 모델은 가장 낮은 대기 시간을 제공하지만 모델보다 품질이 낮습니다. 오디오가 생성되는 방식으로 인해 특정 상황에서 보다 더 정적인 콘텐츠를 생성할 수 있습니다. 경우에 따라 청취 장치와 개인에 따라 오디오가 눈에 띄지 않을 수 있습니다.tts-1tts-1-hdtts-1tts-1-hd
음성 옵션
다양한 목소리(, , , )로 실험하여 원하는 톤과 청중에 맞는 목소리를 찾으십시오. 현재 음성은 영어에 최적화되어 있습니다.alloyechofableonyxnovashimmer
합금
반향
우화
오닉스
신성
쉬머
실시간 오디오 스트리밍
Speech API는 청크 전송 인코딩을 사용하여 실시간 오디오 스트리밍을 지원합니다. 즉, 전체 파일이 생성되어 액세스할 수 있게 되기 전에 오디오를 재생할 수 있습니다.
1
2
3
4
5
6
7
8
9
10
11
from openai import OpenAI
client = OpenAI()
response = client.audio.speech.create(
model="tts-1",
voice="alloy",
input="Hello world! This is a streaming test.",
)
response.stream_to_file("output.mp3")
지원되는 출력 형식
기본 응답 형식은 "mp3"이지만 "opus", "aac", "flac" 및 "pcm"과 같은 다른 형식을 사용할 수 있습니다.
- Opus: 인터넷 스트리밍 및 통신용, 짧은 대기 시간.
- AAC: YouTube, Android, iOS에서 선호하는 디지털 오디오 압축용입니다.
- FLAC: 무손실 오디오 압축용으로, 오디오 애호가가 보관을 위해 선호합니다.
- WAV: 압축되지 않은 WAV 오디오로, 디코딩 오버헤드를 피하기 위해 대기 시간이 짧은 애플리케이션에 적합합니다.
- PCM: WAV와 유사하지만 헤더 없이 24kHz(16비트 부호 있는, 로우 엔디안)의 원시 샘플을 포함합니다.
지원되는 언어
TTS 모델은 일반적으로 언어 지원 측면에서 Whisper 모델을 따릅니다. Whisper는 다음 언어를 지원하며 현재 음성이 영어에 최적화되어 있음에도 불구하고 잘 작동합니다.
아프리칸스어, 아랍어, 아르메니아어, 아제르바이잔어, 벨로루시어, 보스니아어, 불가리아어, 카탈로니아어, 중국어, 크로아티아어, 체코어, 덴마크어, 네덜란드어, 영어, 에스토니아어, 핀란드어, 프랑스어, 갈리시아어, 독일어, 그리스어, 히브리어, 힌디어, 헝가리어, 아이슬란드어, 인도네시아어, 이탈리아어, 일본어, 칸나다어, 카자흐어, 한국어, 라트비아어, 리투아니아어, 마케도니아어, 말레이어, 마라티어, 마오리어, 네팔어, 노르웨이어, 페르시아어, 폴란드어, 포르투갈어, 루마니아어, 러시아어, 세르비아어, 슬로바키아어, 슬로베니아어, 스페인어, 스와힐리어, 스웨덴어, 타갈로그어, 타밀어, 태국어, 터키어, 우크라이나어, 우르두어, 베트남어, 웨일스어.
선택한 언어로 입력 텍스트를 제공하여 이러한 언어로 음성 오디오를 생성할 수 있습니다.
자주 묻는 질문(FAQ)
생성된 오디오의 감정 범위를 제어하려면 어떻게 해야 합니까?
생성된 오디오의 감정적 출력을 제어할 수 있는 직접적인 메커니즘은 없습니다. 대문자 또는 문법과 같은 특정 요소가 출력 오디오에 영향을 줄 수 있지만 이에 대한 내부 테스트는 혼합된 결과를 산출했습니다.
내 목소리의 사용자 지정 복사본을 만들 수 있습니까?
아니요, 이것은 우리가 지원하는 것이 아닙니다.
출력된 오디오 파일을 내가 소유하고 있습니까?
예, API의 모든 출력과 마찬가지로 출력을 만든 사람이 출력을 소유합니다. 최종 사용자에게 실제 사람이 아닌 AI가 생성한 오디오를 듣고 있음을 알려야 합니다.
'기술자료' 카테고리의 다른 글
.gitignore 파일은 버전 제어 시스템인 Git에서 무시해야 하는 파일과 디렉터리를 관리 (0) | 2024.08.03 |
---|---|
환경 변수를 설정하고 OPENAI_API_KEY를 시스템에 영구적으로 추가하는 방법 (0) | 2024.08.03 |
인간이든 AI 봇이든 사용자와 대화를 시작할 시기 (0) | 2024.07.29 |
openai 연동 홈케어 (0) | 2024.07.28 |
싱스웰 헬스케어 ~ VO₂ Max 이해하기 (0) | 2024.07.28 |