[include(틀:OpenAI)]

||<-2><table align=right><table width=350><table bordercolor=#ddd,#010101><bgcolor=#ddd,#010101><table bgcolor=#fff,#2d2f34><table color=#373a3c,#ddd> '''{{{+1 위스퍼}}}'''[br]Whisper ||
|| '''출시일''' ||[[2022년]] [[9월]] ||
|| '''제작사''' ||[[OpenAI]] ||
|| '''라이선스''' ||[[MIT 라이선스]] ||
|| '''관련 링크''' ||[[https://openai.com/research/whisper/|[[파일:홈페이지 아이콘.svg|width=20]]]] | [include(틀:GitHub 로고,링크=openai/whisper,크기=20)] ||

[목차]
[clearfix]

== 개요 ==
[[OpenAI]]에서 개발한 자동 음성 인식(Automatic Speech Recognition, ASR) 모델이다. [[2022년]] [[9월]]에 [[오픈 소스]]로 공개했으며, [[2022년]] [[12월]]에는 기존 large 모델에서 더욱 개선된 large-v2 모델을 출시했다.

Whisper는 680,000시간 분량의 다국어 및 다목적 감독 데이터를 학습했다. [[ChatGPT]] [[iOS]] 앱의 음성 인식 기능이 위스퍼 모델을 기반으로 만들어진 것이다.

== 상세 ==
모델의 크기에 따라 여러 모델이 존재하며, 영어만 처리할 수 있는 모델과 여러 언어를 처리할 수 있는 다국어 모델로 구분된다.
||<tablebordercolor=#ddd,#010101><table align=left><table width=500><rowbgcolor=#ddd,#010101><rowcolor=#000,#fff><width=20%> '''크기''' ||<width=20%> '''매개변수''' || '''영어 전용 모델''' || '''다국어 모델''' ||
|| tiny || 39 M || ✓ || ✓ ||
|| base || 74 M || ✓ || ✓ ||
|| small || 244 M || ✓ || ✓ ||
|| medium || 769 M || ✓ || ✓ ||
|| large || 1550 M || || ✓ ||

오픈 소스로 공개되었기 때문에 Whisper를 [[Python]]으로 설치하여 사용할 수 있다.[* Python 3.9.9 및 [[PyTorch]] 1.10.1 버전으로 모델을 학습하고 테스트했다고 한다. 코드 베이스는 Python 3.8-3.11, 최신 버전 PyTorch와 호환된다.] 별도로 OpenAI에서 제공하는 API를 통해, large-v2 모델을 분당 $0.006[* 한화로 약 8원.]에 사용할 수도 있다.

[[한국어]]는 단어 오류율(WER)[* Word Error Rate, 대부분 음성 인식 인공지능의 성능을 계산할 때 사용되는 측정 지표. 퍼센트가 낮을수록 성능이 좋다.] 통계를 기준으로 27위에 해당한다.[[https://raw.githubusercontent.com/openai/whisper/main/language-breakdown.svg|#]] 그럼에도, 한국어를 인식하는 성능이 꽤 뛰어나다.

== 여담 ==
 * [[OpenAI]]와 제휴한 [[스픽]]이 Whisper API를 사용하고, 대표 사용 사례로 소개되었다.[[https://openai.com/blog/introducing-chatgpt-and-whisper-apis|#]]
 * [[ChatGPT]] 공식 앱의 음성 인식에서 Whisper가 사용되고 있다.

[[분류:OpenAI]] [[분류:오픈 소스 소프트웨어]]