[include(틀:OpenAI)]

||<-2><table align=right><table width=350><table bordercolor=#ddd,#010101><bgcolor=#ddd,#010101><table bgcolor=#fff,#2d2f34><table color=#373a3c,#ddd> '''{{{+1 CLIP}}}'''[br]Contrastive Language-Image Pre-training ||
|| '''출시일''' ||[[2021년]] [[1월 5일]] ||
|| '''제작사''' ||[[OpenAI]] ||
|| '''라이선스''' ||[[MIT 라이선스]] ||
|| '''관련 링크''' ||[[https://openai.com/research/clip|[[파일:홈페이지 아이콘.svg|width=20]]]] | [include(틀:GitHub 로고,링크=openai/CLIP,크기=20)] ||

[목차]
[clearfix]

{{{+2 Contrastive Language-Image Pre-training model, CLIP model}}} 
== 개요 ==
OpenAI에서 개발한 신경망 아키텍처로, 자연어를 이해하고 Computer Vision을 구현하는 등 인간의 언어/이미지를 컴퓨터로 처리할 수 있게끔 해주는 모델이다.

== 상세 ==
CLIP 모델은 ViT(Vision Transformer)와 Transformer 언어 모델(Transformer-based language model)을 결합하여 이미지와 텍스트를 모두 처리할 수 있게 만들어놓은 모델이다. 여기서 ViT란 비지도학습을 통해 이미지에서 특징을 추출할 수 있도록 만들어진 CNN 모델이며, Transformer 언어 모델은 사전훈련(pre-trained)을 통해 텍스트 데이터를 학습해놓은 모델이다.

CLIP 모델에 자연어를 입력할 경우 이를 [[임베딩]]으로 변환하여 77 x 768 숫자 값 목록이 생성되며, 이 임베딩의 숫자값을 바탕으로 이미지 처리가 가능한 것이다.

CLIP 모델은 2022년부터 우후죽순으로 개발된 AI 그림의 기반이 모두 여기에 있다 해도 전혀 과장이 아닐 정도로 AI 개발에 있어 강력한 도구 중 하나이다. 이를 통해 텍스트 및 이미지와 같은 복잡한 데이터를 처리하고, 컴퓨터가 이해하는 방식이 혁신적으로 개선되었기 때문.

== 응용 ==
 * AI 그림의 선두주자격인 OpenAI의 [[DALL·E]]가 이 CLIP 모델을 이용하여 만든 도구이다. 

== 같이 읽기 ==
 * [[Stable Diffusion]]
 * [[임베딩]]

[[분류:OpenAI]] [[분류:자연어 처리 모델]]