[Trend] 2024년 AI 이슈를 용어와 함께 쉽게 이해하기 읽기

주요 테마

NIA에서 발행한 "2024년 AI 이슈를 용어와 함께 쉽게 이해하기 읽기"를 읽고 요약한 자료

AI 반도체

멀티모달 AI

온디바이스 AI, sLLM의 확산

디바이스에서 돌아가는 AI, sLLM(small LLM)를 통하여 기기안에서 돌아가는 LLM구현

지속가능한 AI

AI 질의 = 구글 검색의 10배 전기 소모. 어떻게 지속가능한 AI를 만들 것인가?

AI 윤리

AI의 윤리적 사용. AI 주권(국가간 경쟁).

Embodied AI

Embodied AI vs Robot

  • Robot : 프로그래밍된데로 움직임
  • Embodied AI : AI를 통해 환경과 실제 상호작용

피규어 01(OpenAI투자). 움직이고 대화하는 로봇. https://www.youtube.com/watch?v=0SRVJaOg9Co

스타트업 앤스로픽 - AI의 사고방식을 엿볼 수 있는 연구 결과 발표. https://web.stanford.edu/class/cs294a/sparseAutoencoder.pdf

AI 반도체 기술

AI 반도체

  • GPU :
  • ASIC : Application-Specific Integrated Circuit. 예) 구글의 TPU(Tensor Processing Unit)
  • FPGA : Field-Programmable Gate Array

GAA(Gate-All-Around)

트랜지스터를 더욱 작고 강력하게 만드는 기술

PPA(Power, Performance, Area)

반도체 설계 성능 3요소

AI에 사용되는 여러 칩들

GPU, NPU(Neural Processing Unit) - 휴대폰, 엔드 디바이스용 추론칩 TPU HBM : 고 대역폭 메모리. 적층 메모리. TSV(Through Silicon Via)를 이용해 실리콘을 수직으로 연결! 칩간 빠른 데이터 이동. 칩렛 : 작은 칩 모듈(칩렛)을 모아 하나의 칩을 설계하는 것. SoC와의 차이 : SoC는 동일 공장을 활용하지만 SiP는 여러 제조 공정을 단일 패키지로 묶음. Chiplet : SiP는 패키징이지만, Chiplet은 칩 그자체. SiP형 칩?

  1. 컴퓨팅 방식부터 잠시 쉬어감
  2. AI 반도체 성능 지표
  • FLOPS(Floating-point Operations Per Second) : AI 반도체 연산 속도. 부동 소수점 연산 횟수. 일반 연산.
  • TOPS(Tera Operations Per Second) : AI 딥러닝 연산 단위. 초당 행렬을 몇조(Trillion)번 연산할 수 있는지 나타냄. 행렬 연산. 정수 연산.

멀티모달 AI

1.1 단일 입/출력(텍스트 혹은 이미지 등)이 아닌 다양한 종류의 입/출력을 처리하는 AI. 싱기방기하다.

1.2. 제로샷 학습 : 한번도 본적이없는 것을 이해 ex) 노란(텍스트) 바나나(이미지)를 학습했으면 파란(텍스트) 바나나(이미지)도 추론 가능한 느낌. 개별 개념을 이해하고 있어 확장 가능

1.3. 역전파 : 여러 형태의 데이터 학습과정에서 오차를 최소화. 의미공간.(Semantic Space). 각 모달리티의 특징 추출기와 융합 모델의 파라미터를 조정. 이를 통하여 다양한 데이터의 상호 관계를 이해

  1. 멀티모달 AI 생성 모델(주요 생성형 AI 모델) 2.1. 트랜스포머(Transformer) 단어들 사이의 관계를 파악하고, 문장으로 의미를 정확하게 이해(개별 단어에 대한 이해가 아님) 언어처리로 시작. RNN->Transformer. 어텐션 메커니즘(Attention Mechanism).

중요성 : 1) 언어 이해와 생성 능력 향상 2) 다양한 형태의 데이터를 함께 처리할 수 있는 기반 마련

2.2. BERT(Bidirectional Encoder Representations from Transformers) : 맥락을 이해하는 언어 모델. 양방향 인코더 표현을 위한 트랜스포머

2.3. GAN(Generative Adversarial Networks) : 적대적 생성 신경망. 생성자의 가짜 데이터를 판별자가 판별하여 점점 더 진짜 데이터에 가까운 데이터를 생성하고 점점 더 진실에 가까운 판별을 함.

  • 생성자 : 예) 늦게들어오는 거짓말을 부모에게 하는 학생. 거짓말이 점점 정교해짐
  • 판별자 : 예) 거짓말을 계속 평가함. 정교한 거짓말에 대한 참/거짓을 계속 판단함

기여 - AI 학습 데이터를 생성(기존 x-ray를 이용하여 추가적인 데이터 생성)

2.4. VAE(Variational Autoencoder) : 데이터의 숨겨진 특징을 찾아내기

  • 데이터의 본질적인 특징을 이해하고 새로운 데이터를 만들어내기 위해 개발

  • ex) 레시피를 학습한 후 레시피를 기반으로 새로운 요리를 창작하는 것과 비슷

  • ex) VAE가 눈 크기, 코모양, 입술두께 등 얼굴의 주요 특징을 파악한 후 실존하지 않는 새로운 얼굴을 만들어 냄

  • ex) 음악 장르에 대한 학습 후 유사 장르에 대한 출력.

2.5. 확산 모델(Diffusion Model) : 픽셀 하나하나를 조율하여 현실과 구분하기 어려운 이미지 생성

  • 목적 : 더 사실적인 이미지 생성을 위하여 등장 GAN은 너무 랜덤한 결과물. 조금 더 좋은 이미지 생성을 위해 등장

기본 원리 1) 원본 2) 섞어서 노이즈로 만듦 3) 하나씩 제자리로 돌려놓는 방법을 학습 => 1)~3)을 반복하여 이미지 복원 능력을 키움

예시 1) 완전한 요리를 재료 단위로 분리 2) 이 재료를 이용하여 멋진 요리를 만들어 냄 3) 1~2)의 과정을 통하여 재료만 가지고 멋진 요리를 만들어내는 방법을 만듦

중요성

  • 결과물이 가진 안정성과 품질에 그 중요성이 있음

2.6. 위스퍼(Whisper)

  • 목적 복잡한 음성을 더 잘 이해하기 위하여 개발되었으며 음성->텍스트 변환에 그 목표가 있음. 단순 음성뿐만 아니라 억양, 다양한 언어를 이해하고 시끄러운 환경에서 원하는 소리를 정확히 뽑아냄 ex) 시끄러운 공항에서 "let's go to 신주쿠 for some 맛있는 라멘!" 이라는 문장을 들려주면 정확히 텍스트로 변환. 공항 사운드, 주변 대화까지 다 잘 걸러줌 ex) 활용처. 유튜브 자막 생성, 회의시 회의록 생성

2.7. 웨이브넷 : 섬세한 음파 조절로 사람의 목소리를 따라 AI 합성

  • 목적 : 자연스러운 AI 음성 생성을 위하여 개발
  • 방법 : 아주 작은 단위로 쪼개어 분석, 이를 다시 조합하여 음성을 만드는 AI .
  • ex) 가수의 홓브, 떨림, 음색 등을 세밀하게 학습하여 그 특징을 그대로 재현

2.8. 타코트론 : 텍스트를 음성으로

  • 목적 : 사람의 목소리와 유사한 자연스러운 음성 합성을 위하여 개발
  • 방법 : 기존처럼 단순히 단어의 음성을 조절하는 단계를 넘어서, 문장의 의미와 감정을 이해하고 그에 맞게 억양과 톤을 조절.
  • AI가 감정을 담아서 말할 수 있게 해줌. AI 스피커 등에서 활용

2.9. VideoBERT : 멀티모달 AI로 영상을 이해

  • 목적 : 영상을 이해하기 위한 AI. 기존처럼 글자나 그림 중 하나만 잘 이해하는 것이 아니라, 영상, 자막, 음성을 복합적으로 이해함

  • ex) 스테이크 영상에서 1) 스테이크 굽는 시간을 궁금해하면 영상 내용을 분석하여 "중불에서 3분간 굽는다"로 응답 2) "스테이크 뒤집는 장면"을 질의하면 해당 장면이 나오는 시간을 알려 줌 3) 새로운 영상을 올릴 때, 자동으로 캡션 생성

2.10. 시공간 확산(Space-Time Diffusion) : 시공간을 이우르는 역동적인 영상을 창조

  • 목적 : 구글의 루미에르에 적용. 더 생동감있는 AI 생성 콘텐츠을 위해 개발.

  • ex) 도로를 운전하는 차에 대한 영상을 생성하더라도 배경에 있는 나뭇잎의 흔들림 등이 표현되어야 할 수 있음

  • 방법 : 1) 입력받은 텍스트로 움직이는 영상을 생성하는 AI

ex) 파도가 치는 해변이라면 1) 파도가 밀려오는 영상 2) 시간의 흐름에 따른 자연스러운 움직임

ex) "쉐프가 양파를 썰고, 그 다음에 팬에 기름을 두르고 양파를 볶는다. 양파가 갈색으로 변하면 소금을 뿌린다"라는 영상을 만들면

1) 양파, 쉐프, 팬, 칼 등 요소 이미지 생성 2) 시간의 흐름에 따라 이 요소들이 어떻게 변화하고 움직여야 할지 계산 3) 실제로 요리하는 것 같은 자연스러운 영상을 생성