오디오 딥러닝과 TTS

오디오 딥러닝과 TTS

분류
클래스
챌린지
세션 시간
클래스 화요일 오후 8시 - 10시 챌린지 화요일 오후 10시 - 11시
리더

✏️ 오디오 딥러닝과 TTS에서는 무엇을 배우나요?

 
오디오 딥러닝은 음성을 다루는 딥러닝의 한 분야입니다. Siri가 우리의 말을 이해하는 것도, 특정 발화자의 말만 구분해 인식하는 것도, 가상의 브루노 마스가 Hype Boy를 부르는 것도, 혹은 더 나아가 AI가 작곡을 하는 것도 전부 오디오 딥러닝입니다.
최근 "가상인간 로지", "AI가 부활시킨 김광석", "브루노 마스가 부른 Hype Boy" 등으로 세간의 관심을 끌었던 TTS(Text-to-Speech)는 오디오 딥러닝의 하위 분야 중 하나로 텍스트를 오디오로 바꾸는 기술입니다. 사용자가 글을 입력하면 그 글을 음성화하는데, Apple Siri에 쓰이는 기술로 AI 어시스턴트 등이 대표적 활용처입니다. TTS를 통해 사용자의 음성 데이터를 가지고 실제로 발화하지 않았던 문장도 자연스럽게 재생할 수 있습니다.
이번 2023 여름 오디오 딥러닝과 TTS 커리큘럼은 TTS를 비롯해 오디오 딥러닝에서 다루는 다양한 기술들에 대한 전반적인 이해 및 코드 구현을 목표로 합니다. 먼저 오디오 데이터 처리와 관련한 여러 개념에 대해 학습한 뒤 다양한 오디오 딥러닝 기법들을 심도있게 공부합니다. 오디오 딥러닝은 인간의 말을 다루는 NLP(Natural Language Processing)나 인간의 시각을 다루는 CV(Computer Vision)에 비해 상당히 생소할 수 있는 영역이지만, 딥러닝의 발전에 굉장히 크게 기여하고 있습니다. 이번 여름 클래스 동안 함께 재밌고 열정적으로 공부할 수 있으면 좋겠습니다.

🗒️ 오디오 딥러닝과 TTS 2023 여름 커리큘럼

*오디오 딥러닝과 TTS 2023 여름 커리큘럼 중 활용 모델은 변경될 수 있습니다.

클래스

일정 2023년 8월 1일 - 8월 29일 (5주)
시간 매주 화요일 오후 8시 - 10시

챌린지

일정 2023년 8월 1일 - 8월 29일 (5주)
시간 매주 화요일 오후 10시 - 11시

주차
날짜
개념
1주차
8월 1일(화)
오디오 데이터 처리 오디오 딥러닝 트렌드
2주차
8월 8일(화)
Audio Classification
3주차
8월 15일(화)
Speech Recognition
4주차
8월 22일(화)
Text-to-Speech Tacotron
5주차
8월 29일(화)
Text-to-Speech MB-MelGAN
오디오 딥러닝과 TTS 2023 상세 커리큘럼
1주차 오디오 딥러닝 트렌드 오디오 데이터 처리
먼저 오디오 딥러닝의 세부 분야와 SOTA 모델 등 오디오 딥러닝 트렌드에 대해 공부합니다. 푸리에 변환과 Mel 등 오디오 데이터를 이해하는 데 필요한 개념을 배운 뒤 오디오 데이터를 샘플링 해보며 오디오 데이터 처리를 이해합니다.
2주차 Audio Classification
음성 분류(Audio Classification)의 의미와 원리에 대해 공부한 뒤, CNN을 활용해 음성을 분류하는 모델을 만듭니다.
3주차 Speech Recognition
음성 인식(Speech Recognition)의 의미와 원리에 대해 공부한 뒤, Deepspeech 모델을 이용해 직접 구현합니다.
4주차 Text-to-Speech 1
사용자가 입력한 글을 음성으로 변환해 출력하는 TTS(Text-to-Speech)에 대해 공부합니다. 먼저 입력 텍스트를 Mel spectrogram으로 변환하는 Text-to-Mel에 대해 공부한 뒤 Tacotron을 이용해 이를 직접 구현합니다.
5주차 Text-to-Speech 2
Vocoding, 즉 Mel Spectrogram을 바탕으로 음성을 출력하는 Mel-to-Wav에 대해 공부한 뒤 MultiBand-MelGAN을 이용해 이를 직접 구현합니다.

🗒️ 수강대상

다음 4개의 항목들 중 두 가지 이상에 해당하시는 분은 오디오 딥러닝과 TTS 클래스를 수강하시기 적합합니다. Attention, LSTM 등 다양한 딥러닝 개념들을 함께 공부해 나갈 예정이기 때문에 딥러닝에 대한 많은 지식이 없어도 이 클래스를 무리 없이 수강하실 수 있습니다.
 
  1. 오디오 딥러닝에 관심이 많으신 분
  1. 딥러닝 기초 개념(순전파, 역전파, CNN, RNN 등)을 공부해 보신 경험이 있으신 분
  1. 파이썬 기초 개념(자료형, 객체 등)이 익숙하신 분
  1. 딥러닝 및 파이썬 기초 개념에 대해 배워나갈 열정이 있으신 분

리더를 소개합니다!

😃
시계열 데이터에 매력을 빠져 전공으로도, 전공 외에도 열심히 공부했습니다. 그러다 제 취미 중 하나인 작곡을 하다가 저 대신 노래를 불러줄 AI가 필요해 시계열의 일종인 오디오 딥러닝을 공부했습니다. 현재 고려대학교 통계학과에 재학 중입니다.
  • SOTA 달성 중인 TTS, ASR(음성 인식) 모델 다수 활용한 프로젝트 진행 경험 有
  • 오디오 생성 모델 Wavenet 및 EMA(Exponential Moving Average)를 응용한 시계열 예측 알고리즘 개발
  • 한국수자원공사, 산업통상자원부, BirdCLEF 2022(Kaggle Audio Classification) 등 공모전 참여 및 입상 경험 有