Multimodal

Multimodal

모집 인원
모집 인원 3명
분류
챌린지
세션 시간
챌린지 목요일 오후 9시 - 10시
리더
면접
과제 O | 면접 O (Zoom)

🗒️ Mutlimodal 2024 겨울 커리큘럼


모집 인원 6명
활동 시간 매주 목요일 오후 9시
활동 방법 주 1회 비대면 정기 세션 + 주 1회 필수 팀별 미팅(대면 권장)

Overview

기존에는 하나의 모달리티를 사용하는 유니 모달 연구가 성행했습니다. 현재는 자연어처리와 컴퓨터비전 등 인공지능의 발전으로 여러 형태의 데이터를 처리하는 멀티 모달 분야가 부상하고 있습니다. 인간의 사고 방식과 유사해지는 과정에 있다고 볼 수도 있을 것 같습니다.
‘24년 딥다이브 겨울 기수 멀티모달분야에서는 두 가지 이상의 데이터를 다루는 인공지능 모델을 다루고자 합니다. 그 중에서도 특히 텍스트와 이미지 모달을 사용하는 모델을 중점으로 공부할 예정입니다.
이번 기수는 프로젝트 1팀, 리서치 1팀으로 총 2팀을 모집할 예정입니다. 프로젝트팀의 경우 Fine-tuning 모델, 사전 학습 가중치(Pre-trained Weight)를 주로 사용할 예정이며, 리서치팀의 경우 파운데이션 모델을 기반으로 모델 개선, 경량화 등 다양한 연구 주제 범위에서 진행할 예정입니다. 그러나 수요에 따라서 적절히 팀빌딩을 진행할 예정입니다.

모집 과정

기존 다이브 멤버 필수 과제 → (필요시 간단한 커피챗) → 선발(1월 20일)
  • ‘23년 가을 기수 멀티모달 팀원은 필수과제 면제입니다.
신규 모집 멤버 필수 과제 → 면접(1월 27일 토요일) → 선발(1월 29일)
☑️
면접 안내
⚠️ 안내된 바와 다소 차이가 있을 수 있습니다
  • 일시 1월 27일 토요일 오후 2시-10시
  • 구성 다대일 면접, 온라인 ZOOM 면접
  • 내용 딥러닝에 대한 기본적인 지식, 인성, 프로젝트 경험 등
  • 예상 소요 시간 1인당 약 30분
  • 방식
    • 1월 26일 오후 10시 면접 대상자 일정 안내 메일 일괄 발송 예정
    • 1월 27일 오전 10시 면접 링크 전송 예정
    • 면접 메일을 읽지 않아 생기는 불이익은 책임지지 않습니다.

과제 안내

필수 과제
[리서치팀] Stable Diffusion or CLIP 원리 설명
  • Stable Diffusion: High-Resolution Image Synthesis with Latent Diffusion Models [arXiv] [pdf]
  • CLIP: Learning Transferable Visual Models From Natural Language Supervision [pdf]
    • CLIP 논문은 분량이 굉장히 긴 관계로, 8p 분량의 pdf로 읽어주시면 됩니다. (상단 링크 첨부)
[프로젝트팀] UNet, Transformer(Attention) 원리 설명
  • U-Net: Convolutional Networks for Biomedical Image Segmentation [arXiv] [pdf]
  • (2024.01.21 수정) 오토인코더(AutoEncoder)는 제외합니다.

과제 목적
  • [리서치팀]
    • 멀티모달의 대표적인 모델인 스테이블 디퓨전(Stable Diffusion)과 CLIP에 대한 이해도와 논문을 읽는 역량에 대해 판단하기 위한 과제입니다.
  • [프로젝트팀]
    • Text-to-Image Generation 대표적인 모델인 스테이블 디퓨전(Stable Diffusion)을 이해하기 위한 선수 지식이며, 기초 역량을 검증하기 위한 과제입니다.
  • 공통 주의사항
    • 자신이 이해한대로 자유롭게 작성합니다. 단, 1) 이 모델이 왜 등장했으며(등장 배경), 2) 모델의 핵심 구조 및 아이디어는 무엇인지 기술해주시면 됩니다. 논문의 순서를 따라가며 논문 리뷰를 하는 것이 아니라, 이해한 내용을 남에게 전달하기 위해 정리한다 생각하고 작성해 주셔야 합니다. 분량 제한은 없지만, 성의껏 작성해야 합니다.

과제 양식
Research Team Baseline [Notion]
Project Team Baseline [Notion]
제목은 통일이며, [Name] 부분을 자신의 이름으로 변경해주시면 됩니다.

⚠️ 과제 제출 방법
노션 템플릿 복제 후 과제를 작성하여 제출하실 경우, 아래 두 설정을 반드시 모두 완료해주셔야 합니다.
  1. 우측 상단 공유 - 공유 - Notion의 링크가 있는 모두로 공유 대상 변경
  1. 우측 상단 공유 - 게시 - 웹에 게시 클릭 후 템플릿 복제 허용
기존 기수 슬랙 DM(조유림) 노션 링크 제출
신규 기수 구글 폼 노션 링크 제출
공유 설정이 잘못되어 생기는 불이익은 책임지지 않습니다.


이런 팀원과 함께하고 싶어요!

  1. 딥러닝 기본 지식을 가지고 있어야 합니다.
    1. 멀티모달은 두 가지의 모달리티를 다루는 분야인만큼 딥러닝 기본 지식을 반드시 필요로 합니다. 따라서 인공지능이 처음이실 경우 힘드실 수 있습니다.
  1. 10주간 딥 다이브 하실 수 있어야 합니다.
    1. 다이브 활동은 많은 시간을 요구합니다. 따라서 충분히 다이브 활동에 집중하실 수 있는 분들이셨으면 좋을 것 같습니다.
[리서치 팀에 지원할 경우]
  1. 코드 경험이 어느 정도 있어야 합니다.
    1. 실제 본인의 아이디어를 구현하려면 반드시 모델 구조를 파헤쳐 보는 시간을 필요로 합니다. 물론 멘토로서 도와드릴 예정이지만, 코드 경험이 있으신 분들이 지원해주시면 감사드리겠습니다. (파이썬을 다룰 줄 알면 충분합니다.)

FAQ

딥러닝 기본 지식이면 어느 정도 알고 있어야 하나요?
프로젝트팀의 선수 과제인 UNet, Transformer 논문을 읽고 이해하실 정도면 충분합니다. 즉 과제를 완수하면 멀티모달 분야에 함께할 준비가 된 상태라고 볼 수 있습니다.
리서치팀에 지원하고 싶은데 멀티모달은 처음이에요.
트랜스포머, 어텐션에 대해 충분히 숙지하고 계시면 지원 가능합니다. 다만, 코드를 다룰 일이 많을 수 있으니 코드 짜는 것에 익숙지 않은 분들은 힘드실 수 있습니다. 물론 코드 구현 과정에서 멘토가 도움을 드리기 때문에 높은 실력을 요구하진 않으니 편하게 지원해주시기 바랍니다.
그 외에도 질문이 있다면 이메일(manager@deepdaiv.com)로 문의 주시기 바랍니다.

주차 별 활동 계획

🎇
활동 계획
  • 프로젝트팀과 리서치팀 모두 목요일 오후 9시에 세션을 진행합니다.
  • ‘23년 가을기수 멀티모달 분야에 참여했었던 경우, 다른 논문으로 진행할 예정입니다.
  • 리서치팀의 경우 딥러닝 아키텍처팀과 합동 세미나를 진행할 예정입니다. (시간 조율 예정)
프로젝트팀
주차
활동 내용
1주차
OT
2주차
CLIP | Project Ideation
3주차
Stable Diffusion | 데이터 수집
4주차
프로젝트 (1)
5주차
프로젝트 (2)
6주차
팀 세미나
7주차
프로젝트 (3)
8주차
프로젝트 (4)
9주차
프로젝트 데모 준비
10주차
프로젝트 리허설
11주차
프로젝트 회고
리서치팀
주차
활동 내용
1주차
OT
2주차
Project Ideation
3주차
관련 논문 읽기 (1)
4주차
프로젝트 (1)
5주차
프로젝트 (2)
6주차
팀 세미나
7주차
프로젝트 (3)
8주차
프로젝트 (4)
9주차
프로젝트 데모 준비
10주차
프로젝트 리허설
11주차
프로젝트 회고