Multimodal
🦥

Multimodal

멘토
세션 시간
세션 시간 토요일 오전 11시 - 오후 1시 (부분 대면)
모집 인원
모집 인원 6~8명 (2개 팀)
과제 및 면접
과제 O | 면접 O
cleanUrl: "24su-challenge/multimodal"

🗒️ Multimodal 2024 여름 커리큘럼


모집 인원 6~8명 (2개 팀)
활동 시간 매주 토요일 오전 11시 ~ 오후 1시
활동 방법 주 1회 대면&비대면(격주) 정기 세션 + 주 1회 필수 팀별 미팅(대면 권장)

Overview

모달리티(Modality)란 ‘양식’이라는 뜻으로 딥러닝에서는 데이터의 형태를 의미합니다. 그 중에서도 멀티모달 딥러닝(Multi-Modal Deep Learning)두 가지 이상의 서로 다른 양상을 가진 모달리티를 사용하여 문제를 해결합니다. 이전에는 이미지 분류를 위해 이미지 모달리티 하나만을 사용했다면, 멀티 모달에서는 이미지와 텍스트 데이터를 함께 사용하는 것입니다.
최근 Chat-GPT 4o 또한 Omni modal의 o를 차용하며 다양한 모달리티의 정보를 함께 활용하는 것의 중요성은 점점 더 대두되고 있습니다. 이는 마치 인간이 새로운 것을 배워나갈 때 한 가지 감각이 아닌 여러 가지 감각에 의존하여 경험하고 또 지식을 쌓는 것과 유사하다고 할 수 있습니다. 그래서 종종 멀티모달 딥러닝은 인간의 사고 방식과 유사해지는 과정을 연구하는 분야라고도 합니다.
 
‘24년 딥 다이브 여름 기수 멀티모달분야에서는 다음과 같은 목표를 가지고 있습니다:
  1. 기존 연구의 문제점과 해결 방안을 깊게 고민해보기
  1. 프로젝트 결과보다 과정에 집중하여 풍부한 프로젝트 스토리 만들기
 
좋은 프로젝트란 무엇일까요? 보통 결과물이 화려하고 잘 나온 프로젝트라고 말할 수도 있지만, 저의 경우 “충실하게 깊이 탐색해본 프로젝트”라고 생각합니다. 여러분이 멀티모달 분야라는 심화 과정에 지원하는 이유는 엔지니어나 리서처가 하고 싶어서 지원하는 이유가 있다고 생각합니다.
자소서와 면접에 분명 좋은 결과물을 보여주는 프로젝트가 있어야 할 수도 있지만, 이에 못지 않게 중요한 것은 “프로젝트를 깊이 파 본 경험” 또한 있어야 한다고 생각합니다. 또한 코드 구현 경험과 문제 해결을 위한 과정은 반드시 다른 프로젝트에서 따라서, 멀티모달 분야는 성공을 향한 과정에 더 집중하여 프로젝트를 진행하고자 합니다.
‘24년 딥 다이브 여름 기수에서는 3-4명으로 구성된 리서치 2팀(혹은 프로젝트 1팀 & 리서치 1팀)을 모집할 예정입니다. 리서치팀의 경우 미세조정(Fine-Tuning)은 일절 진행되지 않습니다. 사전 학습된 거대 모델을 사용할 수는 있으나, 효율적 학습을 위한 모듈을 추가하는 등 딥러닝 아키텍처를 설계하는 방향으로 프로젝트를 진행해나갈 예정입니다. 리서치 위주의 해당 분야 진행을 지향하나, 지원자의 선호를 보아 프로젝트 1팀의 운영 여부를 정하겠습니다.
다른 멘토분들과 달리 엄청난 새로운 아이디어를 제시하거나 코드를 대신 작성해준다던가 하는 도움은 많이 드리지 못 할 수 있습니다. 하지만 멘토이자 한 명의 참여자로서 멀티모달 분야에 대해 같이 공부하고 이야기하고 생각하는 활동이 될 수 있도록 최선을 다해 도와드리겠습니다.
 

deep daiv. Multimodal 분야 GitHub

아래는 ‘23년 가을, ‘24년 겨울, ‘24년 봄 기수에서 진행한 프로젝트 코드를 아카이빙한 깃허브입니다.

모집 과정

기존 기수 멤버 필수 과제 → 선발
신규 모집 멤버 필수 과제 → 면접(7월 27일 토요일) → 선발
☑️
면접 안내
⚠️ 안내된 바와 다소 차이가 있을 수 있습니다
  • 일시 7월 27일 일요일 오전 10시-오후 2시
  • 구성 다대일 면접, 온라인 ZOOM 면접
  • 내용 딥러닝에 대한 기본적인 지식 및 프로젝트 협업 능력
  • 예상 소요 시간 1인당 약 30분
  • 방식
    • 7월 26일 오후 10시 면접 대상자 일정 안내 메일 일괄 발송 예정
    • 7월 27일 오전 9시 면접 링크 전송 예정
    • 면접 메일을 읽지 않아 생기는 불이익은 책임지지 않습니다.

과제 안내

필수 과제(수료 + 신규 공통)
지정 논문 paper review 작성하기 + 아래 질문 대답 작성
🍳이전 기수 중 다이브 멀티모달 분야 활동에 참여한 적이 있다면 필수 과제 및 면접 면제입니다.
Q1. 위에서 제시된 논문 ‘MaPLe:Multi-modal prompt learning’을 읽고, paper review를 작성해주세요. 해당 논문의 방법론을 본인만의 언어로 정리하여 설명하고 본인의 의견을 함께 제시해주시기 바랍니다.
Q2. 본인이 참여했던 인공지능 관련 프로젝트(어떤 모델을 활용했는지, 왜 해당 모델을 활용했는지 등)와 해당 프로젝트에서 본인이 수행했던 역할에 대해서 설명해주세요. 만약 본인이 수행했던 인공지능 관련 프로젝트가 없다면 가장 열심히 참여했던 프로젝트와 해당 프로젝트에서의 역할에 대해서 설명해주세요.
Q3. 멀티모달 내에서 어떤 태스크 혹은 주제와 관심이 깊은지 그 이유와 함께 설명해주세요. 또한 리서치 팀에 참여를 희망하는지 프로젝트 팀에 참여를 희망하는지 작성하고 각 해당 분야에서 어떤 내용으로 해당 활동을 진행하고 싶은지 본인의 생각을 알려주세요.
Q4. 다이브 활동을 깊은 참여를 필요로 합니다. 관련하여 본인의 의지 혹은 결심들을 작성해주세요.
 
 

과제 목적
  • 멀티 모달이라는 분야 내에서도 방법론, 태스크 적인 측면에서 다양한 논문들이 존재합니다. 그리고 해당 활동을 하며 본인이 정한 주제와 관련하여 많은 논문들을 읽고, 팀원들과 의견을 나누게 될 것입니다. 본 과제는 해당 기간 동안 무리 없이 논문을 이해하고 생각을 정리할 수 있는지는 파악하기 위함입니다.
  • 타인의 리뷰를 그대로 가져오는 행위 등을 방지하기 위해 기초적인 논문이 아닌 임의 논문을 선정하였습니다. 완벽한 이해와 정리를 원하는 것이 아니며 최대한 본인이 이해한 내용을 해당 논문을 처음 읽는 사람들에게 전달한다는 생각으로 정리해주시기 바랍니다. 방법론의 모든 부분을 이해하지 못하셨더라도 이해하신만큼 정리해주시면 될 것 같습니다.
  • 나머지 4개의 질문의 경우 지원자의 관심도와 의지 그리고 활동 방향에 대한 선호를 확인하기 위함입니다. 글자수의 제한은 따로 두지 않지만, 적정한 범위 내에서 작성해주시면 될 것 같습니다.

과제 양식
  • 정해진 형식은 없습니다. 관련하여 본인이 이해한 내용들을 본인의 말들로 정리해주세요(논문을 그대로 번역하여 요약만 하는 것은 지양해주시기 바랍니다).
  • 작성한 응답을 pdf로 저장하여 제출해주시기 바랍니다.

⚠️ 과제 제출 방법
기존 기수 슬랙 DM(양희재)로 제출
신규 기수 구글 폼 노션 링크 제출
 

이런 팀원과 함께하고 싶어요!

  1. 중요도 ⭐⭐⭐⭐⭐ 10주간 딥 다이브 하실 수 있어야 합니다.
    1. 다이브 활동 중에서도 특히 멀티모달팀은 코드를 구현하고 많은 실험을 진행해야 하기 때문에 많은 시간을 필요로 합니다. 그리고 시간을 많이 투자할수록 양질의 과정과 결과가 모두 수반됩니다. 그렇기 때문에 오롯이 프로젝트에 집중하실 수 있는 분이면 좋겠습니다.
  1. 딥러닝 기본 지식을 가지고 있어야 합니다.
  1. TensorFlow, PyTorch 사용한 경험이 있어야 합니다.
    1. 딥러닝 구조를 코드 상에서 구현하기 위해서는 필수 라이브러리인 TensorFlow나 PyTorch를 사용할 수 있어야 합니다. 처음 접하시는 분들은 다소 어려울 수 있습니다.

FAQ

딥러닝 기본 지식이면 어느 정도 알고 있어야 하나요?
딥러닝 관련 논문들과 코드를 본 경험이 있다면 가능합니다. 하지만 딥러닝 논문을 한 번도 읽어보신 적이 없으시다면 다른 분들보다 훨씬 많은 시간을 투자할 각오를 해주셔야 합니다.
지원하고 싶은데 멀티모달은 처음이에요.
트랜스포머, 어텐션에 대해 충분히 숙지하고 계시면 지원 가능합니다. 멀티모달 자체에 대한 공부의 경험이 따로 필요하지는 않지만 자연어, 비전 등의 다른 영역의 딥러닝 모델에 대한 공부 경험이 있다면 훨씬 수월하게 참여할 수 있습니다.
딥러닝 아키텍처 팀과 무엇이 다른가요?
‘24 여름 기수 멀티모달팀이 진행할 프로젝트의 방향성은 딥러닝 아키텍처팀과 다를 것이 없습니다. 다만, 멀티모달 팀의 경우 반드시 두 가지 이상의 모달리티 데이터를 사용하여 진행할 예정입니다.
그 외에도 질문이 있다면 이메일(manager@deepdaiv.com)로 문의 주시기 바랍니다.

주차 별 활동 계획

🎇
활동 계획
  • 매주 토요일 오전 11시-오후1시 세션을 진행할 예정입니다.
  • 격주로 강남역 부근에서 대면 세션을 진행할 예정입니다. 시간은 동일하게 매주 토요일 오전11시-오후1에 이뤄지게 됩니다.(자세한 일정은 아래 표를 참고해주세요. 대면 날짜의 세부 일정은 추후 변동될 수 있습니다.)
특이 사항
  • 딥러닝 아키텍처 팀과 합동 세미나가 있을 예정입니다. (시간 조율 중)
  • 8/17에는 딥다이브 토요일 활동 분야 간 합동 세션이 있을 예정으로, 해당 일의 세션은 오후 1시 이후에 진행될 예정입니다.
 
🌊
간단한 활동 흐름
어떤 태스크를 풀어낼 것인지 선정하고, 관련 논문을 통해 코드가 오픈소스로 공개되어 있는 모델을 베이스라인으로 잡습니다. 그 후 베이스라인 논문과 코드를 통해 추가적인 문제 해결 방법을 위한 논문 읽기와 코드 구현 및 실험 진행 방식으로 진행됩니다.
주차
활동 내용
1주차
OT
8월 3일(대면)
2주차
주제 및 관련 논문 선정
8월 10일(비대면)
3주차
관련 논문 읽기 (1)
8월 17일(대면)
4주차
관련 논문 읽기(2) + 프로젝트 아이디어 구상
8월 24일(비대면)
5주차
프로젝트 (1)
8월 31일(대면)
6주차
팀 세미나
9월 4일
7주차
프로젝트 (2)
9월 7일(비대면)
8주차
프로젝트 (3)
9월 14일(대면)
9주차
프로젝트(4)
9월 21일(비대면)
10주차
프로젝트 리허설
9월 28일(대면)
11주차
오픈 세미나
10월 5일