🗒️ NLP 2024 겨울 커리큘럼
모집 인원 최대 2개 팀(6명)
활동 시간 매주 토요일 오후 2시 - 3시
활동 방법 주 1회 비대면 정기 세션 + 주 1회 필수 팀별 미팅(대면 권장)
💡 팀원 전원 협의 시 대면 정기 세션이 진행될 수 있습니다.
🤗 AI와 대화하는 시대에 살고 있다는 것, 얼마나 신나는 일인가요?
ChatGPT의 등장 이후 인공지능에 대한 관심은 폭발적으로 증가했습니다. 이제 AI는 뉴스 밖으로 나와 우리의 일상 대화 속에도 스며들었습니다. 그리고 이 모든 변화의 중심에는 자연어 처리라는 기술이 자리잡고 있죠! 자연어 처리란, 인간의 언어를 컴퓨터가 이해하고 활용할 수 있도록 만드는 기술입니다. 그렇다면 자연어 처리가 특별한 이유는 무엇일까요? 우리의 사고와 소통은 모두 언어를 매개로 이루어집니다. 인간과 같이 언어로 생각하고 동작하는 프로그램을 만들 수 있다면, 우리는 언젠가 인공지능 연구의 종착지라고 불리는 인공일반지능, AGI에 도달할 수 있을 것입니다!
🤔 모집인원과 대상이 어떻게 되나요?
모집 인원은 6~8명으로 최대 두 팀을 구성하여 활동합니다. 인공지능과 자연어처리에 관심이 있는 분이라면 누구나 지원할 수 있습니다. 데이터 전처리나 웹 크롤링 경험이 있다면 도움이 되지만, 기본적인 파이썬 코딩 능력만 있어도 충분합니다. 필요한 지식과 기술은 daiv.에서 함께 공부하면 됩니다 😄 약 3개월의 기간동안 집중해서 학습하고 성장을 향한 열정과 의지만 있다면, 주저하지 말고 도전하세요!
🤔 NLP 팀의 목표가 어떻게 되나요?
사실 인공지능과 자연어처리를 단기간에 공부하는 건 정말 어려운 일입니다. 하지만 이 분야의 기본 원리를 이해하고, 이를 바탕으로 기획한 프로젝트 경험을 쌓기에는 부족하지 않은 시간이라고 생각합니다. 활동을 마친 후 여러분은 인공지능과 자연어처리가 무엇인지, 그리고 이 기술을 활용하여 문제를 해결하는 방법에 대해 알게 될 것입니다. 사실, 너무 부담가질 필요는 없습니다. 여러분이 자연어처리에 흥미를 느끼고, 이 분야를 더 깊이 공부해보고 싶다는 생각을 하게 된다면 그것만으로도 충분합니다!
주차별 계획
활동 내용과 시간은 진행 상황을 고려하여 변경될 수도 있습니다.
주차 | 활동 내용 |
1주차 | OT: 딥러닝과 자연어처리 개요 |
2주차 | 인코더-디코더 아키텍처와 어텐션 메커니즘 |
3주차 | Language Models: GPT, BERT |
4주차 | Large Language Models: PEFT, Prompt Engineering |
5주차 | 데이터 수집부터 전처리까지 |
6주차 | Huggingface를 사용한 모델 구현 |
7주차 | 프로젝트 데모 준비 |
8주차 | 프로젝트 데모 준비 |
9주차 | 프로젝트 리허설 |
필수 과제
필수 과제
Deep Learning 아티클 정리
인공지능계의 석학이신 Yann Lecun, Yoshua Bengio, Geoffrey Hinton이 머신러닝과 딥러닝의 전반을 소개한 내용을 담아 네이처지에 게재한 글입니다. 인공지능 분야를 공부하다보면, 논문을 읽을 일이 정말 많습니다. 이 글은 입문자에게 이 분야에 대한 전반적인 지식을 제공할 뿐만 아니라, 논문 읽기에 대한 문턱을 낮추는 데도 많은 도움이 됩니다.
- 논문을 읽고, 이해한 내용을 정리해주세요. 형식과 분량은 자유입니다. 템플릿 복제 허용 상태로 개인 노션에 작성 후 링크를 공유합니다.
- 정리한 글 밑에 인공지능 분야에 관심을 갖게 된 계기, 특별히 자연어처리를 공부하고 싶은 이유에 대해서 간단히 말씀해주세요.
과제를 작성한 후 노션 링크를 구글폼에 첨부해주시기 바랍니다.
기존 daiv. 수료 팀원 과제
필수 과제
NLP 문제 정의 및 해결 방법을 생각해보기
NLP 기술을 사용하여 해결하고 싶은 문제를 하나 정의해주세요. 문제 해결을 위한 모델을 구현했을 때, 이를 평가하는 데 사용할 수 있는 벤치마크 데이터셋과 지표(metric)은 무엇일까요? 아마 여러분이 정의한 문제에 대한 해결 능력을 평가 하는데 딱 알맞은 기존 데이터셋과 지표가 없을 수도 있습니다. 그렇다면 기존의 데이터셋과 지표는 어떤 문제와 한계를 갖고 있나요? 이를 극복하려면 어떻게 해야 할까요? 이 내용에 대해서 형식과 분량에 제한 없이, 자유롭게 의견을 작성해주세요.
과제 제출은 슬랙 DM(강민재)으로 작성한 내용을 보내주시면 됩니다.
💡 마땅한 주제가 떠오르지 않는다면, 기존의 태스크를 주제로 삼아 작성해주셔도 됩니다. 다음은 과제에 대한 간단한 예시입니다.
기계 번역(Machine Translation, MT)을 평가하는 대표적인 벤치마크 데이터셋에는 WMT가 있습니다. 이 데이터셋은 번역 모델의 성능을 평가할 때 널리 사용되며, 대부분의 데이터가 뉴스 기사를 기반으로 제작되었다는 특징이 있습니다. 결국 WMT 데이터셋은 특정 도메인에 집중되어 있다는 한계를 갖습니다. 뉴스 기사는 정향화된 언어와 문체를 사용하므로 일상 대화나 SNS 텍스트와 같이 비공식적인 언어 스타일에 대한 평가가 어렵다는 단점도 있습니다.
기계 번역 품질을 자동으로 평가하는 메트릭에는 BLEU, METEOR, TER 등이 있습니다. BLEU는 대표적인 평가지표이지만, -gram precision을 기반으로 설계되었기 때문에 문장의 의미, 구조, 동의어 등을 고려하지 못한다는 한계를 갖습니다.