성씨 국적 분류 데이터셋 다운로드

이번 장에서는 RNN을 이용한 성씨 국적 분류 예제를 진행하며 RNN의 기본 성질과 앞서 공부한 엘만 RNN 모델을 활용하는 방법을 배워보겠습니다.

파이토치의 미니배치 파이프라인

파이토치에서는 NLP 처리를 위해 주어진 텍스트를 일련의 과정을 거쳐 미니배치(mini-batch)형태로 변환하여 모델에 입력으로 전달합니다. 이 과정에는 텍스트의 토큰화, 벡터화, 미니배치로 모으는 과정을 모두 포함합니다. 즉, 미니배치 파이프라인이란 모델에게 사용자 정의 데이터셋을 입력하기 위한 전처리 과정이라고 볼 수 있습니다. 사용자 정의 데이터셋에 파이프라인을 적용하는 과정은 다음과 같습니다.

Dataset 새로운 데이터셋 정의 및 생성

Vocabulary 데이터셋의 토큰을 정수로 매핑하기

Vectorizer Vocabulary를 참고해 데이터셋의 토큰을 정수로 변환하여 벡터화하기

DataLoader Vectorizer가 변환한 벡터 데이터를 모아 미니배치로 만들기

각각의 모듈에 대한 설명과 코드를 순서대로 아래에 작성해두었습니다. 소스코드의 경우, 토글버튼을 누르면 확인할 수 있습니다.

1. Dataset

파이토치에서는 새로운 데이터셋을 사용하기 위해 Dataset 클래스를 상속하고 __init()__, __getitem__(), __len__() 3개의 메서드를 구현해야 합니다. 새로운 데이터셋인 SurnameDataset 클래스의 필요한 값들을 __init__() 함수를 통해 선언하고, 필요한 매서드를 구현해봅시다.

데이터셋 소스코드


from argparse import Namespace
import os
import json

import numpy as np
import pandas as pd
import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader
import tqdm

class SurnameDataset(Dataset):
    def __init__(self, surname_df, vectorizer):
        """
        매개변수:
            surname_df (pandas.DataFrame): 데이터셋
            vectorizer (SurnameVectorizer): 데이터셋에서 만든 Vectorizer 객체
        """
        self.surname_df = surname_df 
        self._vectorizer = vectorizer

        self._max_seq_length = max(map(len, self.surname_df.surname)) + 2

        self.train_df = self.surname_df[self.surname_df.split=='train']
        self.train_size = len(self.train_df)

        self.val_df = self.surname_df[self.surname_df.split=='val']
        self.validation_size = len(self.val_df)

        self.test_df = self.surname_df[self.surname_df.split=='test']
        self.test_size = len(self.test_df)

        self._lookup_dict = {'train': (self.train_df, self.train_size), 
                             'val': (self.val_df, self.validation_size), 
                             'test': (self.test_df, self.test_size)}

        self.set_split('train')
        
        # 클래스 가중치
        class_counts = self.train_df.nationality.value_counts().to_dict()
        def sort_key(item):
            return self._vectorizer.nationality_vocab.lookup_token(item[0])
        sorted_counts = sorted(class_counts.items(), key=sort_key)
        frequencies = [count for _, count in sorted_counts]
        self.class_weights = 1.0 / torch.tensor(frequencies, dtype=torch.float32)

        
    @classmethod
    def load_dataset_and_make_vectorizer(cls, surname_csv):
        """데이터셋을 로드하고 새로운 Vectorizer 객체를 만듭니다
        
        매개변수:
            surname_csv (str): 데이터셋의 위치
        반환값:
            SurnameDataset의 객체
        """
        surname_df = pd.read_csv(surname_csv)
        train_surname_df = surname_df[surname_df.split=='train']
        return cls(surname_df, SurnameVectorizer.from_dataframe(train_surname_df))
        
    @classmethod
    def load_dataset_and_load_vectorizer(cls, surname_csv, vectorizer_filepath):
        """ 데이터셋과 새로운 Vectorizer 객체를 로드합니다.
        캐시된 Vectorizer 객체를 재사용할 때 사용합니다.
        
        매개변수:
            surname_csv (str): 데이터셋의 위치
            vectorizer_filepath (str): Vectorizer 객체의 저장 위치
        반환값:
            SurnameDataset의 인스턴스
        """
        surname_df = pd.read_csv(surname_csv)
        vectorizer = cls.load_vectorizer_only(vectorizer_filepath)
        return cls(surname_df, vectorizer)

    @staticmethod
    def load_vectorizer_only(vectorizer_filepath):
        """파일에서 Vectorizer 객체를 로드하는 정적 메서드
        
        매개변수:
            vectorizer_filepath (str): 직렬화된 Vectorizer 객체의 위치
        반환값:
            SurnameVectorizer의 인스턴스
        """
        with open(vectorizer_filepath) as fp:
            return SurnameVectorizer.from_serializable(json.load(fp))

    def save_vectorizer(self, vectorizer_filepath):
        """Vectorizer 객체를 json 형태로 디스크에 저장합니다
        
        매개변수:
            vectorizer_filepath (str): Vectorizer 객체의 저장 위치
        """
        with open(vectorizer_filepath, "w") as fp:
            json.dump(self._vectorizer.to_serializable(), fp)

    def get_vectorizer(self):
        """ 벡터 변환 객체를 반환합니다 """
        return self._vectorizer

    def set_split(self, split="train"):
        self._target_split = split
        self._target_df, self._target_size = self._lookup_dict[split]

    def __len__(self):
        return self._target_size

    def __getitem__(self, index):
        """파이토치 데이터셋의 주요 진입 메서드
        
        매개변수:
            index (int): 데이터 포인트 인덱스
        반환값:
            다음 값을 담고 있는 딕셔너리:
                특성 (x_data)
                레이블 (y_target)
                특성 길이 (x_length)
        """
        row = self._target_df.iloc[index]
        
        surname_vector, vec_length = \
            self._vectorizer.vectorize(row.surname, self._max_seq_length)
        
        nationality_index = \
            self._vectorizer.nationality_vocab.lookup_token(row.nationality)

        return {'x_data': surname_vector, 
                'y_target': nationality_index, 
                'x_length': vec_length}

    def get_num_batches(self, batch_size):
        """배치 크기가 주어지면 데이터셋으로 만들 수 있는 배치 개수를 반환합니다
        
        매개변수:
            batch_size (int)
        반환값:
            배치 개수
        """
        return len(self) // batch_size

    

def generate_batches(dataset, batch_size, shuffle=True,
                     drop_last=True, device="cpu"): 
    """
    파이토치 DataLoader를 감싸고 있는 제너레이터 함수.
    걱 텐서를 지정된 장치로 이동합니다.
    """
    dataloader = DataLoader(dataset=dataset, batch_size=batch_size,
                            shuffle=shuffle, drop_last=drop_last)

    for data_dict in dataloader:
        out_data_dict = {}
        for name, tensor in data_dict.items():
            out_data_dict[name] = data_dict[name].to(device)
        yield out_data_dict

2. Vocabulary

Vocabulary는 데이터셋의 각 문자 토큰들이 고유한 정수값에 매핑되도록 하는 작업입니다. 딕셔너리 자료형을 이용해 Vocabulary를 관리하는데, 하나의 딕셔너리는 문자를 정수 인덱스에 매핑하고 나머지 딕셔너리는 정수 인덱스를 문자에 매핑합니다.

❗

본 예제에서는 Vocabulary를 상속하는 SequenceVocabulary를 만듭니다. 학습 과정에서 한 번도 본 적 없는 단어가 테스트 과정에서 입력된 경우에는 Vocabulary에서 대응되는 정수값을 찾을 수 없습니다. 이러한 경우에 대해서도 커버하기 위해 SequenceVocabulary에서는 UNK(unknown)과 같은 다양한 특수 토큰을 활용합니다.

unk_token : 학습 과정에서 보지 못해 어휘 사전에 없는 단어가 입력으로 들어온 경우 UNK 토큰으로 처리

mask_token : 가변 길이의 입력을 처리할 때 MASK 토큰을 사용

begin_seq_token : 문장 시작에 BEGIN 토큰을 붙여 모델이 문장 경계를 인식하도록 함

end_seq_token : 문장 시작에 END 토큰을 붙여 모델이 문장 경계를 인식하도록 함

Vocabulary 소스코드


class Vocabulary(object):
    """매핑을 위해 텍스트를 처리하고 어휘 사전을 만드는 클래스 """

    def __init__(self, token_to_idx=None):
        """
        매개변수:
            token_to_idx (dict): 기존 토큰-인덱스 매핑 딕셔너리
        """

        if token_to_idx is None:
            token_to_idx = {}
        self._token_to_idx = token_to_idx

        self._idx_to_token = {idx: token 
                              for token, idx in self._token_to_idx.items()}
        
    def to_serializable(self):
        """ 직렬화할 수 있는 딕셔너리를 반환합니다 """
        return {'token_to_idx': self._token_to_idx}

    @classmethod
    def from_serializable(cls, contents):
        """ 직렬화된 딕셔너리에서 Vocabulary 객체를 만듭니다 """
        return cls(**contents)

    def add_token(self, token):
        """ 토큰을 기반으로 매핑 딕셔너리를 업데이트합니다

        매개변수:
            token (str): Vocabulary에 추가할 토큰
        반환값:
            index (int): 토큰에 상응하는 정수
        """
        if token in self._token_to_idx:
            index = self._token_to_idx[token]
        else:
            index = len(self._token_to_idx)
            self._token_to_idx[token] = index
            self._idx_to_token[index] = token
        return index
            
    def add_many(self, tokens):
        """토큰 리스트를 Vocabulary에 추가합니다.
        
        매개변수:
            tokens (list): 문자열 토큰 리스트
        반환값:
            indices (list): 토큰 리스트에 상응되는 인덱스 리스트
        """
        return [self.add_token(token) for token in tokens]

    def lookup_token(self, token):
        """토큰에 대응하는 인덱스를 추출합니다.
        
        매개변수:
            token (str): 찾을 토큰 
        반환값:
            index (int): 토큰에 해당하는 인덱스
        """
        return self._token_to_idx[token]

    def lookup_index(self, index):
        """ 인덱스에 해당하는 토큰을 반환합니다.
        
        매개변수: 
            index (int): 찾을 인덱스
        반환값:
            token (str): 인텍스에 해당하는 토큰
        에러:
            KeyError: 인덱스가 Vocabulary에 없을 때 발생합니다.
        """
        if index not in self._idx_to_token:
            raise KeyError("the index (%d) is not in the Vocabulary" % index)
        return self._idx_to_token[index]

    def __str__(self):
        return "<Vocabulary(size=%d)>" % len(self)

    def __len__(self):
        return len(self._token_to_idx)

class SequenceVocabulary(Vocabulary):
    def __init__(self, token_to_idx=None, unk_token="<UNK>",
                 mask_token="<MASK>", begin_seq_token="<BEGIN>",
                 end_seq_token="<END>"):

        super(SequenceVocabulary, self).__init__(token_to_idx)

        self._mask_token = mask_token
        self._unk_token = unk_token
        self._begin_seq_token = begin_seq_token
        self._end_seq_token = end_seq_token

        self.mask_index = self.add_token(self._mask_token)
        self.unk_index = self.add_token(self._unk_token)
        self.begin_seq_index = self.add_token(self._begin_seq_token)
        self.end_seq_index = self.add_token(self._end_seq_token)

    def to_serializable(self):
        contents = super(SequenceVocabulary, self).to_serializable()
        contents.update({'unk_token': self._unk_token,
                         'mask_token': self._mask_token,
                         'begin_seq_token': self._begin_seq_token,
                         'end_seq_token': self._end_seq_token})
        return contents

    def lookup_token(self, token):
        """ 토큰에 대응하는 인덱스를 추출합니다.
        토큰이 없으면 UNK 인덱스를 반환합니다.
        
        매개변수:
            token (str): 찾을 토큰 
        반환값:
            index (int): 토큰에 해당하는 인덱스
        노트:
            UNK 토큰을 사용하려면 (Vocabulary에 추가하기 위해)
            `unk_index`가 0보다 커야 합니다.
        """
        if self.unk_index >= 0:
            return self._token_to_idx.get(token, self.unk_index)
        else:
            return self._token_to_idx[token]

3. Vectorizer

Vectorizer는 앞서 정의한 SequenceVocabulary 객체를 활용합니다. Vectorizer는 Vocabulary에서 단어에 대한 정수 인덱스를 받아와 벡터화를 진행합니다. 벡터화는 문장 단위(또는 한 번에 처리할 시퀀스 길이 단위)로 진행됩니다. 벡터화의 결과로 나온 벡터의 길이는 항상 같아야하므로, 빈 자리에 0을 채워넣는 패딩 등의 방법을 사용합니다. 아래에서 벡터화 과정의 예시를 보겠습니다.


[예시]
       원문 :    I Love Deep Daiv
-> 정수 매핑 :    1   5    7    6
-> 토큰 부여 : 8  1   5    7    6   9          (BEGIN, END 토큰을 8, 9 라고 하자)
-> 벡터 패딩 : 8  1   5    7    6   9   0   0  (한 번에 처리하는 길이가 8일 때, 남은 자리 0으로 채우기)

Vectorizer에서 Vocabulary 객체를 생성하기 때문에, Vocabulary가 가질 수 있는 단어의 개수를 제한하거나 특정한 임계값을 지정해 한 두번 등장하는 단어를 Vocabulary에 등록하지 않는 등의 방법으로 단어 노이즈를 제거하고 메모리를 절약하는 역할도 수행합니다.

Vectorizer 소스코드


class SurnameVectorizer(object):
    """ 어휘 사전을 생성하고 관리합니다 """
    def __init__(self, char_vocab, nationality_vocab):
        """
        매개변수:
            char_vocab (Vocabulary): 문자를 정수로 매핑합니다
            nationality_vocab (Vocabulary): 국적을 정수로 매핑합니다
        """
        self.char_vocab = char_vocab
        self.nationality_vocab = nationality_vocab

    def vectorize(self, surname, vector_length=-1):
        """
        매개변수:
            title (str): 문자열
            vector_length (int): 인덱스 벡터의 길이를 맞추기 위한 매개변수
        """
        indices = [self.char_vocab.begin_seq_index]
        indices.extend(self.char_vocab.lookup_token(token) 
                       for token in surname)
        indices.append(self.char_vocab.end_seq_index)

        if vector_length < 0:
            vector_length = len(indices)

        out_vector = np.zeros(vector_length, dtype=np.int64)         
        out_vector[:len(indices)] = indices
        out_vector[len(indices):] = self.char_vocab.mask_index
        
        return out_vector, len(indices)

    @classmethod
    def from_dataframe(cls, surname_df):
        """데이터셋 데이터프레임으로 SurnameVectorizer 객체를 초기화합니다.
        
        매개변수:
            surname_df (pandas.DataFrame): 성씨 데이터셋
        반환값:
            SurnameVectorizer 객체
        """
        char_vocab = SequenceVocabulary()
        nationality_vocab = Vocabulary()

        for index, row in surname_df.iterrows():
            for char in row.surname:
                char_vocab.add_token(char)
            nationality_vocab.add_token(row.nationality)

        return cls(char_vocab, nationality_vocab)

    @classmethod
    def from_serializable(cls, contents):
        char_vocab = SequenceVocabulary.from_serializable(contents['char_vocab'])
        nat_vocab =  Vocabulary.from_serializable(contents['nationality_vocab'])

        return cls(char_vocab=char_vocab, nationality_vocab=nat_vocab)

    def to_serializable(self):
        return {'char_vocab': self.char_vocab.to_serializable(), 
                'nationality_vocab': self.nationality_vocab.to_serializable()}

4. DataLoader

DataLoader는 Vectorizer에서 벡터로 변환한 데이터 포인트들을 미니배치로 모아 작업을 편리하게 해줍니다. DataLoader가 생성한 미니배치를 통해 분류, 분석 모델들이 학습과 테스트를 처리합니다.

미니배치란 학습과 테스트에 데이터 전체를 활용하지 않고 일부만을 활용해 더 빠르게 모델의 가중치를 최적화시키기 위해 데이터를 더 작은 단위로 쪼갠 것을 말합니다. 아래 링크에서 미니배치에 대해 읽어보세요.

[호기심] mini-batch는 왜 사용하는가?

딥러닝에서 한번의 iteration을 위해 들어가는 인풋데이터는 보통 batch라고 하여 수십수백개의 데이터를 한그룹으로 사용하게 됩니다. 그렇다면 mini-batch는 한번의 iteration에 인풋 데이터로 한개를 쓰는 경우와 전체 데이터셋을 쓰는 두 경우(양극단)에 비해 어떤 장점이 있길래 이렇게 당연한 듯이 쓰이는 걸까요. 당연한 말이지만 mini-batch는 두가지 방법의 장점을 모두 얻기 위한(서로의 단점을 보완) 타협점입니다, 아래에서는 두가지 방법의 장단점에 대해 알아보고 왜 mini-batch를 사용하는지 정리해보겠습니다.

https://dambaekday.tistory.com/1

DataLoader 소스코드


def generate_batches(dataset, batch_size, shuffle=True,
                     drop_last=True, device="cpu"): 
    """
    파이토치 DataLoader를 감싸고 있는 제너레이터 함수.
    걱 텐서를 지정된 장치로 이동합니다.
    """
    dataloader = DataLoader(dataset=dataset, batch_size=batch_size,
                            shuffle=shuffle, drop_last=drop_last)

    for data_dict in dataloader:
        out_data_dict = {}
        for name, tensor in data_dict.items():
            out_data_dict[name] = data_dict[name].to(device)
        yield out_data_dict

이전 글 읽기

6-1 순환 신경망 RNN

다음 글 읽기

6-3 RNN 실습 : 성씨 국적 분류(2)

❗

Dictionary 자료형 key와 value가 1대1로 순서 없이 매핑되는 형태의 자료형 ”banana”라는 문자열을 value로 하고, 숫자 ‘5’를 key로 하여 딕셔너리에 저장할 경우, key 값인 5를 통해 “banana” value를 받아올 수 있다. [예시] dict = {5 : “banana”} dict[5] >>> banana

6-2 RNN 실습 : 성씨 국적 분류 (1)