[Deep Learning] LSTM을 직접 구현해보자!

AI/Deep Learning

[Deep Learning] LSTM을 직접 구현해보자!

sangwonYoon 2023. 3. 29. 23:58

LSTM Cell

위 그림은 LSTM Cell의 구조이다.

LSTM의 Cell을 구현한 코드는 아래와 같다.

from typing import Optional, Tuple

import torch
from torch import nn

class LSTMCell(nn.Module):

    def __init__(self, input_size: int, hidden_size: int):
        super().__init__()
        self.hidden_lin = nn.Linear(hidden_size, 4 * hidden_size)
        self.input_lin = nn.Linear(input_size, 4 * hidden_size, bias = False)

    def forward(self, x: torch.Tensor, h: torch.Tensor, c: torch.Tensor):
        ifgo = self.hidden_lin(h) + self.input_lin(x)
        i, f, g, o = ifgo.chunk(4, dim = -1) # ifgo 텐서를 4등분한다.
        c_next = torch.sigmoid(f) * c + torch.sigmoid(i) * torch.tanh(g)
        h_next = torch.sigmoid(o) * torch.tanh(c_next)

        return h_next, c_next

h와 x가 각각 self.hidden_lin, self.input_lin를 통해 선형 변환 한 뒤 합쳐지기 때문에 self.input_lin에 bias가 없어도 된다.

    def forward(self, x: torch.Tensor, h: torch.Tensor, c: torch.Tensor):
        ifgo = self.hidden_lin(h) + self.input_lin(x)

        i, f, g, o = ifgo.chunk(4, dim = -1) # ifgo 텐서를 4등분한다.

        c_next = torch.sigmoid(f) * c + torch.sigmoid(i) * torch.tanh(g)

        h_next = torch.sigmoid(o) * torch.tanh(c_next)
	
        return h_next, c_next

LSTM

위 그림은 2층짜리 LSTM의 구조이다.

LSTM의 구현 코드는 아래와 같다.

class LSTM(nn.Module):

    def __init__(self, input_size: int, hidden_size: int, n_layers: int):
        super().__init__()
        self.n_layers = n_layers
        self.hidden_size = hidden_size
        self.cells = nn.ModuleList([LSTMCell(input_size, hidden_size)] + [LSTMCell(hidden_size, hidden_size) for _ in range(n_layers - 1)])

    def forward(self, x: torch.Tensor, state: Optional[Tuple[torch.Tensor, torch.Tensor]] = None):
        seq_len, batch_size = x.shape[:2] # x의 크기 : [seq_len, batch_size, input_size]

        if state is None:
            h = [x.new_zeros(batch_size, self.hidden_size) for _ in range(self.n_layers)]
            c = [x.new_zeros(batch_size, self.hidden_size) for _ in range(self.n_layers)]
        else:
            (h, c) = state
            h, c = list(torch.unbind(h)), list(torch.unbind(c))

        out = []
        for t in range(seq_len):
            input = x[t]
            for layer in range(self.n_layers):
                h[layer], c[layer] = self.cells[layer](input, h[layer], c[layer])
                input = h[layer]
            out.append(h[-1])

        out = torch.stack(out)
        h = torch.stack(h)
        c = torch.stack(c)

        return out, (h, c)

코드를 자세히 살펴보자.

class LSTM(nn.Module):

    def __init__(self, input_size: int, hidden_size: int, n_layers: int):
        super().__init__()
        self.n_layers = n_layers
        self.hidden_size = hidden_size
        self.cells = nn.ModuleList([LSTMCell(input_size, hidden_size)] + [LSTMCell(hidden_size, hidden_size) for _ in range(n_layers - 1)])

첫번째 layer의 LSTM Cell은 x를 입력으로 받지만,
두번째 이후 layer의 LSTM Cell은 h를 입력으로 받기 때문에 LSTM Cell의 input size를 달리 한다.

    def forward(self, x: torch.Tensor, state: Optional[Tuple[torch.Tensor, torch.Tensor]] = None):
        seq_len, batch_size = x.shape[:2] # x의 크기 : [seq_len, batch_size, input_size]

        if state is None:
            h = [x.new_zeros(batch_size, self.hidden_size) for _ in range(self.n_layers)]
            c = [x.new_zeros(batch_size, self.hidden_size) for _ in range(self.n_layers)]
        else:
            (h, c) = state
            h, c = list(torch.unbind(h)), list(torch.unbind(c))

state 파라미터를 통해 초기 hidden state와 cell state의 정보가 전달된 경우 해당 값을 사용하고,
전달되지 않은 경우 0 값으로 채운 텐서를 생성한다.

hidden state와 cell state의 크기는 [n_layers, batch_size, hidden_size]이다.

        out = [] # 각 time step에서 제일 마지막 layer의 hidden state를 담는 리스트
        for t in range(seq_len):
            input = x[t]
            for layer in range(self.n_layers):
                h[layer], c[layer] = self.cells[layer](input, h[layer], c[layer])
                input = h[layer]
            out.append(h[-1])

LSTM Cell을 통해 h[layer]과 c[layer]의 값이 갱신된다.

        out = torch.stack(out)
        h = torch.stack(h)
        c = torch.stack(c)

        return out, (h, c)

h와 c는 각각 마지막 time step의 모든 layer에서의 hidden state와 cell state를 stack한 것이다.

저작자표시 (새창열림)

'AI > Deep Learning' 카테고리의 다른 글

[Deep Learning] RNN의 구조 (2)	2023.03.24
[Deep Learning] modern CNN의 특징 (0)	2023.03.24
[Deep Learning] Regularization (0)	2023.03.21
[Deep Learning] 최적화 기법 (0)	2023.03.21
[Deep Learning] 모델 최적화를 위한 중요한 개념들 (0)	2023.03.21

현재글[Deep Learning] LSTM을 직접 구현해보자!

선한 영향력을 나누는 지속 가능한 개발자가 되기 위해 공부중입니다.

부스트캠프 AI TECH, airflow, 판다스, 파이썬, 파이썬 테스트, 부스트캠프 AI Tech 5기, github actions, Andrew Ng, pytest, LSTM, 부스트캠프, pandas, mojo, pytorch, 논문 리뷰, 네이버 부스트캠프, numpy, 넘파이, github, prompt engineering,

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

지식을 나누면 두배로