논문 리뷰 3

[논문 리뷰] Attention is All You Need

논문이 다루는 Task Task: Machine Translation WMT 2014 English-to-German translation task input: tokenize된 영어 문장 input_size: (batch size, source_max_length) output: 독일어 token의 probability sequence output_size: (batch size, target_max_length, vocab_size) WMT 2014 English-to-French Translation task input: tokenize된 영어 문장 input_size: (batch size, source_max_length) output: 프랑스어 token의 probability sequence..

AI/논문 리뷰 2023.06.12

[논문 리뷰] Effective Approaches to Attention-based Neural Machine Translation

논문이 다루는 Task Task: Neural Machine Translation Input: English 또는 German 문장 (batch_size, max_len) Output: German 또는 English 문장 (batch_size, max_len) 기존 연구 한계 Hard Alignment를 이용한 NMT 모델링 Hard Alignment에 대한 labeling이 별도로 필요했다. Alignment를 예측 하는 모델, target를 생성하는 모델을 별도로 학습시켜야 했다. Sequence to Sequence learning with neural networks (Sutskever et al. 2014) Encoder와 Decoder 간에 병목 현상이 발생한다. 제안 방법론 Global A..

AI/논문 리뷰 2023.05.05

[논문 리뷰] Sequence to Sequence Learning with Neural Networks

논문이 다루는 Task 본 논문에서는 LSTM을 활용해 높은 정확도로 입력 sequence가 주어졌을 때, 그에 상응하는 출력 sequence를 생성해내는 아키텍쳐를 제안하고, 이를 기계 번역 task에 사용한다. 기존 연구 한계 DNN (Deep Neural Network) DNN은 입력 벡터와 출력 벡터의 차원이 고정적이다. 따라서, 출력 벡터의 차원(출력 sequence의 길이)를 사전에 알기 힘든 Seq2Seq task에는 적합하지 않다. RNN (Recurrent Neural Network) 일반적으로 sequence 학습을 위해서는 RNN을 활용한 encoder와 decoder 구조를 사용한다. 그러나 이 방법은 long-term dependency 문제로 인해 이전의 정보들이 뒤로 갈수록 보..

AI/논문 리뷰 2023.03.28