AI/논문 리뷰 5

[논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2)

실험 및 결과 GLUE (General Language Understanding Evaluation) Dataset Training Details batch size: 32 epoch: 3 learning rate: [5e-5, 4e-5, 3e-5, 2e-5] 중 Dev 데이터 셋에서 가장 성능이 좋은 것으로 선택 BERT_LARGE에서 fine-tuning을 진행할 때, 작은 데이터 셋으로 학습하는 경우 불안정한 경우가 확인되어, 몇 차례 random restart 후 Dev 데이터 셋 기준 가장 성능이 좋은 모델로 선택 Result BERT_BASE와 BERT_LARGE 모두 이전 SOTA 모델이었던 OpenAI GPT를 평균 정확도 측면에서 4.5%와 7.0% 능가하는 결과를 보여주었다. 또한, 각..

AI/논문 리뷰 2023.10.03

[논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (1)

기존 연구 한계 ELMo의 한계 ELMo는 사전 학습된 language representation을 downstream task에 옮길 때 feature-based 방식을 사용한다. 이 방식은 task에 특화된 모델 구조가 필요하다는 특징이 있다. 또한, 토큰의 contextual representation을 단순히 left-to-right과 right-to-left representation을 concat하는 방식으로 구하는 shallow bidirectional 구조를 갖는다. 2개의 unidirectional 모델을 합쳐 하나의 shallow bidirectional 구조를 만듦으로써 (1) 비용이 2배로 증가하고, (2) Question Answering task에서 right-to-left 모델..

AI/논문 리뷰 2023.10.01

[논문 리뷰] Attention is All You Need

논문이 다루는 Task Task: Machine Translation WMT 2014 English-to-German translation task input: tokenize된 영어 문장 input_size: (batch size, source_max_length) output: 독일어 token의 probability sequence output_size: (batch size, target_max_length, vocab_size) WMT 2014 English-to-French Translation task input: tokenize된 영어 문장 input_size: (batch size, source_max_length) output: 프랑스어 token의 probability sequence..

AI/논문 리뷰 2023.06.12

[논문 리뷰] Effective Approaches to Attention-based Neural Machine Translation

논문이 다루는 Task Task: Neural Machine Translation Input: English 또는 German 문장 (batch_size, max_len) Output: German 또는 English 문장 (batch_size, max_len) 기존 연구 한계 Hard Alignment를 이용한 NMT 모델링 Hard Alignment에 대한 labeling이 별도로 필요했다. Alignment를 예측 하는 모델, target를 생성하는 모델을 별도로 학습시켜야 했다. Sequence to Sequence learning with neural networks (Sutskever et al. 2014) Encoder와 Decoder 간에 병목 현상이 발생한다. 제안 방법론 Global A..

AI/논문 리뷰 2023.05.05

[논문 리뷰] Sequence to Sequence Learning with Neural Networks

논문이 다루는 Task 본 논문에서는 LSTM을 활용해 높은 정확도로 입력 sequence가 주어졌을 때, 그에 상응하는 출력 sequence를 생성해내는 아키텍쳐를 제안하고, 이를 기계 번역 task에 사용한다. 기존 연구 한계 DNN (Deep Neural Network) DNN은 입력 벡터와 출력 벡터의 차원이 고정적이다. 따라서, 출력 벡터의 차원(출력 sequence의 길이)를 사전에 알기 힘든 Seq2Seq task에는 적합하지 않다. RNN (Recurrent Neural Network) 일반적으로 sequence 학습을 위해서는 RNN을 활용한 encoder와 decoder 구조를 사용한다. 그러나 이 방법은 long-term dependency 문제로 인해 이전의 정보들이 뒤로 갈수록 보..

AI/논문 리뷰 2023.03.28