'BERT' 태그의 글 목록

BERT 2

[논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (2)

실험 및 결과 GLUE (General Language Understanding Evaluation) Dataset Training Details batch size: 32 epoch: 3 learning rate: [5e-5, 4e-5, 3e-5, 2e-5] 중 Dev 데이터 셋에서 가장 성능이 좋은 것으로 선택 BERT_LARGE에서 fine-tuning을 진행할 때, 작은 데이터 셋으로 학습하는 경우 불안정한 경우가 확인되어, 몇 차례 random restart 후 Dev 데이터 셋 기준 가장 성능이 좋은 모델로 선택 Result BERT_BASE와 BERT_LARGE 모두 이전 SOTA 모델이었던 OpenAI GPT를 평균 정확도 측면에서 4.5%와 7.0% 능가하는 결과를 보여주었다. 또한, 각..

AI/논문 리뷰 2023.10.03

[논문 리뷰] BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (1)

기존 연구 한계 ELMo의 한계 ELMo는 사전 학습된 language representation을 downstream task에 옮길 때 feature-based 방식을 사용한다. 이 방식은 task에 특화된 모델 구조가 필요하다는 특징이 있다. 또한, 토큰의 contextual representation을 단순히 left-to-right과 right-to-left representation을 concat하는 방식으로 구하는 shallow bidirectional 구조를 갖는다. 2개의 unidirectional 모델을 합쳐 하나의 shallow bidirectional 구조를 만듦으로써 (1) 비용이 2배로 증가하고, (2) Question Answering task에서 right-to-left 모델..

AI/논문 리뷰 2023.10.01

선한 영향력을 나누는 지속 가능한 개발자가 되기 위해 공부중입니다.

부스트캠프 AI Tech 5기, 부스트캠프, pandas, 부스트캠프 AI TECH, mojo, Andrew Ng, github, numpy, 파이썬, prompt engineering, 판다스, 파이썬 테스트, pytorch, 넘파이, airflow, LSTM, github actions, 네이버 부스트캠프, pytest, 논문 리뷰,

일	월	화	수	목	금	토
1	2	3	4	5	6	7
8	9	10	11	12	13	14
15	16	17	18	19	20	21
22	23	24	25	26	27	28
29	30

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

지식을 나누면 두배로

BERT 2

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역