일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- Eliza
- GPT-1
- Conversation System
- ai-tech
- text classification
- KLUE-RE
- 백준
- BELU
- Relation Extraction
- scaled dot-product attention
- layer normalization
- NLP
- FSML
- multi-head attention
- Transformers
- boj
- Transformer
- pytorch
- huggingface
- KLUE
- BoostCamp
- Prompt Tuning with Rules for Text Classification
- 취업
- BLEU Score
- Chatbot
- beam search
- fine-tuning
- Dialogue System
- MT-DNN
- bert
Archives
- Today
- Total
목록MT-DNN (1)
dukim's blog
[WK07-Day033][21.09.16.Thu] BERT, MT-DNN, GPT-3, ALBERT, ELECTRA, ETC
Intro 강의에서 소개된 논문 + 멘토링에서 다룬 논문 요약 학습 내용 [논문 읽기 모임] BERT, MT-DNN BERT Devlin et al., BERT : Pre-training of deep bidirectional transformers for language understanding, NAACL 2019BERT vs GPT-1 vs ELMo BERT는 단방향이 아닌 양방향 학습을 통해 성능을 높임(Transformer의 Encoder 사용) ELMo는 bi-LM을 사용하지만 중간 레이어는 단방향이므로 Shallow Bi-directional GPT-1은 단어 시퀀스를 단방향으로 학습(Causal LM) 주요 특징 Special token : [CLS], [SEP], [MASK], [PAD]..
Boostcamp AI Tech 2th
2021. 9. 27. 06:43