일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- KLUE
- KLUE-RE
- Transformer
- text classification
- Chatbot
- scaled dot-product attention
- FSML
- layer normalization
- Transformers
- BLEU Score
- Conversation System
- Prompt Tuning with Rules for Text Classification
- NLP
- BoostCamp
- MT-DNN
- multi-head attention
- ai-tech
- bert
- pytorch
- Relation Extraction
- 백준
- fine-tuning
- 취업
- Dialogue System
- GPT-1
- huggingface
- BELU
- beam search
- boj
- Eliza
Archives
- Today
- Total
dukim's blog
[WK07-Day034][21.09.17.Fri] Level2 U-stage 마무리, 멘토링, 마스터클래스 - 주재걸 교수님 본문
Boostcamp AI Tech 2th
[WK07-Day034][21.09.17.Fri] Level2 U-stage 마무리, 멘토링, 마스터클래스 - 주재걸 교수님
eliza.dukim 2021. 9. 27. 07:30Intro
- Level2 U-stage 마무리, 2주는 너무 짧았다, 이번주는 transformer와 그 이후 주요 논문들에 대해서 정리하는데 대부분을 보냄
- 마지막 멘토링은 ELECTRA 논문 리뷰를 진행했다. 이미 어제자 포스트(WK07-Day033)에서 다루었으므로 논문에 대한 내용보다는 멘토님 조언 위주로 정리
- 주재걸 교수님의 마스터클래스로 Q&A 시간을 가짐
학습 내용
멘토링
PLM 논문을 읽을 때는...
- 어떤 논문이든지 Transformer에서의 디테일 or Pre-train Objective 차이
- Transformer 아키텍쳐에 대한 이해
- Pre-train Objective는 그냥 obj와 다르기 떄문에 유심히 봐야함. 같은 구조라도 어떤 목적을 가지고 학습하는지가 달라지므로, 학습 의도를 잘 살펴봐야함 → 특히 수식을 잘 정리해두는 것이 도움됨
- 사전학습에서 사용하는 목적함수는 "언어를 잘 학습할 수 있는 방향"으로 제안됨(차이를 보는 것 보다는 모두 공통된 목적을 가지고 설계한다는 흐름 읽기)
- 손상된 데이터를 복원 특히, Denoising Auto-encoding (Encoder를 포함하는 구조에서만!)
- Auro Regressive하게 학습하는 모델도 있고 Decoder 기반 모델이 이러한 특징을 가짐
- BART는 MLM을 보고 더 많은 noise 방법 고안 → image inpainting에서 제안된 방법을 발전시킨 것(Text infilling)
- BART가 발표된 당시엔 다양한 PLM Obj 가 제안됨 → 기존 모델 유지하되 좀 더 학습을 잘 시켜보자 → 해당 시기의 논문 스키밍이 도움(이 때까지 살펴본 것)
- 멘토링에서 제시된 6개 논문 순서 구성은 의도가 있었음, 당시 MASS, T5 등도 포함했으나 지금은 제외
- 추가로 ALBERT와 MASS를 꼭 읽어봤으면 좋겠다
- google 논문은 20년까지는 읽었으나 요새는 읽어도 사용 불가라 거의 안읽음. 크지 않아도 Downstream task를 잘하는 경우엔 읽어봄
- 스터디를 하다보면 재밌어보이는 논문을 발표해주는 경우가 있어 추가로 읽어보게됨
P-Stage에 대한 조언
- 작은 모델로 아이디어시도 해보고 성능이 개선된다는 확신이 들었을 때 큰 모델로 가라
- Generative Model은 성능이 좋지만 모델 사이즈가 너무 크다
- 처음 실험시엔 Encoder 기반 모델이 활용할만함
- BART, ELECTRA, T5, 또는 multi-lingual 가능한 모델이 성능이 괜찮게 나와 리더보드 상위권에 자주 등장
- 구현 + 앙상블 + EDA 잘하기
마스터클래스 - 주재걸 교수님 Q&A
Q. 주요 연구 동향 소스를 어디서 얻을 수 있을까요?
- Sebastian Ruder의 블로그와 그가 운영하는 NLP progress 깃헙 레포
- 박규병님의 nlp_tasks 깃헙 레포
- Montreal.AI의 facebook 페이지
- Arxiv Sanity Preserver에서 최근 리트윗, 좋아요를 많이 받은 paper들
Q. 트랜스포머 이후 유망한 모델 구조는?
- 효율적인 트랜스포머 구조로 개선하는 연구
- 더 심플한 MLP로 바꾸는 시도(DMLP, MLPMixer)
피어세션
- 팀 회고록 작성
- 연휴 간 목표 공유
학습회고
- Level1 P-Stage 이후로 가장 빡빡했던 한 주였다. 기존에 대강 알던 PLM 연구들을 꼼꼼하게 정리할 수 있었다(물론 모든 논문을 다 정리하지는 못 했지만).
- 멘토님의 조언을 통해 전체 PLM 연구의 큰 그림을 파악할 수 있었고, 진명훈 캠퍼님의 논문 읽기 모임을 통해 코드도 함께 뜯어보면서 실제 코드 상에서는 어떻게 구현되는지를 알 수 있었다.
- 어제자 오피스 아워에서 문영기 멘토님의 조언이 인상적이었음.
'Boostcamp AI Tech 2th' 카테고리의 다른 글
Comments