Notice

GitHub: KimDaeUng

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

dukim's blog

[WK07-Day034][21.09.17.Fri] Level2 U-stage 마무리, 멘토링, 마스터클래스 - 주재걸 교수님 본문

Boostcamp AI Tech 2th

[WK07-Day034][21.09.17.Fri] Level2 U-stage 마무리, 멘토링, 마스터클래스 - 주재걸 교수님

eliza.dukim 2021. 9. 27. 07:30

Intro

Level2 U-stage 마무리, 2주는 너무 짧았다, 이번주는 transformer와 그 이후 주요 논문들에 대해서 정리하는데 대부분을 보냄
마지막 멘토링은 ELECTRA 논문 리뷰를 진행했다. 이미 어제자 포스트(WK07-Day033)에서 다루었으므로 논문에 대한 내용보다는 멘토님 조언 위주로 정리
주재걸 교수님의 마스터클래스로 Q&A 시간을 가짐

학습 내용

멘토링

PLM 논문을 읽을 때는...

어떤 논문이든지 Transformer에서의 디테일 or Pre-train Objective 차이
- Transformer 아키텍쳐에 대한 이해
- Pre-train Objective는 그냥 obj와 다르기 떄문에 유심히 봐야함. 같은 구조라도 어떤 목적을 가지고 학습하는지가 달라지므로, 학습 의도를 잘 살펴봐야함 → 특히 수식을 잘 정리해두는 것이 도움됨
- 사전학습에서 사용하는 목적함수는 "언어를 잘 학습할 수 있는 방향"으로 제안됨(차이를 보는 것 보다는 모두 공통된 목적을 가지고 설계한다는 흐름 읽기)
  - 손상된 데이터를 복원 특히, Denoising Auto-encoding (Encoder를 포함하는 구조에서만!)
- Auro Regressive하게 학습하는 모델도 있고 Decoder 기반 모델이 이러한 특징을 가짐
- BART는 MLM을 보고 더 많은 noise 방법 고안 → image inpainting에서 제안된 방법을 발전시킨 것(Text infilling)
- BART가 발표된 당시엔 다양한 PLM Obj 가 제안됨 → 기존 모델 유지하되 좀 더 학습을 잘 시켜보자 → 해당 시기의 논문 스키밍이 도움(이 때까지 살펴본 것)
멘토링에서 제시된 6개 논문 순서 구성은 의도가 있었음, 당시 MASS, T5 등도 포함했으나 지금은 제외
추가로 ALBERT와 MASS를 꼭 읽어봤으면 좋겠다
google 논문은 20년까지는 읽었으나 요새는 읽어도 사용 불가라 거의 안읽음. 크지 않아도 Downstream task를 잘하는 경우엔 읽어봄
스터디를 하다보면 재밌어보이는 논문을 발표해주는 경우가 있어 추가로 읽어보게됨

P-Stage에 대한 조언

작은 모델로 아이디어시도 해보고 성능이 개선된다는 확신이 들었을 때 큰 모델로 가라
Generative Model은 성능이 좋지만 모델 사이즈가 너무 크다
처음 실험시엔 Encoder 기반 모델이 활용할만함
BART, ELECTRA, T5, 또는 multi-lingual 가능한 모델이 성능이 괜찮게 나와 리더보드 상위권에 자주 등장
구현 + 앙상블 + EDA 잘하기

마스터클래스 - 주재걸 교수님 Q&A

Q. 주요 연구 동향 소스를 어디서 얻을 수 있을까요?

Sebastian Ruder의 블로그와 그가 운영하는 NLP progress 깃헙 레포
박규병님의 nlp_tasks 깃헙 레포
Montreal.AI의 facebook 페이지
Arxiv Sanity Preserver에서 최근 리트윗, 좋아요를 많이 받은 paper들

Q. 트랜스포머 이후 유망한 모델 구조는?

효율적인 트랜스포머 구조로 개선하는 연구
더 심플한 MLP로 바꾸는 시도(DMLP, MLPMixer)

피어세션

팀 회고록 작성
연휴 간 목표 공유

학습회고

Level1 P-Stage 이후로 가장 빡빡했던 한 주였다. 기존에 대강 알던 PLM 연구들을 꼼꼼하게 정리할 수 있었다(물론 모든 논문을 다 정리하지는 못 했지만).
멘토님의 조언을 통해 전체 PLM 연구의 큰 그림을 파악할 수 있었고, 진명훈 캠퍼님의 논문 읽기 모임을 통해 코드도 함께 뜯어보면서 실제 코드 상에서는 어떻게 구현되는지를 알 수 있었다.
어제자 오피스 아워에서 문영기 멘토님의 조언이 인상적이었음.

'Boostcamp AI Tech 2th' 카테고리의 다른 글

[WK08-Day035][21.09.24.Fri] 특강 AI 엔지니어로서 알면 좋을 지식들 (0)	2021.09.27
[WK08-Day035][21.09.23.Thu] Level2 P-stage 시작, 새로운 팀, 특강 AI 엔지니어로서 알면 좋을 지식들 (0)	2021.09.27
[WK07-Day033][21.09.16.Thu] BERT, MT-DNN, GPT-3, ALBERT, ELECTRA, ETC (0)	2021.09.27
[WK07-Day032][21.09.15.Wed] ELMo, GPT-1, Layer Normalization, Hugging Face Transformers 기본 사용법 (0)	2021.09.25
[WK07-Day031][21.09.14.Tue] Transformer 주요 내용 요약 및 구조 개선에 대한 후속 연구, 논문 선정 팁 (0)	2021.09.18

'Boostcamp AI Tech 2th' Related Articles

Comments

dukim's blog

[WK07-Day034][21.09.17.Fri] Level2 U-stage 마무리, 멘토링, 마스터클래스 - 주재걸 교수님 본문

[WK07-Day034][21.09.17.Fri] Level2 U-stage 마무리, 멘토링, 마스터클래스 - 주재걸 교수님

Intro

학습 내용

멘토링

PLM 논문을 읽을 때는...

P-Stage에 대한 조언

마스터클래스 - 주재걸 교수님 Q&A

Q. 주요 연구 동향 소스를 어디서 얻을 수 있을까요?

Q. 트랜스포머 이후 유망한 모델 구조는?

피어세션

학습회고

'Boostcamp AI Tech 2th' 카테고리의 다른 글

티스토리툴바