dukim's blog

[WK07-Day034][21.09.17.Fri] Level2 U-stage 마무리, 멘토링, 마스터클래스 - 주재걸 교수님 본문

Boostcamp AI Tech 2th

[WK07-Day034][21.09.17.Fri] Level2 U-stage 마무리, 멘토링, 마스터클래스 - 주재걸 교수님

eliza.dukim 2021. 9. 27. 07:30

Intro

  • Level2 U-stage 마무리, 2주는 너무 짧았다, 이번주는 transformer와 그 이후 주요 논문들에 대해서 정리하는데 대부분을 보냄
  • 마지막 멘토링은 ELECTRA 논문 리뷰를 진행했다. 이미 어제자 포스트(WK07-Day033)에서 다루었으므로 논문에 대한 내용보다는 멘토님 조언 위주로 정리
  • 주재걸 교수님의 마스터클래스로 Q&A 시간을 가짐

학습 내용

멘토링

PLM 논문을 읽을 때는...

  • 어떤 논문이든지 Transformer에서의 디테일 or Pre-train Objective 차이
    • Transformer 아키텍쳐에 대한 이해
    • Pre-train Objective는 그냥 obj와 다르기 떄문에 유심히 봐야함. 같은 구조라도 어떤 목적을 가지고 학습하는지가 달라지므로, 학습 의도를 잘 살펴봐야함 → 특히 수식을 잘 정리해두는 것이 도움됨
    • 사전학습에서 사용하는 목적함수는 "언어를 잘 학습할 수 있는 방향"으로 제안됨(차이를 보는 것 보다는 모두 공통된 목적을 가지고 설계한다는 흐름 읽기)
      • 손상된 데이터를 복원 특히, Denoising Auto-encoding (Encoder를 포함하는 구조에서만!)
    • Auro Regressive하게 학습하는 모델도 있고 Decoder 기반 모델이 이러한 특징을 가짐
    • BART는 MLM을 보고 더 많은 noise 방법 고안 → image inpainting에서 제안된 방법을 발전시킨 것(Text infilling)
    • BART가 발표된 당시엔 다양한 PLM Obj 가 제안됨 → 기존 모델 유지하되 좀 더 학습을 잘 시켜보자 → 해당 시기의 논문 스키밍이 도움(이 때까지 살펴본 것)
  • 멘토링에서 제시된 6개 논문 순서 구성은 의도가 있었음, 당시 MASS, T5 등도 포함했으나 지금은 제외
  • 추가로 ALBERT와 MASS를 꼭 읽어봤으면 좋겠다
  • google 논문은 20년까지는 읽었으나 요새는 읽어도 사용 불가라 거의 안읽음. 크지 않아도 Downstream task를 잘하는 경우엔 읽어봄
  • 스터디를 하다보면 재밌어보이는 논문을 발표해주는 경우가 있어 추가로 읽어보게됨

P-Stage에 대한 조언

  • 작은 모델로 아이디어시도 해보고 성능이 개선된다는 확신이 들었을 때 큰 모델로 가라
  • Generative Model은 성능이 좋지만 모델 사이즈가 너무 크다
  • 처음 실험시엔 Encoder 기반 모델이 활용할만함
  • BART, ELECTRA, T5, 또는 multi-lingual 가능한 모델이 성능이 괜찮게 나와 리더보드 상위권에 자주 등장
  • 구현 + 앙상블 + EDA 잘하기

마스터클래스 - 주재걸 교수님 Q&A

Q. 주요 연구 동향 소스를 어디서 얻을 수 있을까요?

Q. 트랜스포머 이후 유망한 모델 구조는?

  • 효율적인 트랜스포머 구조로 개선하는 연구
  • 더 심플한 MLP로 바꾸는 시도(DMLP, MLPMixer)

피어세션

  • 팀 회고록 작성
  • 연휴 간 목표 공유

학습회고

  • Level1 P-Stage 이후로 가장 빡빡했던 한 주였다. 기존에 대강 알던 PLM 연구들을 꼼꼼하게 정리할 수 있었다(물론 모든 논문을 다 정리하지는 못 했지만).
  • 멘토님의 조언을 통해 전체 PLM 연구의 큰 그림을 파악할 수 있었고, 진명훈 캠퍼님의 논문 읽기 모임을 통해 코드도 함께 뜯어보면서 실제 코드 상에서는 어떻게 구현되는지를 알 수 있었다.
  • 어제자 오피스 아워에서 문영기 멘토님의 조언이 인상적이었음.
Comments