일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
Tags
- boj
- bert
- KLUE-RE
- BLEU Score
- Conversation System
- NLP
- Dialogue System
- Transformers
- scaled dot-product attention
- Prompt Tuning with Rules for Text Classification
- layer normalization
- BELU
- fine-tuning
- GPT-1
- Chatbot
- 백준
- BoostCamp
- pytorch
- huggingface
- MT-DNN
- ai-tech
- Transformer
- multi-head attention
- FSML
- 취업
- Relation Extraction
- KLUE
- text classification
- Eliza
- beam search
Archives
- Today
- Total
dukim's blog
[WK06-Day029][21.09.10.Fri] 멘토링(NLP 분야 논문 읽기 팁), 오피스 아워 본문
Boostcamp AI Tech 2th
[WK06-Day029][21.09.10.Fri] 멘토링(NLP 분야 논문 읽기 팁), 오피스 아워
eliza.dukim 2021. 9. 12. 21:25Intro
- MT-DNN 논문 읽고 정리
- 멘토링 - 논문을 읽는 방법과 최근 PLM 논문을 읽을 때의 팁 공유
- 오피스 아워 : 김태희 멘토님께서 과제를 신경써서 작성하셨던 걸 알 수 있었던 시간. 정말 필요한 기본이 되는 내용을 다루었다고 생각함.
멘토링
새로운 논문을 읽을 때 팁
- 요약본 먼저 읽지 않기, 기억에 오래 남지 않고, 다른 사람의 시각에서만 논문을 보게 됨
- 다른 사람의 요약본은 자신이 이해한 바와 차이점을 보기 위한 것
- 논문 내용과 내 생각을 짧게 정리해 둘 것
- 내가 중요하다 생각한 챕터만 정리할 것!
- 모든 챕터를 적으면 정리를 위한 정리가 되지, 나를 위한 정리가 아니다.
- 관련 지식까지 파악하는데 많은 시간이 소요됨, 의문 사항에 대해서는 메모 해두고 계속 탐색, 코드의 해당 부분 체크 등
- Introduction과 Abstract를 꼼꼼하게 정리하는 편(논문이 나오게된 흐름과 아이디어를 담고 있음)
- 내가 중요하다 생각한 챕터만 정리할 것!
- PLM paper는 점차 규모의 연구가 되고 있다. parallel 등을 다룰게 아니라면 PLM paper를 읽는 것이 더이상 의미 없을 수도 있다.
PLM paper를 읽을 때 주안점
- 해당 모델이 갖는 차별점
- 토대로 하는 아키텍쳐
- Pre-training 목적 함수
- 실험에 사용된 데이터
Downstream task paper를 읽을 때 주안점
- 읽기 전에 논문이 어떤 내용일지 예상한다.
- 모델의 제목만으로 어떤 방법론일지 가설 세우기(약어를 하나씩 뜯어보기, 이렇게 하는 것은 논문을 읽을 때 핵심 키워드를 항상 염두에 둠으로써 세부 워딩에 매몰되지 않기 위함)
- 모델 메인 figure를 보고 감 잡기
- 코드가 있는지 체크하고 코드로 먼저 파악해보기
- 풀고자 하는 문제가 무엇인지
- 기존 Paper는 어떻게 풀어왔는지
- 기존 방식 대비 어떤 점이 contribution인지
- 앞서 내가 예상한 모델의 특징과 실제 모델의 주장이 얼마나 일치하는지
Transformer, BERT, MT-DNN에 대한 논문 정리
- 논문을 읽는 방법에 대한 좋은 예시를 제시해주셨다. 아래는 내 나름대로 정리한 멘토님의 논문 읽는 방식
- 세부 디테일까지는 정리하지 않고 메인이 되는 기법들에 대해서 정리함
- 논문의 발전 흐름까지 고려해 제시하여 주심
- Transformer: 메인이 되는 아키텍쳐
- BERT: Pre-train & Fine-tune 방식을 CV 뿐만 아니라 NLP 영역에까지 확장, 다양한 Task에 대해 범용적인 representation을 학습
- MT-DNN: 애초에 Pre-training 시에 다양한 downstream task로 Multi-task learning하면 더 좋은 표현을 얻을 수 있지 않을까? -> BERT 대비 더 나은 GLUE benchmark 성능을 보였으며, SNLI, SciTail Task에서 적은 학습 데이터만으로도 높은 성능(빠른 domain adaptation)을 보임.
학습 회고
- 멘토님의 논문 읽는 방법을 보면서 도움이 되었던 것은 논문 내용을 미리 예측하는 것과, 필요한 내용만 정리하는 것.
- 최근 서베이 논문을 정리하면서 급한 마음에 다른 사람의 영상 먼저 보고, 블로그 먼저 보고, 논문으로 들어갔던 내 자신을 반성하게 되는 한편. 연구자와 엔지니어의 논문 읽는 방식이 다르다면, 개발자는 개발 효율을 위해 이런식으로 빠르게 파악하는 것이 더 중요하지 않을까라는 생각도 해보았다. 둘의 읽는 방식이 달라야한다는 점에 대해서는 멘토님도 같은 생각이지만 멘토님은 읽는 양과 깊이가 다를 수 있다하셨지 이 부분까지 동의하실지는 모르겠다.
- 필요한 내용만 정리하기는 정말. 모든 챕터를 다 정리하는 내가 격하게 공감한 내용. 정리를 위한 정리말고 나만을 위한 정리가 되야한다.
- subword-level의 토크나이저에 대한 정리가 필요함 노션에 정리해뒀던 것을 다듬어 추후 업로드 예정
'Boostcamp AI Tech 2th' 카테고리의 다른 글
Comments