일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- beam search
- scaled dot-product attention
- huggingface
- boj
- Eliza
- multi-head attention
- Conversation System
- KLUE
- KLUE-RE
- ai-tech
- NLP
- BELU
- BLEU Score
- 백준
- MT-DNN
- 취업
- Transformers
- layer normalization
- FSML
- bert
- GPT-1
- Dialogue System
- Transformer
- fine-tuning
- Prompt Tuning with Rules for Text Classification
- pytorch
- BoostCamp
- Relation Extraction
- Chatbot
- text classification
- Today
- Total
목록전체 글 (44)
dukim's blog
Coment 가짜연구소 3기 KLUE로 모델 평가하기 4주차에서 발표한 자료입니다. 지난번 YNAT에 이어 STS에 대한 베이스라인 코드입니다. KLUE에서 공개한 Pre-trained 모델의 weights를 불러와서 한국어 벤치마크 데이터셋 KLUE의 문장 유사도 평가 데이터셋 STS에 Fine-tuning하는 예제입니다. Contents HuggingFace Datasets을 활용하여 KLUE 데이터셋 쉽게 전처리하기 HuggingFace Hub에서 사전학습된 언어 모델을 다운로드 받아 사용하고, 학습한 모델을 업로드하여 공유하기 Trainer 객체를 사용하여 모델 학습 및 평가 & hyperparameter search하기 Weights & Biases를 활용하여 실험 관리하기 https://col..
Intro 강의가 얼마 없다 생각해서 여유로울 줄 알았는데 특강이 많았던 하루 강의 내용 복습 Important Concepts in Optimization 1. Generalization Generalization Performance: Gap between training err and test err2. Underfitting vs. Overfitting 3. Cross-validation(K-fold Validation) NN 학습시 hyperparameter 선택을 위한 방법 hyperparameter 선택 후 최종 학습시 모든 데이터 다 사용 test data는 학습에 어떤 방법으로든 사용되선 X4. Bias and Variance(직관적인 설명) variance: 입력에 대한 출력이 일관적인..
Intro 쉬어가는 날인가, 강의 분량이 많다는 점을 제외하고는 할만했던 날이었다. 강의 복습 내용 [Data Viz 00] 기본 사용법 학습 하다가 새롭게 알게된 코드에 대해서 간략한 경우만 남겼고, 구체적인 코드는 남기지 않았습니다. 시각화 차트는 스니펫처럼 필요한 차트 있을 때마다 가져다 쓰면서 구조 파악하는 방식으로 학습하는 것이 효율적 하지만 강의 때 다룬 디자인 원칙은 상당히 유용하여 짤막하게 정리 조각 코드 ipynb에서 plot 해상도 높이기%config InlineBackend.figure_format='retina' Figure & Axes import matplotlib.pyplot as plt : matplotlib에 포함된 plt 모듈을 불러와 사용 Figure : ..
Coment 가짜연구소 3기 KLUE로 모델 평가하기 2주차에서 발표한 자료입니다. HuggingFace 정말 많이들 쓴다던데, 어떻게 시작해야할지 막막하신 분들을 위해서 준비했습니다. KLUE에서 공개한 Pre-trained 모델의 weights를 불러와서 한국어 벤치마크 데이터셋 KLUE의 제 분류 데이터셋 YNAT에 Fine-tuning하는 예제입니다. Contents HuggingFace Datasets을 활용하여 KLUE 데이터셋 쉽게 전처리하기 HuggingFace Hub에서 사전학습된 언어 모델을 다운로드 받아 사용하고, 학습한 모델을 업로드하여 공유하기 Trainer 객체를 사용하여 모델 학습 및 평가 & hyperparameter search하기 Weights & Biases를 활용하여 ..
# Intro 1~5일차 내용을 노션으로 정리해두긴 했지만 거의 낙서에 가까운 수준이라, 오늘 하루동안 내용을 다듬고 보강하여 다시 올렸다. 다시 정리하다보니, 지금 당장 보긴 힘들어도 정리가 필요한 개념들이 눈에 밟히는데 이것들을 리스트업 해둘 필요가 있다. 오늘은 한 주 동안 학습한 주제 중에서 나중에 추가로 정리할 것들을 목록으로 나열해 보려한다. # 정리가 필요한 내용 - Linear Regression의 Closed Form vs GD - 수식을 이용한 정리 - Closed Form의 경우 벡터의 사영을 이용한 해석 - 베이즈 정리와 binary classification evaluation metric - KL-Divergence와 CrossEntropy - 행렬의 내적 - Cosine Sim..
Intro 다른 일을 좀 하다가 어제 새벽부터 선택과제를 팠다. 3번이 MLE 과제라 학습한 내용을 바탕으로 해서 금방 풀 수 있었지만 1번 경사하강법 풀이에는 어려움을 겪어 선형회귀, 경사하강법 파트 강의자료를 다시 보고 정리했다. 온보딩 키트 도착 김선민 멘토님과 첫 멘토링 시간 추가합격으로 박준수님꼐서 새로 오심 강의 복습 내용 경사하강법으로 선형회귀 계수 구하기 $X^{T}_{\cdot k}$는 가운데 식의 중괄호 안의 1/n을 제외한 summation에 해당하는 부분. 총 n개의 데이터 각각에서 d번째 feature에 편차의 제곱(SE)이 곱해지고 전체 데이터에 대해 합산되는 형태 마지막 식에서 분모 L2-norm을 제외하고 보면 이건 k번쨰 beta에 대한 분산을 말함(편차제곱의 평균, MS..
Intro 오랜만에 보니 참 새롭네 요새 매일 학습 루틴이 이렇다 일단 퀴즈를 푼다 -> 막히는게 있다 -> 강의 pdf 를 읽고 바로 이해되면 넘어간다 -> 아니면 강의를 듣고 정리한다. 그런데 MLE 얘도 다시 보니 참 새로워서, 결국 마지막 단계까지 갔다. 강의 복습 내용 모수란? 통계적 모델링 : 적절한 가정 위에서 확률분포를 추정하는 것이 목표, 기계학습과 통계학이 공통적으로 추구하는 목표 확률분포를 추정하는 이유: 유한한 개수의 데이터만 관찰해서 모집단의 분포를 정확하게 알아낸다는 것은 불가능하므로 예측 모형의 목적은 분포를 정확하게 맞추기 보다 데이터와 추정 방법의 불확실성을 고려해 위험을 최소화하는 것 모수적(parametric) 방법론 : 데이터가 특정 분포를 따른다고 선험적으로(a pr..
Intro 다른 일도 여러가지 겹쳐 있어서 오늘은 최대한 학습을 빨리 끝내고 처리해야지 했는데, 과제 하나에 발목 잡혔다. 필수과제 4번 문제에만 4시간 반 동안 삽질했다. 강의 복습 내용 필수 퀴즈. 이미 다 아는 거니 금방 풀겠지~ 했는데 안 본 사이에 막상 문제 풀려니 가물가물 했다. 결국 [AI Math: 6강 확률론] 강의로 들어가 내용을 다시 정리하였고, 알고 있던 내용은 스킵하고, 개념과 개념간의 연결, 그래서 이 개념이 왜 중요하고 어떤 의미를 갖는지에 좀 더 집중했다. 딥러닝에서의 확률론 딥러닝의 바탕은 확률론 기반의 기계학습 이론 loss function의 작동원리는 데이터 공간을 통계적으로 해석해 유도된다. L2-norm: 예측오차 분산을 가장 최소화하는 방향으로 학습하도록 유도 Cr..