핵심 키워드Patch embedding Positional encoding (interpolation)Drop PathMulti Head Self-Attention Vision Transformer ideaCV와 NLP에서 공통적으로 나타나는 문제 중 하나는 Long-range dependency 문제이다. CNN의 convolution filter는 local 정보에 집중한다. 이는 작은 receptive field 내에서만 정보를 처리하고 깊은 층을 쌓을수록 정보를 통합하는 방식이다. 이는 필터 크기를 늘린다고 해도, 근본적인 global 정보를 처리하는데 한계가 있다.-> CNN 대신 Transformer 구조를 사용할 수 없을까?image의 픽셀을 token으로 사용하자. -> (256, 256)..
1. 프로젝트 개요A. 개요주어진 데이터를 활용하여 일상 대화를 바탕으로 요약문을 생성하는 모델 구축. B. 데이터최소 2턴, 최대 60턴으로 대화가 구성되어 있다. 대화(dialogue)를 보고 이에 대한 요약(summary)을 예측하는 것이 최종 목표이다.dialouge: 최소 2명에서 최대 7명이 등장하여 나누는 대화 내용, 각각의 발화자를 구분하기 위해#Person”N”#: 을 사용하며, 발화자의 대화가 끝나면 \n 으로 구분summary: 해당 대화를 바탕으로 작성된 요약문 특이사항: 원본 데이터가 영어인 Dialogsum dataset를 한국어로 번역한 Dataset -> 주어진 데이터셋은 번역체 C. 평가지표 ROUGE-1-F1, ROUGE-2-F1, ROUGE-L-F1, 총 3가지 종류..
핵심 키워드Foundation models In-Context LearningN-Shot Learing (Zero-Shot, One-Shot, Few-Shot)Instruction tuning SFT(Supervised Fine-Tuning)RLHF(Reinforcement Learning from Human Feedback) Large Language Model (LLM) 방대한 파라미터 수를 가진 언어모델단일 모델로 여러 Task를 처리 -> Foundation models LLM의 등장 배경 Scaling Law컴퓨팅 리소스, 데이터 사이즈, 파라미터 수를 늘리면 모델의 성능이 좋아진다 -> 법칙 -> 과감한 투자 가능 In-Context LearningFine Tuning vs In-Cont..
핵심 키워드BARTText Infilling Auto-regressiveSequence Generation TasksEncoder-DecoderSequence-to-Sequence task 수행에 특화된 모델 구조Encoder-Decoder는 source문장과 target 문장의 속성이 다르고 이를 변환하는 task에서 좋은 성능을 가진다. (e.g. 요약, 변역)BARTpaper - BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and ComprehensionEncoder-Decoder 구조의 효과적인 사용을 위해 새로운 학습 방법을 제안Transformer와 같은 구조를 사용 ..