네이버 클라우드 / Multimodal LLM 모델 개발을 위한 Data 업무 / 2024 상반기
가천대 / 소프트웨어학 / 학점 3.57/4.5 / 오픽: AL
보고있는 합격자소서 참고해서 내 자소서 작성하기
새창
목록
마음에 드는 문장을 스크랩 할 수 있어요!
지금 바로 PC에서 이용해보세요.
최고 품질의 상품들을 지금보다 더 많은 소비자들이 여러 유통 채널에서 더욱 폭 넓고 쉽게...
1. [필수] 자기자신을 자유롭게 소개해 주세요. [ (1)본인이 해당 직무에 적합한 이유 ex) BE, FE , ML 등 / (2)관심있는 개발분야 ex)음성인식, OCR, NLP, 쇼핑검색, 통합검색 등 포함 ] (1000자)
(1) 해당 직무에 적합한 이유
저는 자연어처리 연구실에서 학석사과정을 수료하며, 다양한 멀티모달 프로젝트에서 의미 있는 성과를 이루어 왔습니다. 음성, 시각, 언어 및 무선 신호를 이용한 프로젝트 경험을 통해 이미지 캡셔닝, 시각 질의 응답, 감정 인식 등을 구현한 경험이 있습니다. 구현 경험을 통해 멀티모달의 효과를 발견하고, 다양한 멀티모달 데이터를 다룰 수 있는 능력을 키웠습니다.
~~다양한~~ 모달리티를 활용한 경험을 통해 배운 데이터 전처리 및 분석 능력을, 네이버 클라우드의 대규모 비전-언어 모델 데이터 처리에 적용할 수 있습니다. 또한 석사과정에서의 연구 경험으로 모델을 평가하고 개선하는 과정을 이해하고 있습니다. COPA, COLA, WiC, BoolQ 과제 수행하며 벤치마크 데이터를 분석한 경험도 있어, 이를 통해 모델의 성능을 지속적으로 향상시킬 수 있습니다.
저는 성장에 목마른 지원자입니다. 끊임없는 도전과 직무에 대한 책임감을 바탕으로, 네이버 클라우드 데이터 제작에 기여하겠습니다. 이를 통해 다양한 비전-언어 도메인에서 혁신적인 솔루션을 제공하겠습니다. 저는 멀티모달 데이터의 잠재력을 활용하여 네이버 클라우드의 서비스 품질을 향상시키고, 고객들에게 더 나은 가치를 제공하는 데 기여하겠습니다.
(2) 관심 있는 개발 분야
저는 멀티모달에 깊은 관심을 가지고 있습니다. 최근 자연어처리 분야에서 대규모 언어 모델(LLM)의 등장 이후, 미세조정 없이 few-shot 학습 등 프롬프트만으로 다양한 문제를 해결하는 방법론들이 활발히 연구되고 있습니다. 특히 저는 Chain-of-Thought(CoT)와 같은 프롬프트 엔지니어링 기법과, 모델의 환각(hallucination) 문제를 해결하기 위한 Retrieval-Augmetned Generation(RAG) 등에 큰 관심이 있습니다. 또한 최근에는 instruction induction 데이터셋을 분석하며, 테이블이나 차트, 이미지 등의 다양한 데이터 구축에 큰 흥미를 느꼈습니다. 네이버 클라우드에서 지속적인 멀티모달 기술 탐구와 프롬프트 기반의 학습 방법론을 활용하여 모델 개선에 기여하겠습니다.
2. [필수] 지원분야와 관련하여 본인의 기술력을 보여줄 수 있는 활동내역을 모두 기재해주세요. 활동예시 : 논문, 특허, 프로젝트, 창업, 오픈소스 코드 사이트 등 * 작성항목(활동별로 아래 항목에 맞춰 각각 기재) 1) 진행기간 2) 주요내용 3) 본인이 기여한 점 4) 사용한 기술스택 및 지식 5) 결과 및 성과(서비스 URL 있으면 포함) ※ 보다 자세한 내용을 제출하고자 하는 경우, 하단 문항에 첨부해주세요. (1000자)
논문: Multimodal Prompt Learning in Emotion Recognition using Context and Audio Information
1) 2023.03 ~ 2023.06
2) 멀티모달을 위한 self-attention을 제안하며, 음성과 언어 모달리티의 합성에 대한 연구를 수행했습니다. 모델 학습에 언어 정보만을 사용하는 것보다 음성 정보와 문맥 정보를 함께 고려할 때, 더 질 높은 감정 인식을 기대할 수 있습니다. 그러나 단일 모달리티를 이용하여 사전학습한 기존 언어 모델의 프롬프트 러닝에서는, 사전학습에서 사용하지 않은 모달리티를 사용하기 어렵다는 문제점이 있습니다. 저는 T5 모델의 프롬프트 러닝에서 오디오, 발화 텍스트, 과거 발화의 감정과 문맥 정보를 함께 사용하는 방법을 제안했습니다.
3) 딥러닝 모델을 구현하고, 제안하는 아이디어를 코드로 작성하는 역할을 했습니다. 또한 모델이 높은 성능을 도출하도록 하이퍼파라미터 튜닝을 수행했습니다.
4) python, pytorch, ubuntu, huggingface transformers, wandb
5) https://github.com/KimGyunYeop/2023_KCC_ER_ISNLP
**[필수] 본인이 보유한 기술과 해당 기술의 활용정도를 모두 적어주세요. 예시 . Android - 상, JAVA - 상 . iOS - 중, C - 중 . Linux - 중, CUDA - 중, Python - 상, C - 상, C++ - 중 . ML - 상, NLP - 중, Python - 상, C - 중 활용정도 . 상 - 서비스 환경에 맞춰 최적화를 수행할 수 있는 높은 수준의 기술을 보유하고 있음. . 중 - 주요 이슈 트러블슈팅을 할 수 있을 정도로 내부 구조에 대해 이해하고 있음. . 하 - 코드를 읽을 수 있으며, 기본적인 기능을 구현할 수는 있음. (1000자)**
Linux - 중, CUDA - 중, Python- 중, ML- 중, NLP- 중, mySQL- 중, Git- 중
3. [필수] 소개해 줄 만한 성공적인 프로젝트 경험을 기술해주세요. (2000자)**
1) 감정 인식에서의 문맥 정보와 음성 정보를 이용한 멀티모달 프롬프트 러닝
음성과 언어 정보를 이용한 멀티모달 연구를 수행하고 SCI급 저널에 게재한 경험이 있습니다. 멀티모달 프롬프트 러닝 연구를 수행하며 음성과 언어를 합성하기 위한 방법을 제안했습니다. 연구를 통해 해결하고자 했던 문제는, 단일 모달리티를 이용하여 사전학습한 기존 언어 모델의 프롬프트 러닝에서 사전학습에 사용하지 않은 모달리티를 사용할 수 없다는 문제점입니다.
프로젝트를 수행하면서 음성 및 언어 정보 합성의 어려움이 있었습니다. 첫째, 음성 처리에 대한 경험이 부족했습니다. 둘째, 음성과 언어의 원활한 합성을 위해 두 정보를 하나의 트랜스포머 기반의 모델에 입력할 때, 음성도 언어처럼 임베딩 벡터로 처리해야 한다는 것입니다. 따라서 기존 멜 스펙트로그램 방법이 적합하지 않다고 판단하고, wav2vec을 사용하여 문제를 해결했습니다. 이를 통해 하나의 모델에 음성과 언어를 모두 입력하여, 두 모달리티에 대한 모델의 이해도를 높일 수 있었습니다. 그 결과, 38.43이었던 F1 성능이 41.39만큼 향상할 수 있었습니다. 프로젝트를 통해 음성을 언어처럼 벡터로 표현하여 학습하는 역량과, 모델 성능을 향상하기 위해 문맥 정보를 고려하도록 모델을 구조하는 역량을 배양할 수 있었습니다. 멀티 모달 방법론과 효과를 깊이 이해할 수 있었습니다.
2) 시각과 언어의 정렬을 통한 이미지 캡셔닝
시각과 음성 정보를 정렬하는 연구를 수행한 경험이 있습니다. 연구의 목표는 독립적으로 사전학습된 인코더-디코더 모델에서, 같은 의미를 가지는 시각 정보와 음성 정보가 상이하다는 문제점을 정렬로 해결하는 것입니다.
상이한 시각과 음성 정보의 임베딩을 정렬하기 위해, 대조학습과 변분 오토인코더(VAE)를 적용했습니다. 같은 의미를 가진 정보들은 가깝게, 다른 의미를 가진 정보들은 멀게 학습하는 방법을 통해 상이한 두 임베딩의 문제를 해결하고자 했습니다. 또한 오토인코더를 사용하여 주어진 이미지에 대한 핵심 정보를 압축하여 성능을 향상하고자 했습니다. 프로젝트를 수행하며, 이미지의 압축 크기에 따라 자연어 생성 성능이 달라질 수 있다는 것을 알게 되었습니다. 저는 이미지의 핵심 정보를 추출하고 압축하는 가장 적절한 크기를 찾기 위해 다양한 크기로 실험을 수행했습니다. 그 결과, 기존의 45.6이었던 ROUGE-1 성능이 46.4까지 개선되었습니다. 프로젝트를 통해 멀티모달 연구에서, 정렬의 방법과 필요성을 학습할 수 있었습니다. 또한 모델의 내구조를 이해하여 인지한 문제점을 해결하는 방법을 제안하는 능력과, 이를 코드로 구현하는 능력을 배양할 수 있었습니다.
3) 2021 국립국어원 인공지능 언어능력 평가에서의 4개 과제 해결
국립국어원에서 주최한 인공지능 대회를 참가하여, 4개의 과제(문장 문법성 판단, 동형이의어 구별, 인과 관계 추론, 판정 의문문)를 해결한 경험이 있습니다. 저를 포함한 4명의 학생이 함께 프로젝트를 수행했기 때문에 모델 구조에 대한 아이디어는 주 2회 회의를 통해 논의하고, 역할을 분담했습니다. 제가 담당한 역할은 한국어 데이터 증강과 앙상블 기법의 적용이었습니다.
주어진 한국어 데이터의 양이 약 3000개로 모델 학습으로 사용하기에는 매우 부족했습니다. 저는 back translation 기법을 사용하여 주어진 한국어 데이터를 영어로 번역한 후, 다시 한국어 데이터로 번역하는 방식으로 데이터를 증강했습니다. 또한 4가지 과제에 대한 성능 향상을 위해 5개의 모델을 사용하여, 각 모델이 예측한 결과값 중 다수의 예측을 따르는 hard voting을 적용했습니다. 프로젝트를 수행하며 데이터 전처리의 중요성과 모델 성능을 향상하기 위한 앙상블 방법을 이해하고 구현할 수 있었습니다.
프로젝트를 통해 배운 지식과 경험은, 저의 인공지능 분야에서의 역량을 한층 더 발전시키는 계기가 되었습니다. 이러한 학습과 실습 경험은 앞으로 네이버 클라우드에서의 연구와 실무에서도 큰 자산이 될 것 입니다.