4 분 소요

1. 교류회

1) 교류회 일정

  TOPIC URL
10:20 - 11:00 Transformer Attention is All You Need https://arxiv.org/abs/1706.03762
11:00 - 11:40 VIT An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale https://arxiv.org/abs/2010.11929
11:50 - 12:30 CLIP Learning Transferable Visual Models From Natural Language Supervision https://arxiv.org/abs/2103.00020
12:30 - 12:50 SAM SEGMENT ANYTHING https://arxiv.org/abs/2304.02643
14:30 - 15:00 Self Attention does not need O(n2) memory https://arxiv.org/abs/2112.05682
15:00 - 15:30 Efficiently Modeling Long Sequences with Structured State Spaces https://arxiv.org/abs/2111.00396


2) 교류회 회고

(1) Transformer Attention is All You Need, 논문보기

  • GPT, Stable diffusion 등 생성형 AI에서 이용되는 Transformer 논문에 관한 발표를 들었다. 다행히도 이전 exploration의 과정을 통해 Attention Layer, Positional Encoding의 개념에 대한 이해를 갖출 수 있었다. 그래서 후술되는 다른 논문들에 비해 이해하기 좋았다. 기존 트랜스포머 모델인 recurrent layers + (encoder + decoder) + multi-headed self-attention으로 구현하는 대신 전적으로 attention의해 의거해서 생성된 모델에 대한 논문이었다.(recurrent layers 대신, encoder의 데이터를 각 decoder에 넘겨주어 구현)


(2) VIT An Image is Worth 16x16 Words, 논문보기

  • Transformer모델을 자연어 처리를 넘어 이미지 생성에 활용한 사례이다. 기존 자연어 모델에서 query, key에 해당하던 Embeding을 위해 이미지 patch(쪼개기) + flatten(1차원화)를 통해 sequential 데이터화 하였다. 그리고 인코딩 레이어를 거친 뒤, MLP로 클래스를 분류하였다. 기존 transformer모델과 다른 점은 Normalization을 Attention layer 이전에 실시하고, 일반적으로 batch단위로 실시했지만, Patch단위로 실시하는 등 알맞게 튜닝한 것이 돋보였다. 특히 사전 학습을 통해 기본적인 클래스를 분류하였고 이 후 전이 학습을 실시하여 작은 업무분할을 실시한 것으로 보인다. 결과는 레이어 개수가 가장 많은 Vit-Huge모델이 가장 정확도가 높았던 것으로 보인다. 특히 재밌었던 점은 Attention을 거친 아웃풋 토큰-인풋 토큰 예시가 배경을 제외하고 물체에 집중한 것이 재밌었다. detection과 segmentation에 대한 여지도 남겨두었다.


(3) CLIP Learning Transferable Visual Models From Natural Language Supervision, 논문보기

  • 자연어를 이미지 등의 다른 도메인으로 바꿔나가는 모델에 대한 논문이다. 먼저 학습시키기 위해 라벨링을 제한된 클래스로 진행하는 것이 아닌 raw text를 이용하여 하는 것이 특징적이었다. 이 논문에서 가장 중요했던 점은 zero-shot, 즉 모델이 학습 과정에서 배우지 않은 작업을 수행하기 위해 NLP를 엮었다는 점이 특징적이다. 요새 화두 인 멀티모달의 시초격으로 보인다. Contrastive pre-training, 이미지 벡터와 텍스트 벡터의 유사도를 측정하여 이 둘의 연관성을 학습시킨다. 단, 텍스트에 심각한 필터링은 하지 않았기 때문에 학습한 어느정도 데이터셋 자체에 문제가 있을 수도 있다고 한다.


(4) SAM SEGMENT ANYTHING, 논문보기

  • The Segment Anything project 즉, NLP를 이용하여 모든 것을 segmentation하겠다는 목표의 논문이다. 앞서 설명한 ViT를 Image encoder로, CLip을 Prompt encoder로 활용하여 이미지를 통해 학습을 진행한다. IoU(각 마스크에 대한 신뢰도 점수)를 활용하여 평가를 한다.


(5) Self Attention does not need O(n2) memory, 논문보기

  • Softmax연산을 마지막으로 하며 Attention layer의 연산량을 줄인 것에 대한 논문이다.


(6) Efficiently Modeling Long Sequences with Structured State Spaces, 논문보기

  • 가장 난잡하고 어려운 논문이다. 솔직히 아예 이해하지 못했다가 맞는 이야기인 것 같다. RNN의 발전형으로 Long Dependency문제를 해결하려는 것은 알겠다. S4(Structured State Spaces)의 개념이 중요하다. 연산량이 많아지는 문제를 해결하기 위해 단위행렬 등을 도입하는 등 여러가지를 했지만 이해할 시간도, 읽을 시간도 없었던 것 같다.


✨ 교류회 회고

  • 내가 공부한 AI는 정말 기초적인 부분인 것을 알겠다. 행렬로 난무한 수식들, 각 레이어의 특성을 이해하고 여러가지 관점에서 이용한 점 등 마치 불가능의 영역에 도전하는 논문을 만난 느낌이었다. 한편으로는 영어가 조금 부족해 읽고 해석하는 데에 확실히 내가 이해한 것이 맞는 지 어려워 블로그도 몇개 찾아보아 조금이나마 이해할 수 있었다. 시간이 있다면 꼭 읽어야 하는 논문임은 확실히 느낄 수 있었다.

  • 에이펠에서는 코어 과정과 리서치 과정으로 나뉘는 데, 처음엔 리서치 과정을 지원하려다 개인적으로 Flutter과정이 포함된 코어 과정을 선택하여 Ai를 이용한 플랫폼을 만드는 법도 함께 배워보고 싶기 때문에 지원하였다. 무엇보다 비전공자, 단순 사무직이었던 내게 짧은 시간동안 두가지를 배우고 싶어 지원하게 되었는데, 딥러닝 학습에 대한 깊이가 둘이 다르면 얼마나 다를까 했지만 원하는 논문을 읽어보며 이해하려 노력하고 발표하는 모습을 보아 굉장히 힘들어 보였다. 기본적인 AI지식이야 여러 텍스트를 통해 학습된 Chat-gpt, gemini가 물음에 답해주며 이해에 도움을 줄 수 있는 반면 최신 논문들은 그러기가 힘들 것이다. 항상 수식으로 이해하고자 노력하였는데, 겨우 하루만 가지고 위의 논문을 대충이라도 이해하기 힘들 것이라 생각되었다.


2. 취업 세미나

1) 취업 세미나 요약 : ✨ 아이펠톤을 이렇게 이용하자!

  • 각 기업의 채용 목적 이해가 필요
    • 기업 또는 프로젝트에 따라 개발 속도가 중시될 수 있고, 버그 관리/확장성 등이 중시될 수 있다.


  • 개발자의 역할은 시간이 지남에 따라 달라진다.
    • 직무역량과 소프트스킬은 때에 따라 중요도가 달라지나, 결국 자기 개발 능력은 언제든 중요하다.


  • 기업의 온보딩 과정을 따라하자.
    • 위키 / 지라 / 제플린 등 협업툴 제안
    • 기술선택 / 설계 / 개발 단계에서 지속적으로 팀원에게 받는 피드백
    • 도메인 파악


  • 아이펠톤 시 목표 설정
    • 개발 기본기 갖추기
      • 클린 코딩 : 읽기 쉬운 코드(주석 달기)
      • 프로세스 다이어 그램 도입(브런치, 로그 관리)
      • 형상 관리(깃, 버전 관리)
    • 소프트 스킬 습득
      • 문제해결능력
      • 리더십과 팔로우십
      • 협업, 소통 : 피드백/코칭, 갈등 상황 조율 등 소통 문화 구축 필요


  • 규직서류에 표현 되었으면 하는 것
    • 기업 적합성 : 기본사항(희망직무, 프로필 등)
    • 직무 적합성 : 학력, 자격, 교육사항 / 직무경험
    • 조직 적합성 : 기타 경험(동아리, 기타활동 등)


✨ 취업 세미나 회고

  • 나름대로 정리한다고 했지만 방대한 내용으로 많은 도움이 되었다고 생각한다. 사실 능력과 취업은 한편으로 다른 문제라고 생각한다. 나를 심도있게 표현하여 채용기업들에게 노출되는 것도 굉장히 중요하다. 그러한 점에서 아이펠톤을 어떻게 이용해야 하고, 어떠한 점을 중점적으로 생각하여 팀 프로젝트를 진행하여야 하는 지, 이것을 어떻게 이력서에 녹여낼 지에 대한 좋은 인사이트를 얻어 정말 유용한 시간이었던 것 같다.


✨ 전반기 회고

  • 나름대로 열심히 했다고 생각했다. AI의 기본적인 이론은 다시 정리해보면서도 생각보다 공부가 잘되었다고 자신할 수 있었다. 또한 동시에 빅데이터분석기사, SQLD를 취득하고 Github Blog를 오픈하고 Flutter의 기초를 닦으면서 정말 값진 시간을 보냈다고 생각했다. 그렇지만 오늘 논문 리뷰, 취업 세미나 등을 통해 여전히 내가 해야할 일들이 산재해 있다는 것을 많이 깨달을 수 있었다. 나는 아직 부족하고 계속해서 공부해야할 것이 넘쳐난다. 단순 Transformer모델에서 그를 활용한 생성형AI, image classification, segmentation을 넘어 단순 연산량에까지 내가 모르는 것은 너무나도 많다. 사실 무엇보다 최근에 Open Ai에서 공개한 Sora를 보고 많이 충격받았다. 자연어 prompt를 받아 1분짜리 영상을 생성하는 AI라니 머리 속에서 대체 어떻게 구성한거지? 란 생각밖에 안들었던 것 같다. 아직도 많은 기술들이 넘쳐나고 세상엔 대단한 사람들이 넘쳐나기에 나는 지속해서 배워야 한다고 생각하게된 좋은 계기가 되었다. 가능하다면 아이펠톤을 보람차게 보내고 싶다.

태그:

카테고리:

업데이트:

댓글남기기