3 분 소요

1. 정리하게 된 이유

  • 사실 AI 논문이라면, 항상 기승전결이 분명하다고 생각한다. 파악한 문제점과 현재 겪고 있는 한계를 서술하고 이로 인한 부정적 영향들을 나열한다. 제시하고자 하는 아이디어의 착안 점 또는 논리를 펼친 뒤, 해당 알고리즘을 상세히 설명한다.(이때 수학 기호가..) 이 후 어떠한 데이터 셋을 확보했고, 어떻게 학습 하였는 지 서술한 뒤, 벤치 마크 결과를 통해 끝을 맺는다.
  • 여기서 결국 내가 알고 싶은 것은 수식이라는 것인데, 전공자가 아니며, 하물며 경제학 전공자라 고등학교/대학교 통틀어 스칼라란 용어와 벡터란 용어를 많이 들은 적이 없었다. 이번에 새로운 논문을 읽으려는 와중 문득 이것을 깨닫게 되었다. 애초에 이전에 포스팅한 글들의 수식을 다시 읽어 보는데도 어려움을 겪는데 새로운 논문을 읽음에 무슨 의미가 있을까. 해서 수학적 정의 정리 없인 더 나아가기 힘들다고 판단하고 독학으로 나마, 가볍게 정의들을 쭉 정리 해고자 한다.

2. 기초 기호

1) 데이터 타입

타입 LaTeX 표기 예시
스칼라(0차원) $a,\alpha,r$ (이탤릭 소문자) $r=0.9$ (할인율)
벡터(1차원) $\mathbf{x},\boldsymbol{\theta}$ (볼드 소문자) $\mathbf{x}=[1,2,3]^\top$
행렬(2차원) $\mathbf{A},\mathbf{W}$ (볼드 대문자) $\mathbf{W}\in\mathbb{R}^{n\times m}$
텐서(3차원 이상) $T,T^{(3)}$ $\mathbf{T}\in\mathbb{R}^{n\times m \times p}$
집합(위 타입의 묶음) $\mathcal{A},\mathbb{R}^n$ (캘리그라피/블랙보드) $\mathcal{A} = {0, 1}$

2) 함수 연산자

(1) 미분 관련

연산자 LaTeX 표기 의미
기울기(gradient) $\triangledown_{\theta }f(\theta)$ 벡터($\theta$)의 함수($f(\theta)$)에 대한 전미분
로그 우도(likelihood) $\triangledown \log{\pi_{\theta}}$ 정책 경사(policy gradient), 이때, $\pi_{\theta}$은 좋은 행동 확률 분포
야코비안(Jacobian) $J_{f}=\frac{\partial f}{\partial x}$ 다변수 벡터($\theta$) 함수($f(\theta)$)의 변수($x$)별 편미분을 배열한 행렬
  • 추가 개념 정리
    • Population(모집단) : 연구하려는 전체 집단
    • Sample(표본) : 모집단에서 추출한 부분 집합
    • Statistic(통계량) : 모집단에서 추출한 표본의 특성을 나타내는 값(예 : 표본 평균($\bar{X}$), 표본 분산($s^{2}$) 등)
    • Parameter
      • 통계학적 정의 / 모수 : 모집단의 특성을 나타내는 값(예 : 모집단 평균($\mu$), 모집단 분산($\sigma^{2}$) 등)
      • 공학적 정의 / 매개변수 : 외부로부터 입력받는 값
      • AI 관점에서 정의 : 모수에 가까움
        • AI의 Parameter : feature(데이터의 특성)이 아닌, 가중치 $w(Weight)$, 편향 $b(Bias)$ 을 뜻함.
        • 상세 설명
          • AI 모델을 하나의 거대한 함수(모집단)라고 본다면, 그 함수의 특성을 결정짓는 것은 가중치편향임.
          • 학습(Training)이란, 수많은 데이터를 통해 모수(Parameter)를 추정해나가는 과정(이때, feature는 변수(Variable)임)
        • 예시 : Parameter-efficient fine-tuning란, 모수(Parameter)인 $w(Weight)$, $b(Bias)$를 얼마나 효율적으로 업데이트할 것 인가를 다루는 내용임.
    • 확률(Probability) vs 우도(Likelihood)
      • 그림 출처 : Dlearner의 자기계발 블로그
      • 확률(Probability)

        • 고정된 모수(Parameter, $\theta$)로 관측값(Observation, $x$)의 발생 가능성을 계산하는 함수(표기 예시 : $P(X = x | \theta)$, $\pi_{\theta}(a|s)$ )
        • 구어적 설명 : 주어진 확률 분포(Probability Density Function) 안에서 얼마만큼 나타날 수 있는가? probability 예시 이미지
      • 우도(Likelihood)
        • 고정된 관측값(Observation, $x$)으로 모수(Parameter, $\theta$)의 적합도를 계산하는 함수(표기 예시 : $L(\theta|x)$)
        • 구어적 설명 : 고정된 관측값이 어떠한 확률 분포(Probability Density Function)에서 어느 정도 확률로 나타나는 가? likelihood 예시 이미지
      • 도출되는 표준 정의 : $P(X = x | \theta) = L(\theta|x)$

(2) 확률/정보

연산자 LaTeX 표기 의미
확률 $P(A |B)$, $p(x)$, $\pi_{\theta}(a | s)$ 조건부, 밀도
엔트로피 $H(P)=-\Sigma p\log{p}$ 확률 분포의 불확실성 불확실도
KL발산 $D_{KL}(P|Q)$ 분포 거리
  • 추가 개념 정리
    • 엔트로피 함수 해석
      • 엔트로피는 정보 이론(Information Theory)에서 정보량의 평균을 의미함.
      • 정보 이론(Information Theory) information value의 측정에 의거하여 적용 됨.
        • 정보가 놀라우면, 놀라울수록 정보의 가치가 높다고 판단. 그리고 놀랍다는 건 자주 발생하지 않아 놀랍다는 것이다. 이를 수학적으로 풀어내면 확률이 낮은 사건일수록 정보의 가치가 높다라 정의할 수 있다.
        • 이를 수식으로 표현 시, $I(E) = \log{(\frac{1}{p(E)})} = -\log{p(E)}$
    • KL발산 함수 해석
      • 두 확률 분포($p(x), q(x)$) 간 정보량 차이(확률 분포 간의 거리)를 측정하는 함수이다.
      • 아이디어는 실제 분포 $p(x)$를 근사 분포 $q(x)$로 표현할 때 평균적으로 얼마나 더 많은 정보량이 필요한지를 측정
      • $D_{KL}(p | q)$은 확률 분포 p,q의 크로스 엔트로피($H(p,q)$) - 확률 분포 p의 엔트로피($H(p)$) 을 통해 계산
      • $D_{KL}(p | q) = H(p,q) - H(p) = \Sigma{p(x)\log{(\frac{1}{q(x)})}} + \Sigma{p(x) \log{p(x)}} = \Sigma{p(x)\log{\frac{p(x)}{q(x)}}}$ kl divergence 예시 이미지

(3) 적분 관련

연산자 LaTeX 표기 의미
적분 $\int f(x)dx$ 연속 합(무한히 작은 구간들의 합(리만 합)의 극한)
기댓값(Expectation) $\mathbb{E}_{x}[\cdot]$ $\int p(x)f(x)dx$, 실험이 무한히 반복될 때 얻어지는 결과들의 평균 값
  • 추가 개념 정리
    • 적분이 필요한 이유 : 연속 확률 분포의 수식을 표현할 때 필요
    • 이산 확률 분포 vs 연속 확률 분포
    구분 이산 확률 분포 연속 확률 분포
    값의 성격 셀 수 있는 값(1, 2, 3, …) 모든 실수 값(1.23, 1.234, …)
    함수 확률 질량 함수(PMF) p(x) 확률 밀도 함수(PDF) f(x)
    예시 주사위 눈(1~6), 동전(앞, 뒤) 키, 체중, 시간

    Discrete vs Continuous

    • 엔트로피 수식
      • 이산 확률 분포 : $H(p) = -\sum p(x)\log p(x)$
      • 연속 확률 분포 : $h(p) = -\int p(x)\log p(x) \, dx$
    • KL발산 수식
      • 이산 확률 분포 : $D_{KL}(p | q) = \Sigma{p(x)\log{\frac{p(x)}{q(x)}}}$
      • 연속 확률 분포 : $D_{KL}(p | q) = \int p(x) \log \frac{p(x)}{q(x)} \, dx$

    continue probability

댓글남기기