본문 바로가기
Deep Learning

[DL] 인공신경망에 관련된 개념 정리

by 젊은오리 2022. 3. 20.
728x90

Words

  • Scalar: 단순히 숫자 1개 ex) np.array(3.0)
  • Vector: 숫자 여러개 ex) np.arange(4)
  • Matrix: 2차원 숫자들 ex) np.arange(20).reshape(5, 4)
  • Tensor: 3차원 이상 숫자들 ex) np.arange(24).reshape(2, 3, 4)

 

미분(Derivative)이란?

미분(Derivative): 입력값이 변할 때 어떤 함수 f(x)의 출력값이 얼만큼 변화하는지를 나타낸다.

변수가 여러개일때는 편미분을 사용한다. -> 입력값이 많으므로 우리가 임의로 하나를 골라서 변화량을 파악해야 한다.

기울기(Gradient): 모든 벡터요소들을 각각 편미분해서 하나의 벡터로 나타낸 것을 gradient라고 한다. 

 

Chain Rule이란?

Chain rule(연쇄법칙): 합성함수의 미분법을 말한다.

 

다변수일 경우 Multivariate Chain rule을 사용한다. 

 

경사하강법(Gradient Descent)이란?

  • 경사하강법이란 어떤 함수 f(x)를 최소로 만드는 입력값을 찾는 과정이다. 
  • 임의의 x값에서의 기울기가 양수라는 것은 x값이 커질수록 함수값이 커진다는 것을 의미하고, 기울기가 음수라는 것은 x값이 커질수록 함수값이 작아진다는 것을 의미한다.
  • 또한, 기울기 값이 크다는 말은 찾아야 하는 입력값으로부터 거리가 꽤 떨어져있다는 것을 의미한다.

입력값이 바뀌는 과정

최소로 만드는 입력값을 찾아 나가는 과정에서 입력값을 계속 바꿔나갈 텐데, 기존에있던 입력값 x1에 learning rate와 미분값을 곱한 값을 빼주는 식으로 바꿔나간다. 

이러한 경사하강법을 이용해서 인공신경망을 이용한 분류문제를 해결하고자 할 때 f(x) 즉, loss를 최소화할 수 있도록 가중치(w)를 변화해나가는 과정이 필요하다. 이런 방식으로 가중치를 줄여나가는 것을 Back-propagation 방식이라고 한다.우리는 Back-propagation방식으로 인공신경망을 학습시켜나간다.

역전파(Back-propagation)

728x90

댓글