수학은 바뀌지 않는다. 많은 사람이 믿는 기본 전제다. 그러나 최근의 인공지능 기술은 그 전제마저 바꾸고 있다. 순수이론 수학이 아닌 응용수학의 기술은 그 지위가 크게 바뀐다. 심층신경망의 핵심기술은 함수최적화방법이다. 중고교 수학교육과정에서는 2차함수와 고차함수의 최적화를 배운다. 심층신경망에서는 일반적인 형태로 구성된 함수를 최적화한다. 신경망에서 목적함수를 최적화하는 과정을 '학습'이라 한다.
단순화하여 변수 x가 1차원 변수인 경우를 예로 들자. 함수 f(x)를 최소화하려면 미분함수 f'(x)를 0으로 만드는 근 x를 찾아야 한다. 근을 찾기 위해서는 기본적으로 여러 개의 x값을 대입해 가면서 미분함수 값이 0이 되는 값을 탐색하게 된다. 탐색과정을 효율적으로 구현하는 방법으로 경사하강법(gradient descent method)과 뉴튼랩슨법(Newton-Raphson method)이 있다.
경사하강법은 현재의 탐색위치에서 미분함수가 양수이면 다음 탐색위치를 현재 탐색위치 보다 조금 작은 값을 잡고, 미분함수가 음수이면 다음 탐색위치가 현재의 탐색위치보다 조금 큰 값이 되도록 한다. 미분함수 값의 반대 방향으로 움직이는 방법이다. 반면 뉴튼랩슨법은 탐색위치를 기준으로 미분함수의 접선을 구하고, 접선의 값이 0이 되는 값을 다음 탐색위치로 잡는다. 두 방법은 서로 장단점이 있다. 뉴튼랩슨법은 경사하강법에 비하여 매우 작은 횟수의 탐색만으로 근을 찾을 수 있다. 그러나 미분함수 f'(x)의 접선을 구하여야 하므로, f'(x)를 한 번 더 미분한 2차 미분함수 f"(x)가 필요하다.
단순화하여 변수 x가 1차원 변수인 경우를 예로 들자. 함수 f(x)를 최소화하려면 미분함수 f'(x)를 0으로 만드는 근 x를 찾아야 한다. 근을 찾기 위해서는 기본적으로 여러 개의 x값을 대입해 가면서 미분함수 값이 0이 되는 값을 탐색하게 된다. 탐색과정을 효율적으로 구현하는 방법으로 경사하강법(gradient descent method)과 뉴튼랩슨법(Newton-Raphson method)이 있다.
경사하강법은 현재의 탐색위치에서 미분함수가 양수이면 다음 탐색위치를 현재 탐색위치 보다 조금 작은 값을 잡고, 미분함수가 음수이면 다음 탐색위치가 현재의 탐색위치보다 조금 큰 값이 되도록 한다. 미분함수 값의 반대 방향으로 움직이는 방법이다. 반면 뉴튼랩슨법은 탐색위치를 기준으로 미분함수의 접선을 구하고, 접선의 값이 0이 되는 값을 다음 탐색위치로 잡는다. 두 방법은 서로 장단점이 있다. 뉴튼랩슨법은 경사하강법에 비하여 매우 작은 횟수의 탐색만으로 근을 찾을 수 있다. 그러나 미분함수 f'(x)의 접선을 구하여야 하므로, f'(x)를 한 번 더 미분한 2차 미분함수 f"(x)가 필요하다.
대략 2010년 경까지도 강의시간에 뉴튼랩슨법은 빠르고 신뢰성 있는 방법인데 비하여, 경사하강법은 수렴이 늦고 신뢰성을 담보할 수 없는 방법이라고 강의했다. 그러나 지금은 경사하강법은 빠르고 대규모 데이터에도 적용 가능한 방법이지만, 뉴튼랩슨법은 데이터가 커지면 적용할 수 없는 방법이라고 강의한다. 뉴튼랩슨법과 경사하강법의 지위가 바뀐 것이다. 이는 경사하강법 알고리즘의 개선과 함께 데이터의 규모가 커지고 GPU가 등장하는 기술환경의 변화 때문이다. 기술환경의 변화는 응용수학에서 알고리즘의 지위를 뒤바꿨다. 세상의 모든 것은 바뀐다는 불교의 가르침을 새삼 떠올리게 한다.
현대의 데이터는 매우 커져서 단순하게 경사하강법을 적용하는 것만으로는 최적화 문제를 해결할 수 없다. 이 경우 원래의 데이터를 여러 조각의 배치 단위로 분할하여 적용하는 '확률적 경사하강법'을 이용한다.
이윤동 서강대 경영학부 교수(통계학)




























































