Study RNN with 'min-char-rnn' of Andrej Karpathy(1)

25 May 2020

Minimum Character RNN(min-char-rnn)

최근에 시계열 데이터 학습에 대한 공부를 하면서 RNN을 접하게 됐는데, 지원이가 RNN을 입문할 때 참고하면 좋은 모델로 min-char-rnn을 소개해줬다.

min-char-rnn은 Andrej Karpathy가 공개한 문장 생성 RNN 모델이다. 원본 코드는 여기서 찾을 수 있다. 굉장히 단순한 모델이기 때문에 만족스러운 결과가 나오지는 않지만 초심자가 RNN과 관련된 개념을 이해하고 적용하는 데에는 매우 유용하다. 저자인 Andrej Karpathy가 AI계통에서 저명한 인물이다보니 한글로 작성된 min-char-rnn 포스팅들도 쉽게 찾아볼 수 있었다.

당분간 여러 편에 걸쳐 이 모델에 대해 상세한 기술을 할 예정이다. 본 편은 min-char-rnn의 신경망 구조에 대해 서술할 것이고, 이후에 이 모델의 손실함수와 역전파에 관해 논할 것이다. 그리고 마지막에는 코드 오디팅을 진행할 것이다.

모델 세부 정보

신경망 구조: 순환 신경망(Recurrent Neural Network, RNN)
활성 함수: 하이퍼 탄젠트(tanh)
후처리 함수: 소프트맥스(softmax)
손실 함수: 크로스 엔트로피(cross entropy)
경사 하강법: 적응형 경사 하강법(Adaptive Gradient, AdaGrad)

순환 신경망(RNN)

데이터의 의미가 다른 데이터들과 의존성을 가질 경우, 이제까지 들어온 데이터들에 대한 기억이 존재해야 새로 들어온 것의 의미를 파악할 수 있다. 예를 들어 ‘사과를 먹는 사람’과 ‘사과를 재배하는 사람’ 이라는 두 문장이 있을 때, ‘사람’을 파악하기 위해서는 먼저 들어온 데이터들에 대한 정보를 가지고 있어야 한다.

RNN이 다른 신경망들과 가장 차별화되는 부분이 이런 기억을 가지고 있다는 것이다. RNN은 다음과 같은 구조로 이루어져 있다

아래 그림에서 노란 블록을 순환 뉴런이라고 하며, 각 순환 뉴런 사이에 전달되고 있는 h가 학습의 결과로 기억되는 정보이다.

KakaoTalk_20200525_012134498