큐:
인공 재발 신경 네트워크가 종종 훈련하기 어려운 이유는 무엇입니까?
ㅏ:인공 재발 신경 네트워크를 훈련시키는 어려움은 복잡성과 관련이 있습니다.
반복적 인 신경망이 훈련하기 어려운 이유를 설명하는 가장 간단한 방법 중 하나는 피드 포워드 신경망이 아니라는 것입니다.
피드 포워드 신경망에서 신호는 한 방향으로 만 움직입니다. 신호는 입력 계층에서 다양한 숨겨진 계층으로, 시스템의 출력 계층으로 이동합니다.
대조적으로, 반복적 인 신경망 및 다른 유형의 신경망은보다 복잡한 신호 이동을 갖는다. "피드백"네트워크로 분류되는 재발 신경망은 신호가 순방향 및 역방향으로 이동할 수 있으며 네트워크에 숫자 또는 값이 피드백되는 네트워크에 다양한 "루프"를 포함 할 수 있습니다. 전문가들은 이것을 기억과 관련된 반복 신경 네트워크의 측면과 연관시킵니다.
또한, 반복적 인 신경망에 영향을 미치는 또 다른 유형의 복잡성이 있습니다. 이것의 좋은 예는 자연어 처리 분야에 있습니다.
정교한 자연 언어 처리에서 신경망은 사물을 기억할 수 있어야합니다. 상황에 맞는 입력도 필요합니다. 다른 단어의 문장 내에서 단어를 분석하거나 예측하려는 프로그램이 있다고 가정하십시오. 예를 들어, 시스템이 평가할 고정 길이의 5 워드가있을 수 있습니다. 그것은 신경망이이 단어들의 맥락을“기억”하거나 훈련하는 능력과 함께, 이 단어들 각각에 대한 입력을 가져야한다는 것을 의미합니다. 이러한 이유 및 다른 유사한 이유로 인해, 순환 신경망은 일반적으로 시스템에서 이러한 작은 숨겨진 루프 및 피드백을 갖는다.
전문가들은 이러한 합병증으로 인해 네트워크 교육이 어려워 진다고 애도합니다. 이를 설명하는 가장 일반적인 방법 중 하나는 폭발 및 소멸 구배 문제를 인용하는 것입니다. 기본적으로 네트워크의 가중치는 많은 수의 패스로 값을 폭발 시키거나 소멸시킵니다.
신경망의 개척자 인 Geoff Hinton은 웹에서 이러한 현상을 설명합니다. 역 선형 패스는 작은 가중치가 기하 급수적으로 축소되고 더 큰 가중치가 폭발한다고 말합니다.
그는이 문제는 신호가 커지거나 쇠퇴하는 긴 시퀀스와 더 많은 시간 간격으로 인해 악화된다고 덧붙였다. 가중치 초기화가 도움이 될 수 있지만 이러한 문제는 반복적 인 신경망 모델에 내장되어 있습니다. 항상 특정 디자인 및 빌드에 해당 문제가 첨부됩니다. 본질적으로 더 복잡한 유형의 신경망 중 일부는 네트워크를 쉽게 관리 할 수있는 능력을 무시합니다. 실제로 무한한 양의 복잡성을 만들 수 있지만 예측 가능성과 확장 성 문제가 자주 발생합니다.