728x90
반응형
SMALL
728x90
반응형
SMALL
📌 서론
요즘 소매업체를 가보면 셀프계산대가 늘어나고 있는 것을 볼 수 있는데요. 특히 미국에서는 이미 많은 소매업체들이 셀프 체크아웃 시스템을 도입하고 있죠. 이 기술이 얼마나 우리 생활에 영향을 미치는지 궁금하지 않으신가요? 오늘은 셀프계산대의 비용 절감 효과와 업스킬링 기회를 어떻게 활용할 수 있는지에 대해 이야기해보려고 합니다. 소매업체들이 왜 셀프계산대를 선택하게 되었는지, 이로 인해 소비자와 직원들이 어떤 변화와 혜택을 느끼고 있는지 꼼꼼하게 살펴보아요.

📄 본론

1. 셀프계산대를 알아야 하는 이유

셀이 강한 셀프계산대는 최근 미국 소매업체에서 많이 볼 수 있는 장비예요. 여러분들도 쇼핑하면서 느꼈겠지만, 빠르고 간편하게 쇼핑을 마칠 수 있어 많은 사람들이 선호하죠. 특히, 소매업체들이 셀프계산대를 도입하면서 인력운용과 비용절감을 목표로 하고 있어요. 더 많은 고객을 위해 적은 비용으로 많은 서비스를 제공할 수 있는 구조를 갖추면서 디지털경험을 혁신하고 있는 거죠. 따라서 이 블로그 글에서는 셀프계산대의 운용이 어떻게 비용절감을 가져오는지, 또 이러한 시스템 도입이 가져오는 다양한 장점과 단점에 대해 알아볼까 해요.

2. 셀프계산대를 선택해야 하는 사람들

셀프계산대가 필요한 사람들은 크게 두 가지로 나눌 수 있어요. 첫째, 소매업체 경영자들. 이들은 인건비 절감과 운영 효율성을 높이기 위해 셀프계산대를 도입하고 있어요. 둘째, 시간 절약을 원하는 소비자들. 특히 우리가 흔히 이용하는 대형 마트나 슈퍼마켓에서 긴 대기줄 없이 빠르게 계산을 마치고 싶은 사람들에게 딱인 시스템이죠. 또한, 셀프계산대는 새로운 디지털경험을 원하는 젊은 층에게도 굉장히 매력적입니다.

 

3. 셀프계산대의 심층 분석

셀프계산대의 장점: 비용 절감과 처리 용량 확대

 

셀프계산대의 도입은 여러 가지 장점을 가지고 있습니다.

셀프계산대의 대표적인 장점은 비용 절감입니다. 인건비를 줄일 수 있다는 기대는 셀프계산대 도입의 핵심 요인이었습니다. 몇몇 대형 소매업체들에서 진행된 통계에 따르면, 셀프계산대 도입 후 인건비를 약 20% 절감할 수 있다고 합니다. 특히 계산원을 직접 배치하지 않고도 다수의 계산대 운영이 가능해, 한 명의 직원이 여러 대의 셀프계산대를 관리할 수 있습니다. 이로 인해 점포당 운영 인력을 효율적으로 재배치할 수 있어 인력운용의 효율성이 높아집니다. 전통적인 계산대보다 더 적은 인력을 필요로 하기 때문에, 직원들은 다른 중요한 업무로 재배치될 수 있죠. 마지막으로, 이 시스템은 매장 내부의 처리용량을 확대할 수 있습니다. 전통적인 계산대보다 더 많은 고객을 짧은 시간 안에 처리할 수 있기 때문이에요.

또한, 처리 용량이 확대됨에 따라 계산 대기 시간이 줄어들어 고객의 편의성 역시 크게 증가했습니다. 이러한 점은 디지털 경험을 중시하는 현대 소비자들에게 긍정적인 영향을 주며, 고객경험 혁신의 일환으로 자리 잡아왔습니다.

셀프계산대는 계산원이 배치된 일반 계산대에 비해 공간을 덜 차지한다. 일반 계산대 1대의 설치공간에 최소 셀프계산대 2대를 설치할 수 있다.
실제로, 미국 48개주에 1만 9천개에 가까운 점포를 보유한 달러제너럴은 셀프계산대를 축소하고 있고, 동부 펜실바니아주를 중심으로 1,600여 개 매장을 운영하는 소형 디스카운트 스토어 파이브빌로우도 도난문제로 셀프계산대 운영을 축소하고 있다.

 

셀프계산대의 단점: 도난 위험과 고객과의 교류 감소

 

하지만 셀프계산대의 도입은 비용 절감 이상의 새로운 문제를 불러일으켰습니다. 무엇보다 도난 위험이 크게 증가했습니다. 일부 소비자들은 셀프계산대 사용에 불편함을 느낄 수도 있으며, 오작동으로 인해 체험이 나빠질 수도 있습니다. 이 점들을 고려해 볼 때, 소매업체들은 셀프계산대를 도입할 때 보안문제나 고객지원에 특별히 신경을 써야 하죠. 셀프계산대는 고객이 직접 상품을 스캔하고 결제하는 구조이다 보니, 의도치 않은 상품 미등록이나 도난 사고가 빈번하게 발생합니다. 소매업체들은 이를 해결하기 위해 추가적인 보안 장치를 마련하고 있으나, 이로 인한 비용 상승과 관리 문제는 셀프계산대의 도입 초기 목표였던 비용 절감 효과를 상쇄하는 경우가 많습니다.

또한 셀프계산대는 직원과 고객 간의 교류 기회를 감소시킵니다. 고객과의 직접적인 소통은 단순한 계산을 넘어, 브랜드 경험을 강화하는 중요한 접점입니다. 하지만 셀프계산대가 이를 대체하면서 고객과 소매업체 간의 관계 형성이 약화될 수 있다는 우려도 제기되고 있습니다.

 

4. 셀프계산대의 비용 절감 효과 재고와 업스킬링의 기회

셀프계산대의 운영 비용 절감 효과가 예상보다 크지 않다는 점이 일부 연구에서 드러났지만, 이를 단순히 비용 절감 수단으로만 보지 않고 인력의 업스킬링(upskilling) 기회로 활용할 수 있는 방안이 고려되고 있습니다. 특히 계산원 대신 셀프계산대를 감독하거나 고객의 문제를 해결하는 ‘디지털 경험’ 전문가로 역할을 전환하는 것입니다. 이를 통해 매장 직원은 더 높은 수준의 고객 응대와 기술 지원 업무를 수행하게 되며, 이는 소매업체에게는 새로운 기회가 될 수 있습니다.

 

업스킬링을 통해 직원들이 셀프계산대에서 발생하는 기술 문제 해결, 고객 교육, 디지털 경험 향상 등의 역할을 수행하게 된다면, 오작동 문제를 줄이고 고객의 만족도를 높일 수 있습니다. 이는 셀프계산대 기술의 진화와 함께 더 나은 사용자 경험을 제공할 수 있는 중요한 요소로 작용할 것입니다.

직원이 셀프계산대를 관리하며 디지털 기술을 활용해 고객을 돕고, 기술적인 역할로 발전하는 업스킬링 기회를 통해 셀프계산대 도입 후 새로운 역할과 학습 기회를 얻을 수 있습니다.
업스킬링(upskilling) 기회란, 직원들이 현재의 직무에서 더 높은 수준의 기술이나 지식을 습득하여 새로운 역할이나 업무를 수행할 수 있도록 하는 교육 및 훈련 기회를 의미합니다. 이는 개인의 역량을 강화하는 동시에, 기업이 변화하는 기술 환경에 맞춰 인력을 효과적으로 배치할 수 있게 해 줍니다.

예를 들어, 셀프계산대 도입으로 단순 계산 업무는 줄어들지만, 직원들이 그 대신 셀프계산대 관리, 기술 지원, 고객 문제 해결 등의 새로운 역할을 맡게 됩니다. 이를 위해 직원들에게 디지털 기기 사용법, 문제 해결 능력, 고객 서비스 기술 등을 교육하는 것이 바로 업스킬링에 해당합니다. 이렇게 함으로써 기존의 직무에서 더 높은 부가가치를 창출할 수 있도록 돕는 것이 핵심입니다.

 

5. 셀프계산대 운영의 미래와 보안 문제 해결

미국 소매업체들이 셀프계산대를 축소하거나 폐쇄하는 이유 중 하나는 보안 문제입니다. 따라서 향후 셀프계산대의 지속 가능한 운영을 위해서는 보안 기술에 대한 집중적인 투자가 필요합니다. 예를 들어, 인공지능(AI)과 컴퓨터 비전 기술을 적용하여 도난을 예방하는 새로운 솔루션이 개발될 가능성이 큽니다. 이러한 보안 기술은 셀프계산대의 도난 문제를 해결하는 데 중요한 역할을 할 것으로 기대됩니다.

 

✅ 결론

셀프계산대의 미래

셀프계산대는 단순히 비용을 절감하는 수단이 아닌, 고객 경험을 혁신하고 인력을 디지털 경험 전문가로 성장시킬 수 있는 중요한 도구로 활용될 수 있습니다. 다만, 도난 문제와 고객과의 교류 기회 감소와 같은 문제들을 해결하기 위해서는 더 진보된 기술과 보안 시스템의 도입이 필수적입니다. 셀프계산대가 미국 소매업체의 주요 유통 트렌드로 자리 잡고 있는 만큼, 지속적인 기술 진화와 보완책을 통해 효율적인 운용 방안을 모색해야 할 시점입니다.

 

728x90
반응형
LIST
728x90
반응형
SMALL

'뉴마트' 시대를 선도하는 대형마트의 변신

📌 서론

안녕하세요! 요즘 새로운 트렌드를 선도하고 있는 유통 업계의 이야기를 들려드리려고 해요. 여러분도 잘 아시다시피, 최근 몇 년간 이커머스가 급성장하면서 대형마트와 백화점들이 큰 변화의 길목에 서 있어요. 이번 글에서는 대형마트가 어떤 새로운 전략으로 이 변화에 대처하고 있는지, 그리고 그 전략들이 어떤 결과를 낳고 있는지 알려드릴게요. 특히 제공된 이미지를 통해 이들의 새로운 시도를 눈으로 직접 확인하실 수 있어요. 자, 그럼 시작해 볼까요?

📄 본론

1. 대형마트의 대변신, 왜 이런 변화가 필요할까요?

최근 몇 년 동안 이커머스의 급성장은 대형마트와 같은 오프라인 유통업체들에게 큰 도전이 되었어요. 고객들은 집에서도 편리하게 쇼핑할 수 있는 온라인 플랫폼을 선호하게 되었고, 이에 따라 오프라인 매장의 방문율이 급격히 감소하고 있어요. 이 상황에서 대형마트가 생존하기 위해선 새로운 전략이 필수적이에요. 단순히 상품을 파는 공간을 넘어서, 고객들이 직접 방문하고 싶은 장소로 만들 필요가 있는 거죠. 바로 이 점이 대형마트의 대변신을 필요하게 만든 이유입니다.

 

최근 대형마트들은 '뉴마트' 시대를 맞이하여 급격한 변화를 겪고 있습니다. 기존의 단순한 장보기 공간에서 벗어나 소비자들에게 더 나은 쇼핑 경험을 제공하기 위해 다양한 체험 요소를 매장 내 도입하고 있습니다. 특히, 유휴공간을 활용하여 장보기에 앞서 소비자들이 다양한 경험을 할 수 있도록 변화하고 있습니다.

 

온라인 쇼핑이 급성장하는 가운데, 대형마트들은 오프라인의 강점을 부각하기 위해 그로서리(식료품)와 이커머스를 결합한 새로운 형태의 매장 출점을 계획하고 있습니다. 1인 가구의 증가와 집밥 수요에 맞춰 간편식(HMR)과 델리카테슨 상품의 인기가 지속적으로 상승하고 있으며, 이를 중심으로 한 신규 매장들이 주목받고 있습니다.

롯데호텔, 롯데자이언츠 등 16개 계열사와 롯데마트가 유통군을 통합한 통합 마케팅 행사 "롯데레드페스티벌"을 선보였다.

 

2. 이 전략이 필요한 사람들은 누구일까요?

이 전략이 가장 필요한 사람들은 대형마트의 주요 고객들, 즉 가정주부부터 워킹맘, 그리고 다양한 연령층의 소비자들이에요. 특히 시간이 부족한 워킹맘들에게 새로운 대형마트는 쉬운 주말 쇼핑 타임을 선사할 수 있죠. 또한, 연령에 상관없이 모두가 편리하게 이용할 수 있는 공간을 만들어냄으로써 다양한 층의 소비자들을 끌어들일 수 있어요. 더불어, 다양한 체험을 원하는 'MZ세대'도 중요한 타겟이에요. 이들은 단순한 쇼핑이 아닌, 경험과 즐거움을 함께 제공하는 공간을 찾고 있기 때문에, 새로운 대형마트의 전략은 이들에게도 큰 매력을 가지고 있습니다.

"우리동네 소셜클럽" 이마트의 스타필드마켓 죽전점이 새로 리뉴얼되어, 1층부터 유휴공간을 앞세워 책, 음료, 휴식이 결합된 북그라운드를 선보였고, 2층에는 아이들의 놀이 및 휴식 공간의 키즈그라운드가 중앙에 배치되어있다.

 

3. 새로운 전략으로 무장한 대형마트들

새로운 전략의 핵심은 '매장을 방문해야만 만날 수 있는 특별한 경험'이에요. 예를 들어, 일부 대형마트는 음식 코너를 대대적으로 리뉴얼하여 고급 레스토랑 못지않은 음식을 선보이고 있어요. 이는 식료품뿐만 아니라 외식을 동시에 해결할 수 있는 혜택을 제공하죠. 또한, 아이들을 위한 놀이 시설이나 특별한 이벤트를 마련해 가족 단위의 방문을 늘리고 있어요. 심지어 일부 대형마트는 미술 전시나 작은 콘서트 같은 문화 행사를 통해 소비자들이 더 자주 찾아오고 싶어 하게 만들고 있습니다.

 

대형마트들은 본업의 경쟁력을 강화하기 위해 그동안 쌓아온 유통 전문성 및 노하우를 바탕으로 체질 개선에 나서고 있습니다. 장기적으로는 다양한 카테고리와 경험을 결합한 '타운화' 전략을 통해 더욱 큰 상권을 형성하고, 지역 내 고객 유입을 극대화하려는 계획을 갖고 있습니다. 이러한 변화는 대형마트들이 앞으로도 오프라인 유통의 강자로 자리 잡을 수 있는 핵심 전략으로 자리 잡고 있습니다.

 

4. 대형마트 전략의 장점과 단점

이런 새로운 대형마트 전략에는 여러 장점이 있어요. 첫째로, 단순 구매만을 목적으로 한 기존의 오프라인 매장보다 방문 이유가 다양해져 고객 유입이 증가한다는 점이죠. 둘째, 고객 체류 시간이 길어지면서 자연스럽게 더 많은 소비가 이뤄질 가능성이 높아요. 그러나 단점도 물론 존재해요. 리뉴얼과 같은 시설 변경에는 많은 비용이 들기 때문에, 초기 투자 부담이 크다는 것이죠. 또한, 만약 기대한 만큼의 효과를 얻지 못할 경우 투자 대비 손실이 클 수도 있습니다.

 

5. 이런 전략을 실생활에서 어떻게 활용할 수 있을까요?

이런 새로운 전략들을 소비자로서도 충분히 활용할 수 있는 팁이 있어요. 먼저, 가족 단위로 주말 나들이 장소로 활용해 보세요. 음식 코너에서 식사를 해결하고, 놀이 시설이나 문화 행사를 통해 아이들과 함께 시간을 보내는 멋진 주말을 보낼 수 있어요. 또한, 다양한 세일 정보나 이벤트를 체크하여 저렴한 가격에 좋은 상품을 구입할 수 있는 기회를 놓치지 마세요. 새로운 대형마트는 단순한 쇼핑 이상의 경험을 제공하기 때문에, 이를 잘 활용하면 더욱 만족스러운 쇼핑이 가능합니다.

 

6. 자주 묻는 질문들

대형마트의 새로운 전략에 대해 자주 묻는 질문 몇 가지를 살펴볼게요. 먼저, '가격이 오를까요?'라는 질문이 많아요. 새로운 시설과 경험을 제공하는 만큼 일부 가격이 오를 수 있지만, 전체적인 물가나 경쟁을 고려하여 큰 변동은 없을 가능성이 높아요. '정말 방문할 가치가 있을까요?'라는 질문도 자주 듣는데, 이는 직접 방문해 보시면 실제로 다양한 경험과 혜택을 느낄 수 있어요. 마지막으로 '이 전략이 얼마나 지속될까요?'라는 질문인데, 이는 현재로서는 긍정적인 반응을 얻고 있어 앞으로도 계속 발전할 가능성이 높아요.

 

각 대형마트들은 앞으로도 실험적인 매장 포맷을 시도하며 소비자들의 관심을 끌기 위한 차별화된 전략을 선보일 예정입니다.

이와 같은 트렌드는 대형마트가 변화하는 소비자 요구에 대응하기 위한 노력의 일환이며, 향후 유통 업계 전반에 걸쳐 중요한 영향을 미칠 것으로 기대됩니다.

✅ 결론

이제 여러분도 대형마트의 새로운 전략에 대해 이해하셨을 거예요. 이커머스의 성장으로 대형마트가 위기를 맞이했지만, 다양한 체험과 경험을 제공하는 공간으로 변모함으로써 새로운 기회를 만들고 있어요. 단순한 쇼핑을 넘어 가족들과 함께 즐길 수 있는 공간으로 거듭나고 있는 대형마트, 여러분도 한 번 방문해 보세요. 엄청난 변화를 직접 경험해 보면 아마 큰 감동을 느낄 수 있을 거예요!

728x90
반응형
LIST
728x90
반응형
SMALL

지난 시간 역전파의 덧셈과 곱셈 노드에 대하여 알아보는 시간을 가졌습니다.

2024.02.22 - [Programming/Deep Learning] - [Python/DeepLearning] #10.4. 역전파) 덧셈 노드와 곱셈 노드

 

[Python/DeepLearning] #10.4. 역전파) 덧셈 노드와 곱셈 노드

지난 글을 통해 계산 그래프의 역전파가 연쇄 법칙에 따라서 진행되는 모습을 이야기해 보았습니다. 2024.02.15 - [Programming/Deep Learning] - [Python/DeepLearning] #10.3. 역전파) 계산 그래프ᄅ

yuja-k.tistory.com

이번 시간에는 역전파의 완전 마지막! 활성화 함수 계층을 구현해 보도록 하겠습니다! 이 이상의 #10을 쪼개진 않겠습니다...

활성화 함수 계층 구현

 

드디어 지금 만든 계산 그래프를 신경망에 적용시켜 볼 수 있습니다!

여기에서는 신경망을 구성하는 층(계층) 각각을 클래스 하나씩으로 구현했는데요. 우선은 활성화 함수인 ReLU와 Sigmoid 계층을 구현해 보겠습니다!

 

ReLU 계층 만들기

먼저. 활성화 함수로 사용되는 ReLU의 수식은 다음과 같습니다.

위의 식을 미분하면 다음처럼 구할 수 있습니다.

순전파 때의 입력인 x가 0보다 크면 역전파는 상류의 값을 그래도 하류로 흘립니다.

반면에 순전파 때 x가 0 이하면 역전파 때는 하류로 신호를 보내지 않습니다.( 0을 보내기 때문입니다).

계산 그래프로는 다음 처럼 그릴 수 있겠네요!

 

그럼 본격적으로 ReLU 계층을 구현해 보도록 하겠습니다!

신경망 계층의 forward()와 backward() 함수는 넘파이 배열을 인수로 받는다고 가정합니다.

 

신경망 레이어 만들기
  • ReLU
  • Sigmoid
  • Affine layer( 기하학 레이어 - Fully Connected, Dense )
  • SoftMax + Loss layer
ReLU 구현
class ReLU:
  # mask : 순전파 시에 0이나 음수였던 인덱스를 저장하기 위함이다.
  # mask가 있어야 순전파 때 0이었던 부분을 역전파 때 0으로 만들어 줄 수 있다.
  def __init__(self):
    self.mask = None

  def forward(self, x):
    self.mask = (x <= 0)# 매개변수로 들어온 넘파이배열 x의 원소가  0이하인지 판단하기
    out = x.copy() # 원본 배열 복사
    out[self.mask] = 0 # 0보다 작은 원소들을 0으로 만들기

    return out

  # 순전파 때 음수였던 부분을 0으로 만든다.
  # 음수였었던 인덱스를 기억하고 있다가 (self.mask) 미분값 전달시에 해당 인덱스를 0으로 만든다.
  def backward(self, dout):
    dout[self.mask] = 0 # 상류에서 들어온 값에서 0보다 작은 값들에 대해 0으로 치환
    dx = dout # 완성된 ReLU 배열 리턴

    return dx

완성된 ReLU 계층을 np.array 배열을 넣어서 테스트해보겠습니다.

x = np.array([ [1.0, -0.5],
               [-2.0, 3.0] ])

print(x)

relu = ReLU()
relu.forward(x)

relu.mask

dx = np.array([ [-0.1, 4.0],
                [1.3, -1.1] ])

relu.backward(dx)

Sigmoid 계층 만들기

 

다시 한번 시그모이드 함수를 살펴보도록 하죠!

위 식을 계산 그래프로 그리면 다음과 같습니다.

 

X와 + 노드 말고 exp와 '/' 노드가 새롭게 등장했는데요, exp 노드는 𝑦=𝑒𝑥𝑝(𝑥) 계산을 수행하고, '/' 노드는 𝑦=1𝑥를 수행합니다. 그림과 같이 시그모이드의 계산은 국소적 계산의 순전파로 이루어집니다. 이제 역전파를 알아볼 텐데요, 각 노드에 대한 역전파를 단계별로 알아보도록 하겠습니다.

1단계

'/' 노드를 미분하면 다음과 같습니다.

위처럼 상류에서 흘러 들어온 값에 𝑦2(순전파의 출력을 제곱한 후 음수를 붙인 값)을 곱해서 하류로 전달시키게 됩니다. 계산 그래프에서는 다음과 같습니다.

2단계

'+' 노드는 상류의 값을 여과 없이 하류로 보냅니다. 계산 그래프의 결과는 다음과 같아집니다.

3단계

'exp'노드는 𝑦=𝑒𝑥𝑝(𝑥) 연산을 수행하며, 그 미분은 다음과 같습니다.

계산 그래프에서는 상류의 값에 순전파 때의 출력(이 예에서는 𝑒𝑥𝑝(𝑥))을 곱해 하류로 전파합니다.

4단계

제일 마지막 X 노드는 순전파 때의 값을 서로 바꿔 곱합니다. 이 예에서는 -1을 곱하면 될 것 같습니다.

총 4 단계를 거쳐 Sigmoid 계층의 역전파를 계산 그래프로 완성해 보았습니다. 역전파의 최종출력인 𝐿/𝑦*𝑦2*𝑒𝑥𝑝(𝑥)) 값이 하류 노드로 전파됩니다. 그런데 𝐿/𝑦*𝑦2*𝑒𝑥𝑝(𝑥)를 순전파의 입력 𝑥와 출력 𝑦만으로 계산할 수 있다는 것을 알 수 있는데요, 따라서 계산 중간 과정을 모두 묶어서 다음처럼 단순한 그림으로 표현이 가능합니다.

또한 𝐿/𝑦*𝑦2*𝑒𝑥𝑝(𝑥)는 다음 처럼 정리할 수 있습니다.

이처럼 Sigmoid 계층의 역전파는 순전파의 출력 y 만으로도 계산할 수 있습니다.

그렇다면, Sigmoid 계층을 파이썬으로 직접 만들어 보겠습니다.

Sigmoid 구현하기
class Sigmoid:
  def __init__(self):
    self.out = None

  # 순전파
  def forward(self, x):
    out = 1 / ( 1 + np.exp(-x) )
    self.out = out

    return out

  # 역전파
  def backward(self, dout):
    dx = dout * self.out * (1.0 - self.out)
    return dx

 

이 구현은 단순히 순전파의 출력을 인스턴스 변수 out에 보관했다가, 역전파 계산 때 그 값을 사용합니다.

지금까지 역전파의 단계별 구현을 해보았습니다. 

 

다음 시간에는 오차역전파의 Affine/Softmax 계층 신경망의 순전파에 대하여 구현해 보도록 하겠습니다.

728x90
반응형
LIST
728x90
반응형
SMALL

지난 글을 통해 계산 그래프의 역전파가 연쇄 법칙에 따라서 진행되는 모습을 이야기해 보았습니다. 

2024.02.15 - [Programming/Deep Learning] - [Python/DeepLearning] #10.3. 역전파) 계산 그래프를 통한 역전파 이해

 

[Python/DeepLearning] #10.3. 역전파) 계산 그래프를 통한 역전파

지난 시간, 수식을 통한 오차역전파법에 대하여 이해해 보았습니다. 2024.02.08 - [Programming/Deep Learning] - [Python/DeepLearning] #10.2. 역전파) 수식을 통한 오차역전파

yuja-k.tistory.com

이번에는 덧셈 노드와 곱셈 노드의 역전파의 구조에 대하여 알아보도록 하겠습니다!

 

단순한 계층부터 구현하기

 

수치적인 오차역전파법, 계산 그래프를 이용한 역전파의 의미에 대해 살펴보았습니다. 본격적으로 파이썬으로 역전파를 구현하고, 이를 신경망에 집어넣어 실제 오차역전파를 구현해 보도록 하겠습니다. 일전에 수식을 이용해 오차역전파법을 공부했고, 계산 그래프를 이용해 쇼핑에 대한 역전파도 공부해 보았습니다. 신경망이라고 해서 별 다를 것이 없는 게, 신경망의 모든 계산은 덧셈과 곱셈을 이용해 수행됩니다. 따라서 아주 간단한 덧셈 계층과 곱셈 계층부터 구현해 보도록 하겠습니다. 모든 계층은 순전파와 역전파를 모두 처리할 수 있도록 공통의 메소드를 구현할 것입니다.

  • forward : 순전파
  • backward : 역전파

 

덧셈 노드의 역전파

먼저 𝑧=𝑥+𝑦라는 식을 대상으로 역전파를 살펴보도록 하겠습니다. 우선 𝑧=𝑥+𝑦의 미분은 다음과 같이 계산할 수 있을 것입니다.

𝑥, 𝑦에 대한 각각의 편미분 값이 모두 1이 되는 것을 확인할 수 있습니다. 계산 그래프로는 다음과 같이 표현이 가능합니다.

 

역전파 때는 상류에서 보내진 미분 값( 여기에서는 𝐿𝑧 )에 1을 곱하여 하류로 흘려보냅니다. 즉, 덧셈 노드의 역전파는 1을 곱하기만 할 뿐 입력된 값을 그대로 다음 노드로 보내게 됩니다. 위 예에서는 상류에서 전해진 미분 값을 𝐿𝑧로 표현 하였는데 이는 최종적으로 𝐿이라는 값을 출력하는 큰 계산 그래프를 가정하였기 때문입니다.

 

즉, 국소적 미분이 가장 오른쪽의 출력에서 시작하여 노드를 타고 역방향(왼쪽)으로 전파된 것을 그렸다고 생각하면 됩니다. 덧셈 노드에 대한 역전파를 간단하게 살펴보겠습니다. 가령 10+5=15라는 계산이 있고, 상류에서 (오른쪽) 1.3이라는 값이 흘러나오면 다음과 같이 계산 그래프를 그려볼 수 있습니다.

 

다시 말해, 덧셈 노드 역전파는 입력 신호를 다음 노드로 출력할 뿐이므로 1.3을 그대로 다음 노드로 전파합니다. 바로 코드로 구현해 보도록 하겠습니다.

  • 순전파 : 단순히 두 값을 더한다.
  • 역전파 : 다음 노드로부터 들어온 미분값을 그대로 흘려보낸다.
  • 순전파 시에 입력된 값을 저장하고 있을 필요는 없다.
import numpy as np

class AddLayer:

  def __init__(self):
    pass

  # 덧셈 노드로 들어온 값을 더해서 리턴
  def forward(self, x, y):
    out = x + y
    return out

  def backward(self, dout):
    # 모양새 맞추기
    dx = dout * 1
    dy = dout * 1

    return dx, dy

곱셈 노드의 역전파

이번엔 곱셈 노드의 역전파입니다.𝑧=𝑥𝑦 라는 식을 예로 들어 보겠습니다. 이 식의 미분은 다음과 같습니다.

계산 그래프로는 다음과 같이 그릴 수 있습니다.

 

곱셈 노드의 역전파는 상류의 값에 순전파 때의 입력 신호들을 서로 바꾼 값을 곱해서 하류로 보내고 있습니다. 즉, 순전파 때 𝑥였다면 역전파에서는 𝑦, 순전파 때 𝑦였으면 역전파에서는 𝑥로 바꾼다는 의미가 됩니다. 구체적인 예로 10⋅5=50이라는 계산이 있고, 역전파 때 상류에서 1.3 값이 흘러온다고 가정해 보겠습니다. 이를 계산 그래프로 그리면 다음과 같이 됩니다.

  • 순전파 : 두 값을 곱한다
  • 역전파 : 들어온 두 값에 미분값을 곱해서 반대로 전달한다.
  • 곱할 값들을 저장하고 있어야 한다. 역전파시에 미분값을 곱한 다음 반대로 전달해야 하니까
class MulLayer:

  def __init__(self):
    self.x = None
    self.y = None


  def forward(self, x, y):
    # 계산할 값들을 노드에 저장하고 있는다.
    self.x = x
    self.y = y

    out = x * y
    return out

  def backward(self, dout):
    dx = dout * self.y
    dy = dout * self.x

    return dx, dy

 

곱셈의 역전파에서는 입력 신호를 바꾼 값을 곱하여야 하는1.35=6.5. 다른 하나는 1.310=13이 되는 것이 확인됩니다. 덧셈의 역전파에서는 상류의 값을 그대로 흘려보내서 순방향 입력 신호의 값은 필요하지 않았습니다만, 곱셈의 역전파에서는 순방향 입력신호의 값이 필요합니다. 그래서 곱셈 노드를 구현할 때는 순전파의 입력 신호를 변수에 저장해 둡니다.

 

2024.02.15 - [Programming/Deep Learning] - [Python/DeepLearning] #10.3. 역전파) 계산 그래프를 통한 역전파 이해

 

[Python/DeepLearning] #10.3. 역전파) 계산 그래프를 통한 역전파

지난 시간, 수식을 통한 오차역전파법에 대하여 이해해 보았습니다. 2024.02.08 - [Programming/Deep Learning] - [Python/DeepLearning] #10.2. 역전파) 수식을 통한 오차역전파

yuja-k.tistory.com

앞서 #10. 3에서 사과와 귤 계산 기억하시나요? 사과 쇼핑의 예를 다시 한번 이어가 보자면!

이 문제에서는 '사과의 가격', '사과의 개수', 소비세'라는 세 변수 각각이 최종 금액에 어떻게 영향을 주느냐를 풀고자 합니다. 이는

  • 사과 가격에 대한 지불 금액의 미분
  • 사과 개수에 대한 지불 금액의 미분
  • 소비세에 대한 지불 금액의 미분을 구하는 것에 해당합니다. 이를 계산 그래프의 역전파를 사용해서 풀면 다음 그림과 같게 됩니다.

곱셈 노드의 역전파에서는 입력 신호를 서로 바꿔서 하류로 흘려보내는 것이 보입니다. 위 그림의 결과를 보면 사과 가격의 미분은 2.2, 사과 개수의 미분은 110, 소비세의 미분은 200입니다. 이를 해석해 보면

  • 소비세와 사과 가격이 같은 양만큼 오른다면
    • 최종 금액에는 소비세가 200의 크기로, 사과 가격이 2.2 크기로 영향을 준다고 할 수 있겠습니다.
    • 단, 소비세 1은 100%, 사과 가격 1은 1원

정리할 겸 해서 '사과와 귤 쇼핑'의 역전파를 풀어보죠!

 

초기화 함수인 init에서는 단순히 인스턴스 변수 x, y를 초기화시킵니다. 이 두 변수는 순전파 시의 입력값을 유지하기 위해 사용됩니다. forward 메소드는 순전파로써, x, y 를 입력받아 그 값을 인스턴스 변수에 저장한 후 곱해서 반환 합니다. backward 메소드는 상류에서 넘어온 미분값(dout)을 입력받아 서로 바꿔 곱한 후 반환하여 하류로 흘려보냅니다. 사과 쇼핑의 예를 들어보면 다음처럼 그림으로 설명이 가능합니다. MulLayer를 사용하여 위 그림의 순전파를 다음과 같이 확인해 볼 수 있습니다.

# 사과만 테스트
apple = 100 # 사과 1개당 가격
apple_cnt = 2 # 사과 개수
tax = 1.1 # 소비세

# 계층은 2개가 필요함
# (apple * apple_cnt) * tax

# 레이어 준비
mul_apple_layer = MulLayer()
mul_tax_layer   = MulLayer()

# 순전파 먼저 수행
apple_price = mul_apple_layer.forward(apple, apple_cnt)
price       = mul_tax_layer.forward(apple_price, tax)

print("최종 사과 가격 : {}".format(price))

각 변수에 대한 미분은 backward에서 구할 수 있습니다.

# 역전파 구현

dprice = 1 # d돈통 / d포스기 # 최종 가격에 대한 미분. d가격 / d가격 = 1
dapple_price, dtax = mul_tax_layer.backward(dprice)
dapple, dapple_cnt = mul_apple_layer.backward(dapple_price)

print("사과 가격 * 사과 개수에 대한 미분값 : {}".format(dapple_price))
print("사과 가격에 대한 미분값 : {}".format(dapple))
print("사과 개수에 대한 미분값 : {}".format(dapple_cnt))
print("소비세에 대한 미분값 : {}".format(dtax))

여기서 눈여겨보아야 할 것은 backward()의 호출 순서는 forward() 호출 순서의 반대라는 점입니다. 그리고 backward()가 받는 매개변수는 '순전파 출력에 대한 미분'임을 주의해야 합니다.

덧셈 계층 구현

두 번째로 구현할 계층은 덧셈 계층입니다.

 
덧셈 계층에서는 초기화 자체가 필요 없기 때문에 init에서 아무런 일도 하지 않습니다. 덧셈 계층의 forward() 에서는 입력받은 두개의 매개변수 x, y를 더해서 반환시키겨, backward() 에서는 상류에서 내려온 미분(dout)을 그대로 하류로 흘릴 뿐입니다. 이제 사과 2개와 귤 3개를 사는 상황을 그려 보겠습니다.
# 사과와 귤 계산하기
apple = 100
apple_cnt = 2

orange = 150
orange_cnt = 3

tax = 1.1

 

1 계층

  • 각 과일에 대한 개수 계산 ( 과일 가격 * 개수 )
mul_apple_layer = MulLayer() # 사과 개수 * 사과 가격
mul_orange_layer = MulLayer() # 귤 개수 * 귤 가격

 

2 계층

  • 사과 총 가격 + 귤 총 가격
add_apple_orange_layer = AddLayer() # 사과 총 가격 + 오렌지 총 가격

3 계층

  • 과일들의 총 가격 * 소비세
mul_tax_layer = MulLayer() # 과일 총 가격 * 소비세

 

연산 수행 (순전파)
# 1 계층
apple_price = mul_apple_layer.forward(apple, apple_cnt)
orange_price = mul_orange_layer.forward(orange, orange_cnt)

# 2 계층
total_price = add_apple_orange_layer.forward(apple_price, orange_price)

# 3 계층
price = mul_tax_layer.forward(total_price, tax)

print("최종 가격 : {}".format(int(price)))

연산 수행 (역전파)
dprice = 1 # d돈통 / d포스기

# dprice / dtotal_price, dprice / dtax
dtotal_price, dtax = mul_tax_layer.backward(dprice)

# d돈통 / dapple_price = ( d돈통 / d포스기 ) * (d돈통 / dtotal_price) * (dtotal_price / dapple_price)
dapple_price, dorange_price = add_apple_orange_layer.backward(dtotal_price)

dorange, dorange_cnt = mul_orange_layer.backward(dorange_price)
dapple, dapple_cnt = mul_apple_layer.backward(dapple_price)

print("사과 개수에 대한 미분값 : {}".format(dapple_cnt))
print("사과 가격에 대한 미분값 : {}".format(dapple))

print("귤 개수에 대한 미분값 : {}".format(dorange_cnt))
print("귤 가격에 대한 미분값 : {}".format(dorange))

지금까지 역전파의 덧셈 노드와 곱셈 노드를 알아보았습니다! 길고 긴 역전파의 마지막 종착지는 활성화 함수의 계층 구현으로 마무리하려 합니다. 다음 시간에는 신경망 레이어 만들기를 설명해 보도록 하겠습니다.

728x90
반응형
LIST
728x90
반응형
SMALL

지난 시간, 수식을 통한 오차역전파법에 대하여 이해해 보았습니다.

2024.02.08 - [Programming/Deep Learning] - [Python/DeepLearning] #10.2. 역전파) 수식을 통한 오차역전파법 이해

 

이번 시간에서는 계산 그래프를 통한 역전파에 대하여 알아보도록 하겠습니다!

오차역전파법을 위한 계산 그래프

 

일전에 수식으로 풀어본 오차역전파법은 수학을 오랫동안 놓았거나 수식으로만 생각하면 본질을 놓칠 우려가 있습니다. 이번에 우리가 해볼 내용은 계산 그래프를 이용해 오차역전파법을 이해하는 것인데요, 수식으로 오차역전파법을 이해하는 것보다는 약간은 부정확할 수 있으나 최종적으로는 수식으로 알아본 오차역전파법을 이해할 수 있고, 실제 코드 구현까지 해보도록 하겠습니다. 계산 그래프로 설명한다는 아이디어는 안드레 카패스의 블로그 또 그와 페이페이 리 교수가 진행한 스탠퍼드 대학교 딥러닝 수업 CS321n을 참고했습니다.

 

계산 그래프

 

계산 그래프(computational graph)는 계산 과정을 그래프로 그려낸 것입니다. 그래프는 우리가 잘 아는 그래프 자료 구조 형태로 되어 있으며, 처음에 쉽게 접근하기 위해 계산 그래프를 통한 간단한 문제를 풀어보도록 하겠습니다. 먼저 익숙해지자!라는 이야기입니다. 예를 들어 다음과 같은 예시가 있다고 하죠, "A라는 사람이 1개 100원인 사과를 2개 샀습니다. 이때 지불 금액을 구하세요, 단 소비세 10%가 부과됩니다."라는 예시를 계산그래프로 표현하면 다음과 같아집니다.

 

처음에 사과의 100원이 'x 2' 노드로 흘러 200원이 된 다음 소비세 계산을 위해 'x 1.1' 노드를 거쳐 최종적으로는 220원이 됩니다. 위 그래프에 따르면 최종 답은 220원이 된다는 사실을 알 수 있네요 위의 그림에서는 계산 노드를 각각 'x 2', 'x 1.1'로 표현했지만 '2'와 '1.1'을 각각 사과의 개수와 소비세에 대한 변수가 되기 때문에 따로 빼서 다음과 같이 표기할 수 있습니다.

 

그럼 다음 문제를 풀어 보도록 하겠습니다.

"A가 사과를 2개, 귤을 3개 샀습니다. 사과는 1개에 100원, 귤은 1개 150원입니다. 소비세가 10% 부과될 때 A가 지불해야 할 금액은?" 위 문제도 계산그래프로 풀어볼 수 있습니다. 이때의 계산 그래프는 다음과 같겠네요!

 

위 문제에서는 새로운 노드인 덧셈 노드가 추가되었습니다. 덧셈 노드가 추가되어 사과의 가격과 귤의 가격을 합치는 모습이 보이고 있습니다. 왼쪽에서 오른쪽으로 순차적으로 계산을 끝내고 제일 마지막에 1.1을 곱하면 우리가 원하는 값인 715원이 나오고 끝나게 됩니다. 계산 그래프를 이용한 문제풀이는 다음과 같이 해석할 수 있습니다.

  1. 계산 그래프를 구성
  2. 그래프에서 계산을 왼쪽에서 오른쪽으로 진행

이처럼 '계산을 왼쪽에서 오른쪽으로 진행'하는 단계를 순전파(forward propagation)라고 합니다. 순전파는 계산 그래프의 출발점부터 종착점으로의 전파단계를 그려줍니다. 역전파(backword propagation)는 무엇일까요? 바로 '오른쪽에서 왼쪽으로 전파되는 단계를 의미합니다!


국소적 계산

 

계산 그래프의 특징은 '국소적 계산'을 전파함으로써 최종 결과를 얻는다는 점에 있습니다. 여기서 '국소적'이란, "자신과 직접 관계된 작은 범위"를 의미하는데, 뭔가 떠오르지 않으시나요? 수학으로 따지면 바로 편미분을 의미한다는 것입니다. 즉, 국소적 계산은 전체에서 어떤 일이 벌어지든 상관없이 자신과 관계된 정보만을 토대로 결과를 낼 수 있다는 이야기입니다. 구체적인 예를 들어 보겠습니다. 여러분이 마트에서 사과 2개를 포함한 여러 가지의 물품들을 구매하는 상황을 구해보겠습니다. 그렇다면 사과에 대한 국소적 계산을 진행한다고 이해할 수 있는데요, 그래프로 확인해 보겠습니다.

 

위 그림에서 여러 식품을 구매하여( 복잡한 계산을 하여) 4,000원이라는 금액이 나왔고, 여기에 사과 가격인 200원을 더해 총 4,200원이 나왔습니다. 이는 '사과에 대한 국소적 계산'이기 때문에, 4,000원이 어떻게 나왔는지는 전혀 신경 쓸게 없다는 이야기가 됩니다. 그냥 단순히 복잡한 계산의 결과물인 4,000원과 사과의 가격인 200원을 더해 4,200을 알아내면 된다는 것이죠. 중요한 점은 계산 그래프는 이처럼 국소적 계산에 집중한다는 것입니다. 전체 계산 자체가 아무리 복잡해도 각 단계에서 하는 일은 해당 노드의 '국소적 계산'일뿐입니다. 국소적 계산은 단순하지만 그 결과를 전달함으로써 전체를 구성하는 복잡한 계산을 해낼 수 있습니다. 마치 자동차 조립을 하는 것과 비슷한데요, 각각의 부품을 복잡하게 만들어 내고, 최종적으로 합쳐 차를 완성하는 단계라고 볼 수 있습니다.

 

계산 그래프를 사용하는 이유

 

계산 그래프의 이점은 무엇일까요? 바로 국소적 계산입니다. 전체가 아무리 복잡해도 각 노드에서는 단순한 계산에 집중하여 문제를 단순화시킬 수 있기 때문이지요, 또한 계산 그래프는 중간 계산 결과를 모두 보관할 수 있습니다. 에지에 저장되어 있는 숫자들이 그것을 의미하고 있지요, 하지만 이것 때문에 계산 그래프를 사용하진 않습니다! 계산 그래프를 사용하는 가장 큰 이유는 역전파를 통해 '미분'을 효율적으로 계산할 수 있기 때문입니다.

계산 그래프의 역전파 첫 번째 문제에 대한 계산 그래프는 사과 2개를 사서 소비세를 포함한 최종 금액을 구하는 것이었습니다. 여기서 새로운 문제를 제시해 보겠습니다. "사과 가격이 오르면 최종 금액에 어떠한 영향을 미칠 것인가?"가 문제입니다. 즉 이는 사과 가격에 대한 지불 금액의 미분을 구하는 문제에 해당됩니다. 사과 값을 x로, 지불 금액을 L이라 했을 때

로 표현이 가능하다는 것이죠, 즉 이 미분값은 사과 값이 '아주 조금' 올랐을 때 지불 금액이 얼마나 증가하느냐를 표시한 것입니다. 즉, '사과 가격에 대한 지불 금액의 미분' 같은 값은 계산 그래프에서 역전파를 하면 구할 수 있게 됩니다. 다음 그림에서는 계산 그래프 상의 역전파에 의해 미분을 구할 수가 있습니다. 아직 역전파가 어떻게 이뤄지는지에 대해서는 이야기하지 않았습니다!

위 그림에서 굵은 화살표로 역전파를 표현해 보았습니다. 이 전파는 각각 노드에 대한 국소적 미분을 전달합니다. 즉, 들어오고 있는 사과의 개수나 소비세에 대한 국소적으로 미분을 진행하였기 때문에, 소비세와 사과의 개수 같은 변수에 대한 미분만 진행했다는 이야기입니다. 그리고 그 미분값은 화살표 방향으로 적어내고 있습니다. 이 예에서 역전 파는 오른쪽에서 왼쪽으로 '1 -> 1.1 -> 2.2' 순으로 미분값을 전달하고 있습니다. 이 결과로부터 알 수 있는 사실은 '사과 가격에 대한 지불금액이 미분'값은 2.2라는 것을 알 수 있게 됩니다. 즉, 사과 가격이 1원 오르면 최종 가격은 2.2원 오른다는 것이죠. 여기에서는 사과 가격에 대한 미분만 구했지만, '소비세에 대한 지불 금액의 미분'이나 '사과 개수에 대한 지불 금액의 미분'도 같은 순서로 구해낼 수가 있습니다. 그리고 그때는 중간까지 구한 미분 결과를 공유할 수 있어서 다수의 미분을 효율적으로 계산할 수 있습니다. 이처럼 계산 그래프의 이점은 순전파와 역전파를 활용해서 각 변수의 미분을 효율적으로 구할 수 있다는 것입니다.

 

연쇄법칙과 계산 그래프

 

연쇄법칙 계산을 계산 그래프로 나타낼 수 있습니다. 2 제곱 계산을 '**2' 노드로 나타내면 다음과 같습니다.

오른쪽에서 왼쪽으로 신호가 전파되는 모습을 볼 수 있습니다. 역전파에서의 계산 절차는 노드로 들어온 입력 신호에 그 노드의 국소적 미분인 편미분을 곱한 후 다음 노드로 전달합니다. 예를 들어 **2 노드에서의 역전파를 보면 입력은 𝑧∂𝑧이며, 이에 대한 국소적 미분인 𝑧𝑡를 곱해 다음 노드로 넘깁니다. 맨 왼쪽의 역전파를 보면 x에 대한 z의 미분이 연쇄법칙에 따라서

가 된다는 사실을 알아낼 수 있고, 이를 계산하면

가 된다는 사실을 알아낼 수 있습니다.

지금까지 아주아주 긴 오차역전파법을 위한 계산 그래프를 위한 이해를 수식으로 알아보았습니다! 다음 세션을 통해 최종적으로 코드 구현을 해보겠습니다.

728x90
반응형
LIST
728x90
반응형
SMALL

지난 블로그에서는 합성함수의 미분과 연쇄법칙에 대하여 알아보았습니다.

2024.02.06 - [Programming/Deep Learning] - [Python/DeepLearning] #10.1. 역전파) 합성함수의 미분과 연쇄법칙

 

이번에는 수식을 통한 오차역전파법에 대하여 알아보도록 하겠습니다!

오차역전파법

 

가중치 매개변수에 대한 손실 함수의 기울기를 구하기 위해 이전에 경사하강법을 수치 미분을 이용해 구현해 보았습니다. 수치 미분은 단순하고 구현하기도 쉽지만 계산 시간이 오래 걸린다는 치명적인 단점이 있습니다. 이번에 배워볼 오차역전파법(Back Propagation)은 가중치 매개변수의 기울기를 효율적으로 계산시킬 수 있습니다.

 

비용함수(Cost Function) 미분의 어려움

 

최적의 가중치와 편향을 구할 수 있는 지표로써 비용함수(Cost Function)를 사용한다고 앞서 배웠습니다. 경사하강법을 이용하지 않고 가중치와 편향을 구해 볼 수도 있는데, 어떻게 해결하고, 왜 경사하강법을 사용해야 하는지 먼저 살펴보겠습니다. 이미지 입력을 예로 들어볼 텐데요, 3 X 4 형태의 이미지를 64개 입력한다고 생각해 보겠습니다.

  • 입력층엔 12개의 데이터 (𝑥1 ~ 𝑥12)
  • 은닉층에 3개의 유닛
  • 출력층에 2개의 유닛

위의 규칙에서 비용함수로 제곱오차식을 이용한다고 생각하고, 64개의 이미지를 입력한다라고 예상 해 봤을 때 𝑘번째 이미지의 제곱오차값 𝐶 𝐶𝑘로 두면 다음과 같은 식을 구할 수 있습니다.

 

위의 식에서 𝑡 𝑘 번째 이미지의 정답 데이터, 𝑎는 신경망이 예측한 데이터입니다. 이를 학습 데이터 전체로 적용한다고 생각하면

라는 비용함수 𝐶𝑇를 얻을 수 있습니다. 하지만 비용함수 𝐶𝑇는 매우 복잡한 함수입니다. 결정해야 할 가중치와 편향은 47개나 있습니다. (입력값 12개 X 입력에 대한 유닛의 가중치 3개 + 각 유닛별 편향 3개) + ( 출력층으로 향하는 입력값 3개 X 출력층으로 향하는 가중치 2개 + 출력층의 편향 2개)

따라서 각 가중치와 편향을 결정하기 위한 미분 방정식 자체가 총 47개라는 이야기가 됩니다.

위의 방정식을 푸는 것은 매우 어렵기 때문에 경사하강법이 등장합니다.


 

다시 살펴보는 경사하강법

 

다시 경사하강법을 정리해 보기 전 수학적으로 경사하강법을 정리해 보도록 하죠

미분 가능한 함수 𝑓(𝑥1,𝑥2,,𝑥𝑛))에서 변수에 차례로 𝑥1+Δ𝑥1,𝑥2+Δ𝑥2,,𝑥𝑛+Δ𝑥𝑛 이라고 작은 값을 더해 변화시켰을 때 함수 𝑓가 최솟값이려면 다음 함수가 성립합니다.

 

위 식을 가중치와 편향을 갖는 식에 대입해 봤을 때는 다음과 같이 정리가 가능합니다.

위의 식을 이용하면 컴퓨터에서 𝐶𝑇가 최솟값이 되는 가중치 및 편향을 계산할 수 있습니다. 좌변에 위치한 현재 매개변수의 위치에 우변에서 구현 변위 벡터를 더하면 새로운 위치가 구해진다고 볼 수 있는데요, 이를 매개변수들에 대한 행렬로 만들어 일반화시키면 다음과 같습니다.

 

위 계산식을 반복하여 최솟값이 되는 가중치와 편향을 계산한다고 보면 될 것 같습니다.


 

미분지옥

 

다시 한번 경사하강법이 아닌, 일반적인 다변수 미분을 통해 살펴볼 것이 있습니다. 위의 예에서 47개의 파라미터가 존재하고, 이를 미분을 통해 구해야 한다고 이야기했는데요, 간단한 예로 성분 𝑤211의 기울기를 계산해 보겠습니다.

𝑘 번째 이미지에서 얻은 출력과 정답 데이터의 제곱오차식 𝐶𝑘에 대한 𝑤211의 기울기는 다음과 같이 구할 수 있습니다.

입력데이터를 넣었을 때 처음으로 만날 수 있는 가중치인 𝑤211을 구하는데도 어마어마한 식이 필요한 것 같습니다. 여기서 64번째 이미지까지의 𝑤211의 기울기를 구해보면 식은 다음과 같이 정리가 가능합니다.

 

위 식의 각 항마다 = 0을 붙여서 미분방정식으로 만들어 계산하면 편미분 결과를 가중치와 편향의 식으로 표현이 가능하겠죠?

항 하나하나의 계산은 단순하지만 여러 항을 한꺼번에 계산하려면 '미분 지옥'이라고 하는 미분의 복잡성과 방대함에 압도당하고 맙니다. 그래서 고안된 것이 오차역전파법(Back Propagation)입니다.


기울기 계산에 대한 단순화

 

상당히 복잡한 위 계산 과정에서 발견할 수 있는 특징이 있는데, 바로 기울기 성분은 학습 결과 하나하나의 단순한 합이라는 것입니다. 즉, 비용함수 𝐶𝑇의 편미분은 유닛마다 얻어낸 학습 결과 각각에서 얻은 미분의 합이라고 볼 수 있습니다! 즉, 가중치에 대한 기울기를 구하려면 제곱오차 𝐶의 편미분을 구한 결과에 학습 데이터를 대입한 후 학습 결과 전체를 더하면 64번의 편미분을 계산한 결과를 얻어낼 수 있다는 이야기입니다. 즉! 복잡해 보이는 위 수식에서 𝑎,𝑧 는 모두 우리가 구할 수 있는 상숫값 이라는 것입니다.

 𝐶𝑇의 편미분의 결과에 학습 데이터만 입력하면 실제 우리가 할 계산은 아래와 같이만 하면 된다는 이야기가 됩니다!


유닛의 오차(𝛿𝑙𝑗)

 

간단한 다변수 함수의 최솟값을 찾을 때는 제일 단순하고 쉽게 구할 수 있는 경사하강법이 효율적이지만, 변수와 파라미터가 함수와 복잡하게 얽혀 잇는 신경망이라면 경사하강법조차 계산하기 어려워져 그대로 사용할 수가 없게 됩니다. 미분 지옥에 빠져버린다는 뜻이죠, 그래서 등장한 것이 오차역전파법입니다.

오차역전파법은 복잡한 미분의 계산을 '수열의 점화식'으로 대체합니다. 이 점화식을 제공할 수 있는 것이 각 유닛의 오차(error)라고 불리는 변수 𝛿𝑙𝑗입니다. 제곱 오차 𝐶를 이용하여 정의하면 다음과 같습니다.

위의 식에서 𝑙은 레이어의 인덱스, 𝑗는 유닛의 인덱스를 의미합니다. 만약 2층 1번째 유닛의 오차와 3층 2번째 유닛의 오차를 구한다면 다음과 같이 구할 수 있겠습니다.

 


 

𝑧는 일단 입력값, 가중치와 편향을 통해 얻어진 값이라고 판단할 수 있습니다. 하지만 우리가 원하는 것은 언제나 비용함수(손실함수)의 값을 최소화할 수 있는 𝑤를 원하기 때문에, 손실함수 𝐶에 대한 𝑤를 계산하기 위해 다음과 같이 먼저 생각해야 합니다. 즉 𝐶𝑤𝛿𝑙𝑗로 표현하기 위한 과정을 지금부터 알아보겠습니다.

먼저 편미분의 연쇄법칙을 이용해 𝐶𝑤211211를 알아보겠습니다.


 

여기서 𝑧2121은𝑧21=𝑤211𝑥1+𝑤212𝑥2++𝑏21이기 때문에 다음 식을 도출해 낼 수 있습니다.


 

위의 식을 모두 정리해 보면 다음과 같은 수식이 완성됩니다.


 

이것은 무엇을 의미할까요? 손실함수에 대한 가중치의 변화량을 구하기 위해서는, 현재 층의 오차에다가 이전 층에서 흘러들어오고 있는 우리가 알 수 있는 값을 곱했다는 것을 알 수 있습니다! 조금씩 오차역전파법에 다가서고 있습니다. 아직 끝이 아닙니다. 위의 식을 일반화 해보기 위해서 다른 유닛에 대한 내용도 알아보겠습니다. 이번엔 𝐶𝑤311 (출력층)을 𝛿𝑖𝑗로 표현해 보겠습니다.

위의 식에서는 입력값인 𝑥1,𝑥2 같은 형태로 표현했지만, 유닛을 지나온 값이기 때문에 활성화 함수가 적용되어 𝑎1,𝑎2로 표현하면 𝑧31은 다음과 같이 표현 가능합니다.


 

아까와 비슷하게 𝑧31𝑤311을 구해보면 그 결과는 𝑎21가 등장합니다. 최종적으로


 

로 정리가 가능합니다. 그렇다면 편향 𝑏는 어떨까요? 계산 과정은 똑같습니다. 그 결과 𝑏21,𝑏31의 편미분은 다음과 같아집니다.


 

편향 𝑏는 그 오차가 그대로 편미분 값으로 적용된다고 볼 수 있네요. 그렇다면 마지막으로 𝛿𝑙𝑗을 일반화 해보면 다음과 같이 정리가 됩니다.


 

위의 정리된 식에서 𝑙은 현재 층 인덱스, 𝑗는 다음 유닛의 인덱스, 𝑖는 이전 유닛의 인덱스를 의미합니다. 여기서 추가적으로 살펴봐야 할 사실은 𝛿𝑙𝑗 𝛿𝑙+1𝑗의 관계에 대해서 알아볼 필요가 있습니다.

위의 일반화된 식의 의미는 유닛의 오차 𝛿𝑙𝑗만을 구하게 되면 경사하강법을 위한 비용함수 𝐶의 편미분도 한꺼번에 구할 수 있다는 이야기가 됩니다. 정리해 보겠습니다.

이어서 알아볼 내용은 무엇일까요? 신경망에서의 𝛿𝑙𝑗 𝛿𝑙+1𝑗의 관계에서 𝛿𝑙𝑗을 구하는 오차역전파법을 실제로 다뤄 보는 것입니다!


신경망과 오차역전파법

 

오차역전파법은 유닛의 오차 𝛿𝑙𝑗의 점화식을 먼저 만들고, 해당 점화식에서 복잡한 미분 계산을 해결하는 방법입니다. 오차역전파법은 복잡한 미분 계산을 단순히 수열의 점화식으로 만들어 버린다는 점입니다. 이제 실제 신경망에서 오차역전파법을 적용시키는 방법에 대해 이야기해 보겠습니다.

오차역전파법은 𝑙 𝑗번째 유닛이라고 할 수 있는 변수 𝛿𝑙𝑗을 정의합니다. 그리고 𝛿𝑙𝑗을 이용하면 제곱오차(손실함수)에 대한 기울기도 구할 수 있었는데요, 𝛿𝑙𝑗을 단순한 수열에 비유하면 정말 쉽게 말항(마지막 항)을 구해낼 수 있습니다.

수열 {𝛿𝑙𝑗}의 말항에 해당하는 오차, 즉 출력층의 오차를 구한다고 했을 때 세울 수 있는 식은 𝛿3𝑗(𝑗=1,2) 으로 설정하고 오차를 구해보도록 하겠습니다.

활성화 함수는 (𝑧)로 정의해 보도록 하겠습니다.

위 식에서 제곱오차 𝐶 및 활성화 함수에 대한 미분값 (𝑧3𝑗)이 주어졌습니다. 이를 이용하면 손쉽게 말할에 해당하는 출력층 유닛의 오차도 구할 수 있습니다.

출력층의 층 번호를 𝐿로 일반화 해서 표현이 가능합니다.

그렇다면 신경망 유닛의 오차 𝛿31을 구해보겠습니다. 활성화 함수 (𝑧)는 시그모이드 함수𝜎(𝑧)로 하겠습니다. 제일 먼저 해야 할 일은 제곱오차 𝐶를 𝑎3131로 편미분 하는 것부터 시작합니다.

위 식을 유닛의 오차를 구하기 위한 식에 대입하면 다음과 같습니다.

𝛿32 역시 같은 방식으로 계산이 가능합니다.

여기서 시그모이드 함수를 미분했었던 공식을 적용시키면


 

으로 (𝑧32)를 구체화시킬 수 있게 되고, 이를 최종적으로 적용시키면


 

식이 유도 됩니다. 위에서 유도된 식은 출력층에 대한 식입니다. 그렇다면 이전 층인 은닉층에 대한 𝛿𝑙𝑗 𝛿𝑙+1𝑗과 간단한 관계식으로 연결되어 있기 때문에 𝛿𝑙+1𝑗을 이용해 𝛿𝑙𝑗을 구하는 것도 가능해집니다. 편미분의 연쇄 법칙을 이용해서 𝛿21에 대한 다음 식을 유도할 수 있습니다.

잘 살펴보면 출력층으로부터 제곱오차를 편미분 하여 이전에 흘러들어온 값(𝑎)에 대한 𝑧의 편미분 값을 연쇄법칙으로 구하고 있는 모습이 보입니다. 위를 부분별로 살펴보도록 하겠습니다. 먼저 𝐶𝑧31𝐶𝑧32 𝛿 형태로 나타낼 수 있을 것 같습니다.

그다음𝑧31𝑎21 𝑧32𝑎21은 각각 다음처럼 구할 수 있습니다.


 

마지막 𝑎21𝑧21는 활성화 함수 (𝑧)를 통해 다음처럼 구할 수 있습니다.


 

이제 마지막으로 정리를 해보면


 

으로 𝛿21을 나타낼 수 있습니다. 𝛿22 와 𝛿23도 똑같이 정리할 수 있습니다.

이제 2층과 3층의 관계를 일반화시켜 볼 수도 있을 것 같습니다.


 

로 확인 2층과 3층의 관계에 대해 이야기할 수 있습니다. 이는 다시 𝑙과 그다음 층인 𝑙+1의 관계식으로 일반화할 수 있습니다.



 

미분을 하지 않았다?

 

수식 (𝛿31𝑤31𝑖+𝛿32𝑤32𝑖)(𝑧2𝑖)을 살펴보면 𝛿31 𝛿32은 각각 𝛿31=(𝑎31𝑡1)(𝑧31) 𝛿32=(𝑎32𝑡2)(𝑧32)에서 얻을 수 있는 것이 확인됩니다. 즉 수식 (𝛿31𝑤31𝑖+𝛿32𝑤32𝑖)(𝑧2𝑖)을 이용하면 층 2의 𝛿2𝑖의 값을 미분하지 않고 구할 수 있다는 뜻이 됩니다.

이것이 바로 오차역전파법입니다! 출력층에 있는 유닛의 오차만 구하면, 다른 유닛의 오차는 편미분 할 필요가 없게 됩니다. 보통 층의 번호가 높은 방향에서 층의 번호가 낮은 방향으로 값을 정해나갑니다. 이는 순차대로 흘러가는 수열과 반대되기 때문에 역이라는 단어를 사용하게 되는 것입니다. 마지막으로 실제 계산 예를 확인해 보겠습니다. 𝛿22를 구한다고 가정하고, 활성화 함수는 시그모이드 함수𝜎(𝑧)를 사용해 보겠습니다.

위 과정에서 확인할 수 있듯이, 미분 없이 𝛿22를 구하였습니다.

넘나 어렵죠... 수식을 통해서 오차역전파법을 이해하는 것이 좋지만, 다음은 조금 더 쉽게 이해할 수 있는 그림을 통한 오차역전파법을 다시 알아보겠습니다!

728x90
반응형
LIST
728x90
반응형
SMALL

 

이번 블로그부터는 역전파 시리즈를 시작해 보도록 하겠습니다!

 

오차역전파법을 수식으로 이해하기 위해서는 미분의 연쇄법칙에 대해서 먼저 이야기해봐야 합니다. 계산 그래프를 통한 이해에도 연쇄법칙을 알고 들어가야 하기 때문에, 먼저 미분의 연쇄법칙부터 살펴보겠습니다.

합성 함수

 

함수 𝑦=𝑓(𝑢) 𝑢 𝑔(𝑥)라면 𝑦=𝑓(𝑔(𝑥))라고 중첩해서 표현이 가능합니다. 이때 중첩 함수 𝑓(𝑔(𝑥))를 함수 𝑓(𝑢) 𝑔(𝑥)의 합성 함수라고 합니다. 예를 들어 함수 𝑧=(2𝑦)2) 2은𝑢=2𝑦와 함수 𝑧=𝑢2의 합성 함수라고 할 수 있습니다. 신경망에서의 예를 들어보면

𝑦=𝑎(𝑤1𝑥1+𝑤2𝑥2+...+𝑤𝑛𝑥𝑛+𝑏)

에서 출력 함수 𝑦는 𝑥1,𝑥2,...𝑥𝑛의 1차함수 𝑓와 활성화 함수 𝑎의 합성 함수라고 볼 수 있겠습니다. 𝑧=𝑓(𝑥1,𝑥2,...,𝑥𝑛)=𝑤1𝑥1+𝑤2𝑥2+...+𝑤𝑛𝑥𝑛+𝑏𝑦=𝑎(𝑧) 즉 다음과 같은 상황을 그려볼 수 있겠네요.

1) 데이터 입력 𝑥1,𝑥2,...,𝑥𝑛

2) 가중 입력 𝑧=𝑓(𝑥1,𝑥2,...,𝑥𝑛)=𝑤1𝑥1+𝑤2𝑥2+...+𝑤𝑛𝑥𝑛+𝑏

3) 출력 𝑦=𝑎(𝑧) 일

변수 함수의 연쇄법칙

 

함수 𝑦=𝑓(𝑢)의 변수 𝑢가 일변수 𝑢=𝑔(𝑥)일 때, 합성함수 𝑓(𝑔(𝑥))의 도함수(미분)는 다음과 같이 정의할 수 있습니다.


 

위 식을 합성 함수의 미분공식이라고 볼 수 있습니다. 또한 이를 연쇄 법칙 - chain rule이라고도 합니다. 위 식을 토대로 살펴보면𝑥가 변화 했을 때 𝑦의 변화량을 구하기 위해

  1. 𝑢의 변화량에 대한 𝑦의 변화량을 구하고
  2. 𝑥의 변화량에 대한 𝑢의 변화량을 구해서 곱한다

또한 𝑑𝑥, 𝑑𝑦, 𝑑𝑢를 하나의 변수로 놓고 생각해 봤을 때 좌변은 우변의 𝑑𝑢를 약분한 것입니다. 따라서 합성함수의 미분은 분수처럼 약분할 수 있다고 생각할 수 있겠네요. 이 규칙을 토대로 𝑦 𝑢의 함수, 𝑢가 𝑣의 함수, 𝑣가 𝑥의 함수일 때, 𝑑𝑦𝑑𝑥는 다음과 같습니다.

 


 

또 다른 예를 들어 보겠습니다. 시그모이드 함수와 다른 함수를 합성해서 가정해 볼 텐데요 예를 들어 다음과 같은 식이 있다고 가정합니다.


 

y는 시그모이드 함수이므로, 시그모이드 함수를 미분하였을 때 다음 식으로 바꿀 수 있습니다.


 

그다음,𝑑𝑢𝑑𝑥  𝑢 𝑥에 관해 미분하면 𝑑𝑢𝑑𝑥=𝑤 이므로 최종적인 결과는 다음처럼 계산이 가능합니다.


 

다변수 함수의 연쇄법칙

 

변수가 여러 개인 다변수 함수에도 연쇄법칙을 적용할 수가 있습니다. 위처럼 분수를 다루듯이 미분 방정식을 변형하겠지만 관련된 모든 변수에 연쇄법칙을 적용할 필요가 있으므로 단순하지는 않습니다.

먼저 변수가 2개인 함수일 때를 생각해 보도록 하겠습니다. 𝑧=𝑓(𝑢,𝑣)라는 함수가 있고, 𝑢 𝑣 역시 각각 𝑢=𝑔(𝑥,𝑦) 𝑣=(𝑥,𝑦)라는 함수라는 함수라고 생각할 때, 𝑧=𝑓(𝑔(𝑥,𝑦),(𝑥,𝑦))라고 바꿀 수 있습니다. 이때 다음과 같은 다변수 함수의 연쇄법칙이 성립하게 됩니다.

x에 대한 편미분을 구해서 x가 포함된 모든 함수에 대한 미분값에 연쇄법칙을 적용시킨 다음 더해주면 됩니다. 다변수 함수의 예를 한번 들어보겠습니다.

이변수 함수가 𝐶=𝑢2+𝑣2이고, 𝑢=𝑎𝑥+𝑏𝑦, 𝑣=𝑝𝑥+𝑞𝑦 (𝑎,𝑏,𝑝,𝑞 는 상수)라면 연쇄법칙의 계산 과정은 다음과 같습니다.

오늘은 간단하게 미분의 연쇄법칙에 대하여 알아보았습니다.

다음 세션으로는 수식을 통한 오차역전파법을 이해해 보도록 하겠습니다.

728x90
반응형
LIST
728x90
반응형
SMALL

지난 글로, 경사법(경사하강법)의 원리와 신경망에서의 기울기에 대한 신경망 학습을 알아보았습니다.

2024.01.31 - [Programming/Deep Learning] - [Python/DeepLearning] #9.2. 수치 미분과 경사하강법(하)

최종_최종_최종. 신경망 구현으로 오늘은 MNIST 데이터셋을 이용한 2층 신경망(은닉층이 1개인 네트워크)을 구현해 보겠습니다!

MNIST 신경망 구현하기
  • 2층 신경망
  • 1층 은닉층의 뉴런 개수는 100개
    • 활성화 함수로 시그모이드 사용
  • 2층 출력층의 뉴런 개수는 10개
    • softmax를 사용함
  • loss는 cross entropy error 사용할 것
  • predict에서 softmax 적용할 것
  • 내부에 기울기 배열을 구하는 numerical_gradient 구현
  • 경사하강법을 여기서 구현하는 것은 아닙니다!
from common.functions import *
from common.gradient import numerical_gradient

class TwoLayerNet:
  # input_size : 입력 데이터 shape( 이미지 크기 ( 28 * 28 ))
  # hidden_size : 은닉층의 뉴런 개수
  # output_size : 출력층의 뉴런 개수
  # weight_init_std :  정규분포 랜덤값에 표준편차를 적용하기 위함

  def __init__(self, input_size, hidden_size, output_size, weight_init_std=0.01):
    # 나중에 매개변수(W, B)들은 경사하강법으로 모두 한꺼번에 업데이트가 되어야 해요
    self.params = {}

    # 1층 매개변수 마련하기
    self.params["W1"] = weight_init_std * np.random.randn(input_size, hidden_size) # 정규분포 랜덤에다가 표준편차 0.01을 적용
    self.params["b1"] = np.zeros(hidden_size)

    # 2층(출력층) 매개변수 마련하기
    self.params["W2"] = weight_init_std * np.random.randn(hidden_size, output_size)
    self.params['b2'] = np.zeros(output_size)

  def predict(self, X):
    # 매개변수를 params에서 꺼내옵니다.
    W1, W2, b1, b2 = self.params["W1"], self.params["W2"], self.params["b1"], self.params["b2"]

    # 1층 계산
    z1 = np.dot(x, W1) + b1
    a1 = sigmoid(z1)

    # 2층 계산
    z2 = np.dot(a1, W2) + b2
    y = softmax(z2)

    return y

  def loss(self, x, t):
    # 1. predict
    y = self.predict(x)

    # 2. cee
    loss_val = cross_entropy_error(y, t)

    return loss_val
  
  # 구현 ㄴㄴ
  def accuracy(x, t):
    y = self.predict(x)
    y = np.argmax(y, axis=1)
    t = np.argmax(t, axis=1)

    accuracy = np.sum(y==t) / float(x.shape[0])
    return accuracy

  # 매개변수들의 기울기 배열을 구하는 함수
  def numerical_gradient_params(self, x, t):
    print("미분 시작")

    loss_W = lambda W : self.loss(x, t) # L값 ( 미분 대상 함수 )
    
    # 각 층에서 구해지는 기울기를 저장할 딕셔너리
    # 저장하는 이유 : 각 매개변수의 기울기를 저장 해야만 나중에 경사하강법을 수행할 수 있어요
    grads = {}

    # 1층 매개변수들의 기울기 구하기 (Loss에 대한 W1, b1의 기울기를 grads에 저장)
    grads["W1"] = numerical_gradient(loss_W, self.params["W1"])
    grads["b1"] = numerical_gradient(loss_W, self.params["b1"])

    # 2층 매개변수들의 기울기 구하기 (Loss에 대한 W2, b2의 기울기를 grads에 저장)
    grads["W2"] = numerical_gradient(loss_W, self.params["W2"])
    grads["b2"] = numerical_gradient(loss_W, self.params["b2"])
    
    print("미분 끝")

    return grads

코드가 상당히 길어지긴 했습니다. 하지만 지금까지 이야기 한것들을 모두 구현한 것에 불과하기 때문에 순전파 처리를 그대로 코드로 구현한 것입니다.

위 클래스가 사용하는 메소드와 변수들을 정리해 보겠습니다.

변수

  • params : 신경망의 매개변수를 보관합니다.

params ['W1']은 1번째 층의 가중치, params ['b1']은 1번째 층의 편향

params ['W2']는 2번째 층의 가중치, params ['b2']도 2번째 층의 편향

  • grads : 각 매개변수의 기울기를 보관합니다.

grads['W1']은 1번째 층의 가중치의 기울기, grads ['b1']은 1번째 층의 편향의 기울기

grads ['W2']은 2번째 층의 가중치의 기울기, grads ['b2']은 2번째 층의 편향의 기울기

 

메소드

  • init : 초기화 작업을 수행합니다.

input_size : 입력층의 뉴런 수

hidden_size : 은닉층의 뉴런 수

output_size : 출력층의 뉴런 수

weight_init_std : 생성되는 가중치가 정규분포를 가지기 위한 상숫값

 

  • predict : 예측(추론)을 수행합니다.

x : 이미지 데이터

 

  • loss : 손실 함수의 값을 구합니다.

x : 이미지 데이터

t : 정답 레이블

 

  • accuracy : 정확도를 구합니다. 매개변수는 loss와 같습니다.
  • numerical_gradient : 가중치 매개변수의 기울기를 구합니다. 매개변수는 loss와 같습니다.
  • gradient : numerical_gradient의 개선판입니다. 오차역전파법을 배우고 나서 구현할 예정입니다. 매개변수는 loss와 같습니다.
# 신경망 생성
input_size = 28*28
hidden_size = 100
output_size = 10

net = TwoLayerNet(input_size=input_size, hidden_size=hidden_size, output_size=output_size)
net.params["W1"].shape, net.params["W2"].shape

신경망을 구축하고 나서 신경망을 이해하는데 매개변수 개수를 세는 것만큼 좋은 공부법은 없다고 생각합니다!

총 매개변수의 개수는 몇 개일까요?

  • 1층 W : 78,400 1층 b : 100
  • 2층 W : 1,000 2층 b : 10

총 79,510개

# 신경망이 predict를 잘 하는지를 보자
x = np.random.rand(100, 784) # 784개의 feature를 가진 100개의 데이터를 랜덤으로 생성 (미니 배치)
y = net.predict(x)
x.shape, y.shape

미니 배치 학습 구현하기

 

실제 MNIST 데이터셋을 이용해 미니배치 학습을 활용해 보겠습니다.

니 배치 학습이란 훈련 데이터 중 일부를 무작위로 꺼내고(미니배치) 그 미니배치에 대해서 경사법으로 매개변수를 갱신하는 코드를 만들어 보도록 하겠습니다!

MNIST 데이터 로딩 및 전처리

from tensorflow.keras import datasets
mnist = datasets.mnist

(X_train, y_train), (X_test, y_test) = mnist.load_data()
X_train.shape, y_train.shape

데이터 전처리

from sklearn.preprocessing import OneHotEncoder

y_train_dummy = OneHotEncoder().fit_transform(y_train.reshape(-1, 1))
y_train_dummy = y_train_dummy.toarray()

y_test_dummy = OneHotEncoder().fit_transform(y_test.reshape(-1, 1))
y_test_dummy = y_test_dummy.toarray()
y_train_dummy.shape, y_test_dummy.shape

# feature 전처리
X_train = X_train.reshape(X_train.shape[0], -1)
X_train = X_train / 255.0 # 이미지 정규화 기법. 255.0 으로 나눠주면 모든 픽셀 데이터가 0 ~ 1사이의 값을 갖게 되고, 훈련이 쉽게 된다.

X_test = X_test.reshape(X_test.shape[0], -1)
X_test = X_test / 255.0

X_train.shape, X_test.shape

훈련(학습)

  • 미니 배치 선정
  • 반복 횟수 설정
  • 학습률 선정
# 반복문 돌릴 때 진행 상황을 프로그래스 바로 확인하게 해줌
from tqdm import tqdm_notebook

# 반복 횟수 설정
iter_nums = 10000

# 미니 배치 설정
train_size = X_train.shape[0]
batch_size = 100

# 학습률 설정
learning_rate = 0.1

network = TwoLayerNet(input_size=input_size, hidden_size=hidden_size, output_size=10)
for i in tqdm_notebook(range(iter_nums)):
  
  # 미니 배치 인덱스 선정
  batch_mask = np.random.choice(train_size, batch_size)

  # 미니 배치 만들기
  X_batch = X_train[batch_mask]
  t_batch = y_train_dummy[batch_mask]

  '''
    각 배치 마다의 기울기를 계산

    network의 numerical_gradient_params에서 하는 일
    1. 예측
    2. cross_entropy_error를 이용한 Loss 구하기
    3. 구해진 Loss값을 이용해 미분을 수행해서 << 각 층의 매개변수 기울기를 저장 >>
  '''

  grads = network.numerical_gradient_params(X_batch, t_batch)

  # 모든 매개변수의 기울기를 업데이트 ( 경사하강법 )

  # grads 딕셔너리와 params 딕셔너리의 매개변수 이름이 똑같죠?
  for key in grads.keys():
    network.params[key] -= learning_rate * grads[key] # 경사하강법 공식

  # 갱신된 Loss 확인
  loss = network.loss(X_batch, t_batch)
  print("Step {} -> Loss : {}".format(i+1, loss))

위 코드에서는 미니배치 크기를 100으로 지정하였습니다.

매번 60,000 개의 훈련 데이터에서 임의로 100개의 데이터를 추려내고, 그 100개의 미니배치를 대상으로 확률적 경사 하강법(SGD)을 수행해 매개변수를 갱신합니다.

경사법에 의한 갱신 횟수(반복 횟수)를 10,000번으로 설정하고, 갱신할 때마다 훈련데이터에 대한 손실 함수를 계산해 그 값을 추가하여 그래프를 그릴 용도로 만들어 놓았습니다.

학습 횟수가 늘어갈수록 손실 함수의 값은 줄어들기 시작하며, 이는 학습이 잘 되고 있다는 것을 뜻합니다.

즉, 신경망의 가중치 매개변수가 데이터에 적응해 나간다고 생각할 수 있습니다.

정리하자면! 데이터를 반복해서 학습함으로써 최적 가중치 매개변수로 서서히 다가서고 있다는 것을 의미합니다.

에폭(epoch)

1 에폭으로 훈련 데이터와 시험 데이터에 대한 정확도를 기록하겠습니다.

여기서 에폭이란 하나의 단위인데요, 1 에폭은 학습에서 훈련 데이터를 모두 소진했을 때의 횟수에 해당합니다.

예를 들어 10,000개의 데이터를 100개의 미니배치로 학습할 경우, 경사법을 100번 진행하면서 반복하면 모든 훈련 데이터를 소진하겠죠? 이 경우에는 100회 훈련했을 때를 1 에폭으로 생각합니다.

 

테스트 데이터로 평가하기

훈련 데이터를 이용해서 손실 함수의 값이 서서히 내려가는 것이 확인되었습니다.

여기서의 손실 함수의 값이란 정확히는 '훈련 데이터의 미니배치에 대한 손실 함수'의 값이라고 생각할 수 있는데요, 훈련 데이터의 손실 함숫값이 작아지는 것은 신경망이 잘 학습하고 있다는 방증이지만, 다른 데이터셋에도 비슷한 실력을 발휘할지는 아직 확실하지 않습니다.

학습에서는 훈련 데이터 외의 데이터를 올바르게 인식하는지를 확인해야 합니다. 다른 말로 과대적합(overfitting)을 일으키지 않는지를 확인해야 하는데요, 과대적합이 되어버리면 훈련 데이터에 있는 이미지만 잘 구분하고, 그렇지 않은 이미지는 식별할 수 없다는 뜻이 됩니다.

신경망의 학습의 원래 목표는 처음 보는 데이터도 잘 구분할 수 있는 '범용 능력'을 익히는 것입니다.

이 범용 능력을 평가하기 위해서는 훈련 데이터에 포함되지 않는 새로운 데이터인 테스트 데이터를 사용해서 평가해 보아야 합니다. 따라서 학습 도중 정기적으로 훈련 데이터와 시험 데이터를 대상으로 정확도를 기록합니다.

 

 위의 결과에서 알 수 있듯이, 1 에폭마다 (100 개의 미니배치 * 600 회씩 = 60,000 개의 데이터를 훈련용으로 사용할 때마다)의 모든 훈련 데이터와 시험 데이터에 대한 정확도를 계산하고, 그 결과를 기록했습니다.

보통 정확도는 1에폭마다 기록하는데요, for문 안에서 매번 계산하기에는 시간이 오래 걸리기도 하고, 또 그렇게까지 자주 기록할 필요도 없기 때문입니다. 그저 학습 횟수에 대한 정확도 변화 추이만 알 수 있으면 괜찮습니다.

학습이 진행되면서( 에폭이 진행될수록 ) 훈련 데이터와 시험 데이터를 사용하고 평가한 정확도가 모두 좋아지고 있다는 것이 확인됩니다. 또, 두 정확도에는 차이가 거의 없음을 알 수 있습니다. 이번 학습에서는 오버피팅이 일어났다고 보기 힘들다고 생각합니다!

이로써 신경망 학습을 마무리하였습니다!! 다음글에서는 역전파에 대하여 다뤄보도록 하겠습니다!

 

 

 

728x90
반응형
LIST

+ Recent posts