넷플릭스 알고리즘 조건부확률 - nespeulligseu algolijeum jogeonbuhwaglyul

우리 생활에서 인공지능은 다양한 분야에 활용된다. 기업 생산과 효율을 높이고, 개인의 재산과 투자를 관리해 준다. 제조업 환경의 안정성을 높이고, 정보 당국은 테러리스트를 찾아낸다. 가스 유출 및 전기 공급 상태를 탐지하고 질병을 예측할 뿐 아니라, 사진과 영상을 분석해 보안을 높여준다. 좀 더 직접적으로 체감할 수 있는 영역으로 들어오면, 인공지능 알고리즘은 내가 좋아하는 영화를 추천해주고, 음악을 찾아주며, 취향에 맞는 의류 쇼핑몰로 이끌어준다. 나열하자면 끝없이 광범위하고 깊게 우리 일상에 들어와 있다. 이에 맞춰 요즘 개발자라는 직업의 인기가 높아지고, 인공지능 관련 분야는 독보적으로 관심을 받고 있다. 우리 생활에서 인공지능은 다양한 분야에 활용된다. 기업 생산과 효율을 높이고, 개인의 재산과 투자를 관리해 준다. 제조업 환경의 안정성을 높이고, 정보 당국은 테러리스트를 찾아낸다. 가스 유출 및 전기 공급 상태를 탐지하고 질병을 예측할 뿐 아니라, 사진과 영상을 분석해 보안을 높여준다. 좀 더 직접적으로 체감할 수 있는 영역으로 들어오면, 인공지능 알고리즘은 내가 좋아하는 영화를 추천해주고, 음악을 찾아주며, 취향에 맞는 의류 쇼핑몰로 이끌어준다. 나열하자면 끝없이 광범위하고 깊게 우리 일상에 들어와 있다. 이에 맞춰 요즘 개발자라는 직업의 인기가 높아지고, 인공지능 관련 분야는 독보적으로 관심을 받고 있다.

하지만, 이와 별개로 수학을 말해보자면 어떤가? 수학 공부는 어떤 의미가 있을까? 시험기간이 되면, ‘내가 수학을 왜 공부해야 해?’라는 친구들의 짜증 섞인 불평들을 자주 듣곤 한다. 수학을 공부하는 이유에 대해 말해보라고 하면 머릿속에 이것저것 떠오르지만 분명하게 ‘~이래서 우린 수학을 공부해야 해!’라고 말할 만큼의 확실한 이유는 생각나지 않아 이내 입을 다물게 되어 버린다. 우리는 아마 ‘과학의 기초가 되는 수학’에 대한 의무감과 문제 풀이를 통한 쾌감 때문에 수학 공부에 긴 시간을 보내고 있을 것이다. 쓸모나 목적성이 있어서 공부하는 것 보다는 필수적으로 끊임없이 공부해야만 하는 학문 그 자체로 느껴질 것이다. 이런 막연함 속에서 이 책은 수학 공부의 가치와 의미를 일깨워준다.

“세상을 바꾸는 AI 뒤에는 수학이 있다.”

이 책의 원제목은 <AIQ(AIQ : How People And Machines are Smarter Together)>이다. AIQ에서 Q는 'quotient'의 약자로, AIQ의 의미를 해석하자면 인공지능 ‘AI의 지수’이다. 제목처럼, 책에서는 인간과 기계가 어떻게 함께 성장해 왔는지, 또 어떻게 성장해야 나가야 하는지에 대해서 다루고 있다. 책에서는 인공지능 원리와 관련해 7가지로 이야기를 나누어 수학이 어떤 방식으로 이에 적용되는지 설명한다.

나는 여러 가지 연구 활동들을 통해 선형대수를 기초로 한 통신 수학에 대해 배웠는데, 그동안 배웠던 기초적인 이론들과, 추가로 그 이론들이 실제로 적용되는 예시들도 많이 나왔다. 그 중 가장 인상적이었던 두 가지는 ‘베이즈 규칙(Bayes' theorem)’과 조건부 확률이었는데, 통신수학에 대한 연구 활동들을 하면서 비슷한 내용을 다뤄 보았던 적이 있었기 때문에 더 기억에 남았던 것 같기도 하다.

먼저, 베이즈 규칙이란 새로운 정보가 입수되었을 때 기존 확률을 사후 확률로 바꿔주는 것이다. 예를 들어, 자율주행 자동차에도 베이즈 규칙이 적용된다. GPS로만 차의 위치를 알기는 힘들기 때문에 차선이나 교차로 등에 대한 ‘마음속 지도’를 그린다. 그리고 여러 번 그 길을 다니고, 그 지도를 갱신해 나가면서 그 환경 속에 있는 자신의 위치를 추론한다. 환경이 빽빽한 격자망으로 이루어졌다고 가정하고 높은 확률의 존재 지점을 더 진한 색으로 배치한다. 하지만 실제 경험하지 않은, 사전적 믿음이기 때문에 맞지 않을 수 있다. 그러나 실제 경험 후에 데이터를 얻으면 업데이트한 격자망 지도에서는 사후 확률에 따라 수정된 믿음의 결과를 얻게 된다. 언뜻 보면 불확실해 보이고 시행착오가 많아 보이지만, 수많은 데이터 수집으로 업데이트되는 시스템이기에 결국 최종 결론의 확률은 높아지게 된다. 결국 확률을 지도에 ‘색’으로 시각화해서 ‘나는 어디에 있는가?’에 대한 답을 찾는다. 이 방법으로 제2차 세계대전 당시 사라진 핵탄두 미사일을 보유한 잠수함과 수소폭탄을 되찾을 수 있었다고 한다. 베이즈 규칙은 결국 딥러닝과도 깊은 연관성을 갖게 된다. 딥러닝, 즉 머신러닝 모델들이 커질수록 더 많은 데이터들을 해석하게 되는데, 데이터가 많이질수록 해석하기에는 더 어려워진다. 결국 모델들이 정확한 예측을 하지 못하는 경우들이 발생되어, 베이즈 규칙을 이용한 ‘베이지안 딥러닝’이라는 개념을 도입시켰다. 기존과는 달리, 베이지안 관점에서는 확률 자체를 불확실성으로 바라보아 오직 참 값의 확률만을 찾는 것이 아니라 불확실성을 내포한 확률 분포를 찾아 보다 더 현실과 가까운 모델링을 가능케 한다.

또, 조건부 확률은 우리가 생활 속에서 매일 만나는 수학이다. 우리는 평소 유튜브, 스포티파이, 넷플릭스 등 여러 SNS를 사용한다. 그 속에서 개인 또는 집단의 데이터가 끊임없이 공급된다. 사실 인스타그램을 통해 우리는 매일 빅데이터로 인한 확률과 통계를 경험한다. 이 데이터를 분석해 우리를 이끄는 알고리즘으로 인해 다들 놀란 경험이 있을 것이다. 나의 취향을 읽는 이런 SNS는 나에게 맞춤 서비스를 제공해 준다. 예를 들어, 나는 대부분 유튜브로 노래를 듣거나 무대 영상을 보기 때문에 유튜브 알고리즘으로 인해 거의 음악과 관련된 영상이 화면을 메운다. 하지만 유튜브 게임 영상을 많이 보는 친구는 게임 영상이 대부분 추천된다. 또, 넷플릭스는 사용자의 취향을 정확히 캐치 하도록 ‘개인화’되어 있다. 여기서 쓰이는 것은 ‘조건부 확률’이다. A라는 영화를 좋아할 확률 중에 B라는 영화를 좋아할 확률이라는 ‘조건부 확률’을 활용하여 방대한 데이터 집합에서 고객의 특성을 취합함으로써 맞춤형 마케팅으로 성공을 이루었다. 하지만 각각의 조건부 확률을 고려하기에 넷플릭스의 콘텐츠는 너무 방대하여 ‘누락’이라는 문제가 발생한다. 막대한 양의 켄텐츠 중 보는 사람이 거의 없는 영화가 대부분이라서, 단 한 명의 시청으로 영화의 평가가 정해지는 오류도 있다. 또, 넷플릭스는 한 사람이 액션 영화와 철학 영화를 동시에 좋아할 때 ‘조합 확신’이라는 방법도 사용한다. 영화마다 평가 등급을 예측하기 위해서 ‘오프셋’이라는 개념을 도입했다. 인기 있는 영화에는 양의 오프셋을 부여하고, 인기 없는 영화에는 음의 오프셋을 부여해서 <예측된 평가 등급=전체 평균+영화 오프셋+이용자 오프셋+이용자-영화 상호작용>의 값을 얻어낸다. 가끔 ‘넷플릭스에서 어떤 시리즈에 막대한 돈을 지원해 주었다’라는 기사를 보게 되는데, 이 모든 것은 확률의 계산을 통해서 예측된 결과로 나름의 계획적인 지원이라고 볼 수 있다.

우리는 생활 속 많은 순간에서 통계와 확률을 마주한다. 어떻게 보면 동전 뒤집기처럼 불확실해 보인다. 그래프를 보면 다음 순간에 어떻게 될지 알 수 없는데 확률만으로 확신할 수 없기 때문이다. 하지만 인공지능 알고리즘을 통해 ‘스스로’ 무엇을 할지 알아내고 무슨 명령을 따라야 하는지 학습해 배우는 과정으로 확률을 높인다. 이 책은 이런 인공지능에 주축이 되는 수학을 이야기하기 위해 우리가 흔히 접하는 넷플릭스나 유튜브의 알고리즘 이야기부터 시작해 흥미를 끈다. 또한, 우리가 인공지능과는 거리가 멀다고 생각한 시대 속 나이팅게일이 표준 의료기록 양식을 만들어 의료 데이터들을 수집하고 의료 시스템의 출발을 마련한 이야기까지 포괄적으로 다룬다. 그 속에서 통계학, 응용수학의 특징을 다루고, 논리적이고 합리적인 수학적 사고방식이 어떻게 인공지능에 연계되어 작동하는지 그 메커니즘을 설명해 주고 있다. 또한, 이러한 편리한 시스템 속에서 추천 알고리즘의 단점, 맞춤형 마케팅을 악용하는 사례, 데이터 수집의 프라이버시 문제, 해킹 및 법률적 문제 등도 살펴보고, 추천 시스템을 책임감 있게 사용할 문화적이고 법적 감독 체계를 만들어야 함에 대해서도 깨닫게 한다. 알 수 없는 미래를 향해 우리는 일상 항해 방향을 잡는다. 이 책을 통해 수학은 이 불확실성을 가장 명확하게 해주는 도구이자 수단임을 배웠다. 또한, 인공지능을 다루기 위해서 인간만이 사고하고 해결할 수 있는 수학의 영역이 존재한다는 것을 알았다. 이에 수학 공부의 쓸모와 의미를 찾고, 그 불확실성을 명확히 하는 주역이 되고자 방향키를 잡아본다.

불확실한 미래에서 보통 사람들도 답을 얻는 방법

넷플릭스 알고리즘 조건부확률 - nespeulligseu algolijeum jogeonbuhwaglyul

책 『수학의 쓸모』

넷플릭스 알고리즘 조건부확률 - nespeulligseu algolijeum jogeonbuhwaglyul

자율주행 자동차의 딥러닝

김아리 학생기자 | Mathmatics & Computer Sci. | 에세이

참고자료

책 『수학의 쓸모』

첨부 이미지 출처

[1] yes24.com/Product/Goods/89607340

[2] https://www.youtube.com/watch?v=QKg5lF_NtC4 (장면캡쳐)

넷플릭스 알고리즘 조건부확률 - nespeulligseu algolijeum jogeonbuhwaglyul

ⓒ KAIST부설 한국과학영재학교 온라인 과학매거진 KOSMOS