[해외기사] “알렉사, 날 이해해 봐.”

요약

  • MIT 테크놀로지 리뷰(MIT Technology Review)에서 조지 앤더슨(Goerge Anderson)은 아마존의 음성 기반 인공 지능 시스템 알렉사를 전반적으로 소개
  • 아마존(Amazon)의 알렉사(Alexa)는 주크박스 플랫폼에서 시작하여 가정용 음성 기반 인공지능으로 발전하였으며 큰 사업 부문으로 성장
  • 아마존은 에코(Echo), 닷(Dot)과 같은 기계를 판매하는 것 외에 수익을 낼 수 있는 다른 방법을 모색
  • 그 일환으로 독립 개발자가 플랫폼 상에 스킬(skills) 이라고 불리는 앱 형태의 새로운 서비스를 구축할 수 있도록 권장
  • 음성 기반의 인공 지능은 최근 새로운 기계 학습 방법이 적용되면서 진전을 보이고 있음
  • 사람들이 말할 때 규칙에 맞춰서만 말하는 것이 아니므로 기술적으로 음성 인식을 구축하기 어려웠으나, 새로운 기계 학습의 도입으로 큰 발전을 이루고 있음
  • 새 방법의 핵심은 광범위한 규모의 사용자 데이터를 사용하고, 과거의 실수로부터 학습을 하는 것
  • 아마존의 인공 지능 전문가들은 기계 학습 방식의 유연성을 높이고, 알렉사의 말하기 기능을 개선하기 위해 노력 중
  • 알렉사는 핸드폰이나 태블릿에 쉽게 타이핑을 할 수 없는 사람들뿐만 아니라, 그 외 일상적인 스케줄 관리에 도움이 필요한 사람들, 휴식이 필요한 사람들에게 인기를 얻고 있음
  • 음성 기반 인공 지능 시스템의 궁극적인 발전 방향은 사용자와 현실적이고 지속적인 대화를 할 수 있는 소셜봇의 구축이지만, 많은 장벽이 남아 있음

## 1. 아마존의 알렉사는 주크박스 플랫폼에서 시작하여 가정용 음성 기반 인공지능으로 발전하였으며, 큰 사업 영역이 됨
* 2012년 8월 1일, 4명의 아마존 엔지니어가 기초적인 특허를 제출
* 이는 세계에서 가장 크고 복잡한 데이터 집합인 인간의 말을 처리하기 위해 디자인된 인공 지능 시스템, 알렉사(Alexa)로 발전
* 시스템의 작동 방식을 설명하기 위해 엔지니어는 단지 11개의 단어와 간단한 다이어그램만을 이용
* 조용한 방에 있는 남성 사용자가 “비틀즈의 ‘렛잇비’를 틀어 줘”라고 말하면, 작은 탁상용 기계는 “알았어, 존”이라고 대답하고 요청 받은 노래를 재생하기 시작
* 그러한 작은 출발로부터, 가정용 음성 기반 인공지능은 아마존에게 큰 비즈니스가 되었고, 점차 기술 라이벌과의 전략적 전쟁터가 됨
* 구글, 애플, 삼성, 마이크로소프트는 각각 수 천명의 연구자와 비즈니스 전문가를 투입하여, 우리가 대화로 사용하기 쉬운 디바이스를 만들기 위해 노력
* 은행, 대학, 로펌 등을 위해 음성 기반 앱을 제작하는 윗링고(Witlingo)의 CEO인 아메드 부지드(Ahmed Bouzid)는 “지금까지 타자 입력(typing), 두드리기(tapping), 밀기(swiping)의 기술을 수용할 수 있는 방향으로 우리가 변해 왔으나, 이제 새로운 유저 인터페이스는 우리를 위해 변할 것이다.”라고 말함
* 아마존이 더 나은 주크박스를 만들기 위해 시작한 플랫폼은, 인간 데이터에 기반을 두고 끊임없이 학습하는 인공 지능 시스템이라는 더 큰 것으로 발전
* 알렉사에 기반한 실린더형 에코(Echo)와 이보다 더 작은 닷(Dot)은 조명을 끄고, 농담을 하고, 사용자가 핸즈프리로 뉴스를 읽을 수 있게 도와주는, 어디에나 있는 가사 도우미
* 알렉사를 개선하고 알렉사의 용도를 확대할 수 있는 많은 양의 사용자 데이터를 수집하고 있기도 함
* 2014년 시장에 출시된 이래로, 수천만 대의 알렉사 기반 기기가 판매됨
* 경쟁이 심화되고 있지만, 미국의 음성 기반 인공지능 디바이스 시장에서 아마존이 전체 판매량의 약 70%를 차지할 것으로 예상
* 구글 홈(Google Home)은 수백만 대가 판매되었고, 애플과 마이크로소프트는 새로운 버전을 곧 출시할 예정

## 2. 알렉사는 아마존에게 더 큰 수익을 가져다 줄 수 있음
* 궁극적으로 아마존은 가정 자동화(home automation), 가정 오락(home entertainment), 쇼핑의 세 가지의 중요한 시장을 통제하거나 혹은 세 시장에 영향을 끼칠 수 있는 기회를 가짐
* 많은 사람들이 냉장고와 말하고 싶어한다고 보기 어렵지만 일상 생활의 패턴은 빠르게 변하고 있음
* 스마트폰이 데이트 에티켓부터 보행자의 보행 속도에 이르기까지 모든 것을 바꾼 것과 마찬가지로 음성 기반의 인공 지능은 가정 생활의 많은 측면을 바꿔 놓기 시작
* 알렉사 혹은 알렉사에 기반한 디바이스가 즉각적으로 사람 대신 일을 처리할 수 있을 때,
* 앞문을 잠그기 위해 혹은 엄청나게 추운 날에 자동차 히터를 틀기 위해 일어나지 않을 것

## 3. 아마존은 직접 기계를 판매하는 것 외에 수익을 낼 수 있는 다른 방법을 모색
* 그 일환으로 독립적인 개발자들이 플랫폼 상에 새로운 서비스를 구축할 수 있도록 권장
* 아마존은 닷(50달러)부터 비디오 화면이 있는 최고급 에코(230달러)까지 디바이스를 판매함으로써 돈을 벌고 있음
* 사용자가 아마존의 거대한 온라인 몰에서 쇼핑을 더 많이 하게 되면 두 번째 성과를 거둘 수 있음
* 하지만 아마존은 트래픽 수치를 공개하지 않을 것
* 현재 아마존은 스마트 온도 조절기, 전구, 그리고 기타 알렉사와 연결된 디바이스를 생산하는 기업으로부터 수익을 얻으려고 하지 않고 있으나, 점차 수익 공유 약정이나 다른 지불 방식이 생길 것으로 예상
* 작년 미국의 소매업 시장 규모는 4조 9,000억 달러였으며, 세 가지 시장 중 가장 작은 가정 자동화 시장은 이미 매년 50억 달러 이상의 지출을 차지
* 에코가 스마트폰처럼 보급되기 위해서는 더 많은 일을 할 수 있어야 함
* 이를 위해 애플이 앱 개발자에게 했던 것처럼 아마존은 독립적인 개발자들이 플랫폼 상에 새로운 서비스를 구축할 수 있도록 권장
* 지금까지 15,000개가 넘는 “스킬 (skills)” 또는 앱이 만들어졌으며, 제작 도구가 매우 사용하기 쉬워 많은 프로그래밍 지식 없이도 한 시간 안에 간단한 스킬을 제작할 수 있음
* 가장 인기있는 앱은 우버와 리프트로부터 자동차를 부를 수 있도록 함
* 청자에게 모욕을 가하는 48가지의 기술을 가진 처참한 실패작도 있음
* 알렉사와 함께 작동하는 하드웨어를 만들거나 서비스를 판매하는 기업도 있음
* 캐피털 원(Capital One)은 자사 은행 고객에게 알렉사 기반의 청구서 지불을 제공
* 에코비(Echobee)는 사람들이 몇 마디 말로 실내 온도를 높이거나 낮출 수 있게 해주는 알렉사 기반의 스마트 온도조절장치를 판매 중
* 에코비는 창업된 지 10년이 되었으며, 토론토에 본사를 두고 있고, 알렉사 디바이스는 기업의 가장 빠르게 성장하는 제품 라인이자 약 40퍼센트가 넘는 매출을 올리고 있음

## 4. 음성 기반의 인공 지능은 소비자에게 매력적이지만 기술적으로 구축하기 어려움
* 인간이 말하고 생각하는 방식에 반응하는 음성 기반의 인공 지능은 소비자에게 매력적이지만, 인간이 규칙적이지 않게 말을 한다는 문제 때문에 기술적으로 구축하기 어려움
* 소비자가 음성 기반의 인공 지능을 매력적으로 느끼는 것은 우리가 키보드 혹은 스크린에 타이핑할 필요가 없기 때문
* 하지만 이로 인해 기술적으로 음성 기반 인공 지능을 구축하는 것이 어려움
* 우리는 규칙에 맞게 말하지 않고, 오히려 말을 끊고 생각을 완결하지 않음
* 또한 인간은 이상한 방식으로 단어, 끄덕임, 불평하는 소리를 사용하고, 의미 있는 말을 하고 있지 않으면서 의미 있는 말을 한다고 생각하기도 함
* 수천 명의 아마존 직원이 이러한 문제를 해결하기 위해 노력하고 있지만, 여전히 더 많은 인력이 필요
* 시애틀, 서니베일, 캘리포니아, 캠브리지, 메사추세츠에 있는 연구 허브를 포함하는 수천 명의 아마존 직원이 이러한 문제를 해결하기 위해 노력 중
* 그럼에도 불구하고 아마존은 최근 기계학습 전문가를 위한 215개의 일자리를 포함하여 12개 부서에 걸쳐 1,100개의 알렉사 관련 구인 광고를 발간

## 5. 최근 기계 학습에 대한 새로운 접근법의 도입으로 음성 기술에 거대한 기회가 열렸으며, 이것이 실제로 작동하게 만들기 위해서는 광범위한 데이터가 필요
* 알렉사의 수석 과학자인 로힛 프라사드(Rohit Prasad)는 왜 많은 사람이 필요하며 또 언제 그의 연구 팀이 완전히 구축될지에 대한 질문에 대해 다음과 같이 답함
* 음성 기술에 20년 이상 종사해 왔으며, 그 기간 대부분 동안 절망적으로 느린 결과를 보았음
* 하지만 최근 5년 동안, 거대한 기회가 열림
* 정말 효과적인 음성 기반 인공 지능을 만드는 것은 [복잡하고 여전히 정복되지 않은 일](https://www.technologyreview.com/s/602094/ais-language-problem/)
* 하지만 과거에 음성 과학자들이 때때로 혼란스러운 발언의 정확한 의미를 결정하는 데 어려움을 겪은 반면, 기계 학습에 대한 새로운 접근법은 또 다른 방식을 통해 진전을 보이고 있음
* 새로운 방식의 핵심은 광범위한 규모의 사용자 데이터를 사용하고 과거의 실수로부터 학습을 하는 것
* 처음에는 불완전한 매칭이 이루어지지만, 빠르게 임시적인 추측을 미세 조정함으로써 작동
* 알렉사가 사용자와 더 긴 시간을 보낼수록, 알렉사가 학습을 할 수 있는 더 많은 데이터를 수집하게 되고 더 똑똑해짐
* 이러한 진전으로 더 많은 기회가 생겼고, 더 많은 인력이 필요
* 프라사드는 음반을 재생하기 위한 대화의 예를 들었음
* 알렉사에게 “아델의 첫 번째 앨범이 무엇이니?”라고 물으면 “19”라고 대답할 것
* 그 다음 “그걸 틀어줘”라고 말하면 알렉사는 그 앨범을 재생할 충분한 지식을 갖고 있음
* 하지만 알렉사의 초기 버전은 중간에 농담을 주고 받는 대화가 있거나 알렉사에게 앨범이 출시된 연도와 얼마나 많은 앨범이 판매되었는지를 묻고 그러한 대화를 “그걸 틀어줘”로 마무리하면 곤란을 겪었음
* 적어도 때로는, 현재 기술은 그러한 생각의 흐름을 따라갈 수 있어서 “그것”이 여전히 “19”를 의미한다는 것을 인식
* 이러한 개선은 알렉사가 실수한 수천 개의 이전 대화를 재검토하는 기계 학습 기술에서 비롯
* 시스템은 사용자가 정확히 어떤 노래를 듣고 싶었는지, 그리고 앞선 대화의 부분 중 어디에서 첫 번째로 그 음악을 알아냈는지를 학습
* MIT의 음성 언어 시스템 그룹 책임자인 제임스 글래스(James Glass)에 따르면 “처음에는 사람들이 어떻게 물어볼지에 대한 몇 가지 가정을 해야 하고, 그러면 데이터를 수집하고 모델을 조정”할 수 있음
* 이러한 기계 학습 접근법에 대한 사례는 널리 알려져 있지만, 이것이 실제로 작동하도록 만들기 위해서는 대학 연구자가 쉽게 모을 수 있는 것보다 훨씬 많은 데이터가 필요
* 알렉사의 사용량이 급증함에 따라, 아마존은 이제 인간-컴퓨터 음성 상호작용의 광대한 저장소에 접근할 수 있게 됨
* 이는 구글이 오랫동안 텍스트 기반 검색 쿼리에서 누려온 것처럼 아마존이 음성 기술을 미세 조정할 수 있는 우위를 갖게 된 것
* 외부 데이터 역시 도움이 될 수 있음
* 예를 들어, 2016년 알렉사는 방대한 노래 가사 데이터베이스에 접근할 수 있게 됨
* 사용자가 “나의 쉐보레를 방파제에 몰고 가(drove my Chevy to the leeve)” 라는 가사가 나오는 노래를 요구하면, 돈 맥클린(Don McLean)의 “아메리칸 파이(American Pie)”를 재생

## 6. 최근 아마존의 인공 지능 전문가들은 기계 학습 방식의 유연성을 높이고, 알렉사의 말하기 기능을 개선하기 위해 노력
* 프라사드의 연구 그룹은 최신 프로젝트에서 접근 방식의 유연성을 강조
* 이는 사용자가 초기 요청을 철회하는 순간을 해독하는 것을 포함
* 철회 순간의 신호 구문은 굉장히 다양
* 어떤 사람은 “아니, 아니, 아니”라고 말하고, 누구는 “취소해”라고 말하고, “잠깐만 그게 아니라 내가 원하는 것은 말이지”라고 말하는 사람도 있음
* 알렉사는 각 발언을 해석할 필요가 없음
* 대규모 샘플과 반-지도 기계 학습(semi-supervised machine learning)으로 알렉사는 부정적인 발언으로 볼 수 있는 말을 지시하는 표지(marker)의 묶음을 정한 후, 새로운 요청과 논리적으로 일치하는 경로를 선택할 수 있음
* 아마존의 인공 지능 전문가는 알렉사를 더 나은 청자로 만드는 것과 더불어 알렉사의 지속적인 사용을 늘리기 위해 노력하고 있음
* 여기에는 데이터 모음을 활용하여 기계 합성 여성 음성의 억양을 미세 조정함으로써 알렉사를 더 나은 화자로 만드는 노력이 포함
* 음성 합성의 전통적인 방식은 녹음된 인간 발화의 여러 토막을 합치는 것
* 이 기술은 어느 정도 자연스러운 소리를 생성할 수 있지만, 인간 화자가 사용할 법한 속삭임, 비꼼, 혹은 기타 변조에 적합하지 않음
* 알렉사가 활기찬 대화부터 차분한 설명까지 다양한 상황을 잘 처리하도록 하기 위해 다른 접근 방법을 사용
* 열정, 불안, 현명함을 표현하는 전문 나레이터의 목소리를 학습하는 것
* 아마존이 오디오북 출판사 오더블(Audible)을 소유한 것이 도움이 됨

## 7. 핸드폰이나 태블릿에 쉽게 타이핑을 할 수 없는 사람들이 음성 기반 인공 지능을 열렬하게 사용 중
* 장애인을 위한 주택과 서비스를 제공하는 필라델피아즈 잉글리스(Philadelphia’s Inglis)의 최고 경영자인 가빈 커(Gavin Kerr)는 8개의 거주자의 가정에 아마존의 에코와 닷 디바이스를 설치
* 예비 시험이 끝나면 모두 300여 개의 가정에 이러한 서비스를 설치하기를 원함
* 커에 따르면 이러한 디바이스가 다발성 경화증 혹은 다른 질병으로 인해 몸을 움직이기 힘든 사람이 독립적인 생활을 하는 데 큰 도움이 됨
* 병상에 누워 있거나 휠체어를 사용하는 사람들에게는 닿기 힘든 벽 온도 조절기가 끊임없는 고통의 원천이 될 수 있음
* 이들은 움직이기가 어렵기 때문에, 특히 24시간 내내 도움을 받는 것이 불가능하다면, 편안해질 수 있는 방법이 없기 때문
* 약간의 조작으로, 알렉사의 소프트웨어는 심하게 제한된 어휘만 사용하는 사람들도 지원할 수 있음
* 장기 요양 시설을 나와 일상 공동체로 돌아가기를 원하는 30대 후반의 사람이 “나는 알렉사의 명령을 결코 사용할 수 없을 것이다”라고 했지만,
* 이제 그는 부엌의 조명을 켜기를 원할 때 ‘엄마’라고 말하고, 욕실 조명을 켜기를 원할 때 ‘존’이라고 말하기만 하면 됨

## 8. 알렉사가 인기 있는 이유
* 에코를 상자 밖으로 꺼내면, 포장에는 음악 재생, 알람 맞추기, 쇼핑 목록 업데이트하기와 같은 일반적인 사용법이 강조되어 있음
* 체계적인 사용자는 스마트폰 또는 노트북에서 알렉사 제어판을 호출하여 설정을 조정하거나, 새로운 앱을 검색하거나, 어떤 명령어가 앱을 가장 잘 작동시킬지에 대한 지침을 얻을 수 있음
* 2017년 6월 마이크로소프트 제품 관리자 대런 오스틴 (Darren Austin)은 [많은 인기를 끈 블로그 게시물](https://venturebeat.com/2017/06/27/how-amazons-alexa-hooks-you/)을 썼음
* 그는 알렉사의 광범위한 성공은 예약으로 가득찬 삶의 스트레스를 완화하는 능력에 있다고 주장
* 오스틴은 “간단한 부탁으로, 알렉사는 불확실성에 대한 부정적 감정과 망각에 대한 공포를 완화시켜준다”라고 하며,
* 사용자들이 알렉사에게 모든 종류의 순간적인 곤혹과 열망을 주는 것에 빠져 있고, 알렉사는 항상 참여할 준비가 되어 있는 동반자라고 주장
* 최근 휴식을 도와주는 앱이 사람들에게 인기를 얻고 있고, 아마존은 이러한 동향을 파악하여 사람들에게 이 앱을 추천
* 알렉사의 총괄 관리자인 롭 폴시니 (Rob Pulciani)는 매주, 때때로는 더 자주 알렉사와 닷 사용자가 가장 많이 한 발언에 대한 데이터를 확인
* 목록의 상단에는 보통 음악, 뉴스, 날씨, 교통, 게임 요청이 위치
* 하지만 올해 봄에는 새로운 말, “알렉사, 내가 쉬게 도와줘.”가 급 상승
* 사용자가 이러한 요청을 하면, 알렉사와 닷은 차분한 소리의 모음으로 조정되어 새소리, 파도가 해변에 부딪히는 소리, 화물 열차 소리를 들려줌
* 사용자가 선택한 경우, 이러한 환경 소음 루프를 몇 시간 동안 계속 재생할 수 있음
* 2015년 이러한 앱이 처음 알렉사 플랫폼에 등장했을 때, 폴시니는 이를 사소한 이상한 현상으로 치부했지만 빠르게 인기를 얻고 있음
* 스트레스를 받은 성인들은 이러한 소리를 활용하여 잠에 들고
* 부모들은 짜증을 내는 유아를 위한 자장가의 대용으로 이러한 소리를 틂
* 폴시니의 발견 이후 몇 주 후, 그와 동료들은 알렉사의 내부 아키텍처를 미세 조정하여, 에코의 신규 구매자들이 새로운 스킬을 요청할 때 안정용 사운드를 빠르게 발견할 수 있도록 함

## 9. 음성 기반 인공 지능의 궁극적인 승리는 사용자와 현실적이고 지속적인 대화를 할 수 있는 소셜봇을 만드는 것
* 연구 결과, 구글, 애플, 마이크로소프트, 아마존의 인공 지능 플랫폼은 각기 다른 장점을 보임
* 구글 어시스턴트(Google Assistant)는 광범위한 검색 명령에 가장 적합
* 애플의 시리(Siri)와 마이크로소프트의 코타나(Cortana)의 장점은 다름
* 알렉사는 쇼핑 명령을 특히 잘 처리
* 음성 기반 인공 지능의 궁극적인 승리는 사용자와 현실적인, 수 분간의 대화를 지속하는 것
* 이를 위해서는 심지어 분명한 요구가 없더라도 인간 화자의 의도를 식별할 수 있는 기계 능력의 비약적인 발전이 필요
* 사람은 “나는 몇 주 동안 체육관에 가지 않았다”라고 말하는 친구가 스트레스 혹은 자부심에 대해서 이야기하고 싶어한다는 것을 알 수 있음
* 인공 지능 소프트웨어에게 이는 큰 도약
* 대화 주제의 급격한 변화 혹은 완곡한 암시 역시 기계에게는 파악하기 어려움
* 지속적인 대화를 할 수 있는 소셜봇의 개발은 아직 요원
* 차세대 인공 지능 및 음성 연구자와의 관계를 강화하기 위해 2016년 아마존은 전세계 12개 대학의 공과대학 학생에게 20분의 대화를 할 수 있는 음성 소셜봇을 만들 것을 요청
* 2017년 11월의 마감일까지 가장 많은 진전을 이룬 캠퍼스는 50만 달러의 상금을 받음
* 필자는 매주 6개의 소셜봇을 오디션했고, 매번 간단한 질문으로부터 온갖 종류의 답변이 가능한 복잡하고 열린 문구로 옮겨감
* 한 봇은 짧은 순간이라도 인간과 유사하게 말을 함
* 봇은 나에게 “최근 영화를 보았습니까?”라고 물었고, “응, 나는 히든 피겨스(Hidden Figures)를 봤어.”라고 대답
* 나사의 초창기에 대한 신랄한 이 영화에 대한 신문 리뷰를 따라 하는 것 대신, 봇은 “저는 히든 피겨스는 실제 수학을 매우 얕게 다루었다고 생각합니다”라고 응답
* 영화에 대한 나의 평과는 달랐지만 인공 지능 프로그램이 말하기에 적당한 것으로 보였음
* 대화는 곧 끝났지만, 최소한 우리는 그 짧은 아름다운 순간을 보냈음
* 하지만 다른 봇은 모두 그 비슷한 정도의 성능을 내지 못함
* 가장 혼란스러운 봇은 인터넷 사이트에 대해 이야기하려고 할 때 “커브 서비스(curb service)를 좋아하세요?”같은 문장을 말함
* 봇의 한계에 대해서 조금 더 날카로운 말을 했는데, “당신은 단체 교섭을 할 수 있습니까?”라고 응답
* 아마존의 프라사드는 소셜봇(social bots)은 매우 중요한 영역이지만 굉장히 어려운 일이라고 말함
* 소셜봇은 알렉사가 스마트해질 수 있는 방향
* 하지만 바둑이나 체스를 두는 것 보다 더 어려운 길
* 그러한 게임에는, 가능한 많은 움직임이 있지만 사람들은 그 목적이 어디에 있는지 알고 있음
* 대화에서 사람들은 심지어 다른 사람이 무엇을 달성하려고 하는지 잘 모름
* 알렉사가 그것을 알게 되었을 때, 알렉사와 우리는 진정한 의미에서의 이야기를 할 수 있게 될 것

출처: [MIT Technology Review, George Anders, “Alexa, Understand Me”(2017.8.9)](https://www.technologyreview.com/s/608571/alexa-understand-me/)

이미지 출처: Wikimedia Commons

TOP