차례:
요즘 대부분의 컴퓨터 음성은 지나친 다. 휴대 전화에서 "드로이드"소리가 들리면 청구서 지불에 도움이되거나 원하는 부서에 대해 문의 할 때 사이보그 및 로봇에 대해 잘 알고 있지 않을 것입니다. 그러나 Kurt Cobain이 갑자기 카드 정보를 요구한다고 들었다면 어떨까요? 아니면 존 F. 케네디가 조기 투표의 경이로움을 말합니까? 아니면 엘비스가 당신의 이름과 주소를 알아 내기 전에 "취한 사랑의 덩어리?"
이 모든 것은 … 이상한 일이지만, 더 흥미로운 것은 기술이 기본적으로 이미 존재한다는 것입니다. 불과 10 년 전, 우리는 컴퓨터가 전혀 대화 할 수없는 능력에 놀랐습니다. 이제 우리는 우리가 아는 사람들처럼 들리는 컴퓨터로 생성되는 무료 범위의 음성에 의해 바닥을 about습니다.
NLP의 큰 변화
자연어 처리 (NLP) 분야에주의를 기울이고 있다면, 현재 GPS (Global Positioning System) 및 자동화 된 비즈니스에서들을 수있는 통조림 가상 어시스턴트 음성의 종류를 뛰어 넘는 최근 발전에 대해 들어 보셨을 것입니다. 전화선.
NLP의 시작은 인간 연설의 일반적인 역학에 대한 많은 연구가 필요했습니다. 연구원과 엔지니어는 개별 음성학을 식별하고이를 구문과 문장을 생성하기위한 더 큰 알고리즘으로 접은 다음 메타 수준에서 모든 것을 관리하여 실제와 같은 것을 생성해야했습니다. 시간이 지남에 따라 NLP 리더는 이것을 마스터하고 인간의 말을 이해하기 위해 고급 알고리즘을 구축하기 시작했습니다. 이 두 가지를 합쳐서 회사는 오늘날의 가상 조수와 완전히 디지털 청구서 담당자를 이끌어 냈습니다. 귀찮은 동안 매너리즘은 여전히 놀라운 일에 대해 생각할 때 놀랍습니다.
이제 일부 회사는 일반적인 가상 음성을 뛰어 넘어보다 구체적인 개인화 된 결과를 모으고 있습니다. 이를 위해서는 특정 사람의 어휘집을 살펴보고 대량의 고유 한 음성 비디오를 수집 한 다음이 아카이브를 음성학, 강조, 케이던스 및 언어 학자들이 종종 "번영"이라는 광범위한 배너 아래 그룹화하는 기타 모든 작은 신호에 대한 복잡한 리듬에 적용해야합니다.
듣는 사람은 특정 사람이 알고 있고 말한 사람 또는 사람의 명성의 결과로 자신의 목소리를 인식하는 사람이 "소유"한 것으로 생각하는 목소리입니다.
엘비스에서 마틴 루터 킹에 이르기까지 모든 사람의 목소리는 이제 이런 방식으로 "복제"될 수 있습니다. 기업은 개별적인 작은 소리에 더 자세한 분석과 조작을 적용함으로써 실제와 매우 흡사 한 사람의 목소리를 가상으로 복사 할 수 있습니다.
VivoText에서 흥미로운 "텍스트에서 음성으로"생성
예를 들어 VivoText는 오디오 북에서 대화 형 음성 응답 (IVR)에 이르기까지 모든 종류의 캠페인에 인공적인 사람의 음성 사용을 혁신하기 위해 노력하는 회사 중 하나입니다. VivoText의 연구 및 생산 팀은 이론적으로 Ol 'Blue Eyes와 같은 사망 한 유명인의 목소리를 구체적으로 재현 할 수있는 프로세스를 연구하고 있습니다.
VivoText의 CEO 인 Gershon Silbert는 "Frank Sinatra의 목소리를 복제하기 위해 그의 기록 된 유산을 실제로 살펴볼 것"이라고 말합니다.
현재 VivoText는 이런 종류의 IT 개척자 프로젝트의 모델로 서명 한 NPR 통신원 Neal Conan과 같이 우리와 함께있는 사람들의 목소리를 보관하기 위해 노력하고 있습니다. 프로모션 비디오는 VivoText 작업자가 Conan이 제공 한 음성 입력을 사용하여 음성 코드 모듈을 힘들게 만드는 것을 보여줍니다. 그런 다음 극도로 인간적이고 개인화 된 결과를 이끌어내는 TTS (text to speech) 도구 모델을 만듭니다.
VivoText의 전략 및 사업 개발 담당 부사장 인 벤 펠러 먼 (Ben Feibleman)에 따르면, 컴퓨터는 음소 수준 (가장 작은 고유 한 부분을 사용)에서 작동하여 개별 인간의 목소리에 대한 프로 소딕 모델을 따릅니다.
Feibleman은 "음성 대화 방법을 알고있다"면서 "단위 선택"을 사용하여 컴퓨터가 "금요일"이라는 단어를 개발하는 데 도움이되는 5 개의 구성 요소와 같이 하나의 짧은 단어를 구성하기 위해 여러 조각을 선택한다고 덧붙였다. 특별한 강조와 색조 결과.
마케팅의 인공 목소리
그렇다면 어떻게 마케팅에서 작동합니까? VivoText의 제품은 오디오 북과 같이 대상 고객에게 도달 할 수있는 제품을 만드는 데 매우 유용 할 수 있습니다. 예를 들어, 엔터테인먼트 관련 제품을 판매하는 데 Elvis 음성을 오늘날의 일반적인 데드 팬 자동 음성과 비교하면 훨씬 더 효과적입니까?
아니면 정치는 어떻습니까? Feibleman은 이와 같은 프로젝트를 사용하여보다 효과적인 메시지를 필요로하는 회사 나 다른 당사자의 마케팅을 향상시키기위한 다양한 아이디어를 연구하고 있습니다.
"대통령에 출마하는 정치인을 안다면, 천만 명의 유권자 유권자들이 후보들로부터 개인적으로 전화를 받도록 지원해 주셔서 감사하며, 투표 장소, 날씨 및 모든 트리밍에 필요한 곳을 알려주십시오. 선거 전날 밤 "Feibleman이 말했다.
당신의 목소리가 살아 있습니다
이 모든 기술에 또 다른 명백한 응용이 있습니다. VivoText와 같은 자연어 회사는 고객의 모든 음성 데이터를 제품에 업로드하여 개인이 "영원히 말할 수있는"개인 서비스를 만들 수 있습니다.
실제적인 구현은 우리가 말하는 목소리를 듣고 내면화하는 방법에 대한 많은 질문을 제기 할 것입니다. 예를 들어, 누군가와 똑같이 사운드 스트림 사운드를 만들려면 어떻게해야합니까? 특정 목소리를 인식하려면 사람을 얼마나 잘 알아야합니까? 그리고 흥미롭게도, 자연어 서비스가 강력한 흉내가 아닌 조잡한 풍자 만화를 만들어 내면 어떻게 될까요?
Feibleman은 결과 평가는 종종 맥락의 고려에 달려 있다고 말한다. 예를 들어, 그는 아이들이 보통 이야기를들을 때 누가 말하는지에 대해 질문하지 않는다고 말합니다. 그들은 단지 더 많은 것을 원합니다. 그러나 많은 성인들은 수동 방송이나 전화 메시지와 같은 특정 시나리오를 고려할 때 누가 대화하고 있는지에 대해 생각하지 않을 수 있습니다. 또한, 컴퓨터에서 소리가 들리면 컴퓨터 소리와 사람의 소리 사이의 결함이나 기타 불일치를 가릴 수 있기 때문에 전화를 통해 컴퓨터에 속이기 쉽습니다.
Feibleman은“음성의 진위에 도전하는 것은 결코 일어나지 않습니다.
2525 년
기업들이 제품과 서비스를 개발하고 이러한 질문에 대답함에 따라 "살아있는 연설"기술은 인공 지능 (AI)이라고 불리는 기술과 인간의 마음의 융합으로 나아가게 할 수 있습니다.
컴퓨터가 우리처럼 말할 수 있다면, 다른 사용자가 우리처럼 생각한다고 생각하도록 속일 수 있습니다. 작가들에게 복음을 전한 1950 년대 기술 개척자 인 존 폰 노이만 (John von Neumann)이 사전에 소개 한 것처럼 더 큰 독창성 원칙을 도입했습니다. Ray Kurzweil과 같은 사상가. Kurzweil의 2005 년 책 "Singularity is near"는 일부 사람들을 흥분시키고 다른 사람들을 두려워합니다. Kurzweil 's는 2045 년까지 "지능"이라는 현상이 인간의 두뇌에서 크게 뒤지지 않고 기술로 옮겨 기계와 인간의 주인 사이의 경계를 흐리게 할 것으로 예측했다.
Zager & Evans의 "In The Year 2525"의 가사에서 불멸의 인물 (아무도이 사람들처럼 오싹한 공상 과학 발라드를하지 않습니다)…
4545 년
당신은 이빨이 필요하지 않습니다, 필요하지 않습니다
너의 눈
씹을 물건을 찾을 수 없습니다
아무도 당신을 보지 않을 것입니다
5555 년에
팔이 옆구리에 걸려
네 다리는 할 일이 없어
일부 기계는 당신을 위해 그것을하고 있습니다.
컴퓨터 음성이이 방향으로 나아가는가? 인체의 일부 기능을 아웃소싱하는 새로운 방법 (또는 더 일반적으로 시뮬레이션하기 위해)으로서, 이런 종류의 기술 진보는 단일 미래를 바라 볼 때 지평선에서 가장 크고-아마도보고되지 않은-진보 중 하나입니다. . (컴퓨터가 인간의 마음을 모방 할 수 있는가?