..

Search

3-7. 딥러닝의 음성인식

딥러닝에서 사용되는 알고리즘


자동 음성 인식

아래 표는 TIMIT 데이터에 대한 자동 음성 인식 결과를 보여준다.

이 데이터셋은 딥 러닝의 초창기 평가를 위한 일반적인 데이터로서, 미국의 8가지 방언을 사용하는 총 630명의 사람이 읽은 10가지 문장으로 이루어져 있다. 데이터의 크기가 작기 때문에 다양한 설정을 효과적으로 적용할 수 있다. 더 중요한 점은 TIMIT에서 음소 순서 인식(phone-sequence recognition)을 고려한다는 점이다.
따라서, 단어 순서 인식(word-sequence recognition)과는 달리 아주 약한 "언어모델"을 허용하고 음성 인식에서의 음향 모델 측면을 더 쉽게 분석할 수 있다.

2009 ~ 2010년 무렵, 크고 작은 범위의 음성인식에 대한 딥 러닝 기술 활용을 위해서 많은 투자가 있었는데, Li Deng과 그의 동료들은 TIMIT에서의 GMM 과 DNN 모델을 비교하는 실험을 수행하였다.
결국 그들은 음성인식에서의 딥 러닝 활용에 있어서 가장 앞서나가게 되었다. 이 분석은 먼저 식별적 DNN과 발생적 모델 사이의 성능 비교(1.5% 이하의 오차율)로 수행되었다.

아래 표에 나타난 오차율은 앞에서 말한 초창기 실험을 포함하여 과거 20 여 년 간 수행된 실험들의 음소 오차율(Phone error rate)을 요약한 것이다.

 

방식

PER(%)

 Randomly Initialized RNN

 26.1

 Bayesian Triphone GMM-HMM

 25.6

 Hidden Trajectory (Generative) Model

 24.8

 Monophone Randomly Initialized DNN

 23.4

 Monophone DBN-DNN

 22.4

 Triphone GMM-HMM with BMMI Training

 21.7

 Monophone DBN-DNN on fbank

 20.7

 Convolutional DNN

 20.0

 Convolutional DNN w. Heterogeneous Pooli

 18.7

 Ensemble DNN/CNN/RNN

 18.2

 Bidirectional LSTM

 17.9

 

TIMIT로부터 대량 어휘 음성인식(large vocabulary speech recognition)으로의 딥 러닝의 확장은 2010년 산업계 연구자들에 의해 성공적으로 수행되었다.
자동 음성 인식 분야의 2014년 10월까지의 최신 동향은 마이크로소프트 리서치의 책 에 잘 정리되어있다.
또한 자동 음성인식과 관련된 배경 지식과 다양한 기계학습 패러다임의 영향을 잘 정리한 글을 참고할 수 있다.
대용량 자동 음성인식은 최근 딥 러닝의 역사에서 산업계와 학계를 모두 아우르는 처음이자 가장 성공적인 케이스라고 할 수 있다.

2010년부터 2014년까지, 신호처리와 음성인식에 대한 주요 학술회의인 IEEE-ICASSP 와 Interspeech는 음성인식을 위한 딥 러닝 분야의 합격 논문 개수에 있어서 거의 기하급수적인 성장을 보여주었다.
더 중요한 것은, 현재 모든 주요 상업 음성인식 시스템(MS 코타나, 스카이프 번역기, 구글 나우, 애플 시리 등등)이 딥 러닝 기법에 기반하고있다.

 

   적용 화자

 화자 종속

 미리 등록한 특정 화자

 높은 인식 성능

 휴대폰 보이스 다이얼링

 화자 독립

 불특정 화자

 대용량 음성 DB

 Directoy assistance

   발음 형태

   고립어

 고립 단어

 단어 전후에 묶음 존재

 보이스 브라우저

 완구류(임베디드)

   연속어

 연결 단어, 연속 문장, 대화체

 다양한 발음 변이를 고려한 언어 모델, 핵심어 인식

 대화형 자동예약

 음성 dictation

 증권거래

   어휘 크기

   소용량

 수백~수천 단어

 단어 모델, 문맥 독립형 모델

 윈도우제어

 TV 제어

   대용량

 수만 단어 이상

 문맥을 고려한 sub –word(형태소) 형태의  모델 단위

 자동 통역

 음성 검색

 회의 녹취

 

 

- 자음접변, 구개음화 등의 일반적인 음운 현상을 반영하기 위해 발음규칙이 사용.
- 인식 어휘 자체를 등록하기 위해 어휘 사전 사용.
- 음향모델 측면에서 딥러닝 기술이 매우 효과적.
- 언어모델 측면에서는 그 효 과가 상대적으로 약하게 나타남.
- 딥러닝 및 잡음처리 기술의 발전으로 사람간의 자연스런 대화 음성을 대상으로 기술 고도화 가 이루어지고 있음.
  

대화체 음성인식이 어려운이유
- ‘그러니까’,‘ 음’,‘ 아참’ 등등 헤아릴 수 없이 많은 간투사가 수시로 사용
- 더듬거 림, 어휘의 도치 현상, 동일 어휘의 반복이나 어휘적 단락(끊어 짐), 재발성 등등으로 인한 비문법적인 비정형 발성이 빈발함 에 기인
- 비정형 자연어(unstructured spontaneous speech)라고로 정의.
 


딥러닝 음성인식 기술의 전망

- 학습의 기본 알고리즘 측면에서는 영상, 문자, 음성, 제스처 등 단일한 모달리티(modality)를 독립적으로 학습 및 인식하는 방식에서 나아가 영상이나 음성 등의 여러 가지 모달리티를 동시에 학습 및 인식하는 방식으로 변화할 것.
  예) 음성 신호와 입술의 움직임을 동시에 사용해서 고성능 음성인식이 가능하게 되는 것.
 

- 시간적으로나 공간적으로 분리된 대상(object)을 인식하는 이산형(discrete), 분절형 (segmented) 방법론으로부터 이들을 시간적, 공간적으로 연동해 학습함으로써 인식 성능을 높이는 방향으로 발전하게 될 것.
  예) 단순한 정지 영상 또는 그 결합을 인식 대상으로 하지 않고 연속된 영상 자체를 인식하는 동적/증강형 (dynamic/incremental) 학습으로 발전하게 될 것.

 

- 단순 데이터나 패턴을 분류하는 데서 나아가 대상이 내포하는 의미까지 인지하게 되는 방향으로 발전하게 될 것.
  예) 음성 신호에서 특정 어휘를 인식한 다음 단어가 문맥적으로 어떤 의미를 내포하고 있는지, 어떠한 감정이 포 함되어 있는지까지 파악하여 대화를 진행할 수 있게 될 것.
 

- 향후 이러한 수동 또는 반자동으로 생성되는 지식은 데이터만 주어지면 인공지능이 스스로 학습해서 지식을 쌓아가는 형태인 자율 학습 방법론에 따라 사람의 개입이 최소화되는 방향으로 발전할 전망이다.
 

- 하나의 지식이 생성되면 유사한 지식을 자가적으로 확장해 나가는 다중도메인 확장 지식, 다양한 지식을 검색하고 분석하는 방식에서 나아가 기존 지식에 기반해서 새로운 사실을 예측해 나가는 예측형 지능으로 발전할 전망이다.


연습문제