본문 바로가기

음성&오디오처리/Speech Processing

The Speech Chain

Speech(음성)은 인간들 사이의 communication에 있어서 가장 간편한 형태 중 하나이다. 두 사람이 speech를 통해 소통하는 과정을 Speech Chain이라고 부른다.

 

The Speech Chain

Speech chain을 더 구체적으로 설명하면, '화자가 조음기관을 이용해 발화하면, 청자가 귀를 통해 진동이 전달되고 청자가 의미를 해독하는 일련의 과정'이라고 할 수 있다. 이 과정은 화자가 처리하는 과정과 청자가 처리하는 과정으로 나뉘어진다.

 

화자

1. Linguistic level: 머리 속의 생각을 linguistic form으로 변환하는 과정이다. 화자가 사용하는 언어의 문법, 단어 등에 영향을 받는다.

2. Physiological level: 화자의 linguistic level을 통해서 생성된 linguistic form을 음파로 전달하기 위해 운동 신경을 활용하여 발성 기관을 활성화시키는 단계이다.

3. Acoustic level: speech가 음파, 즉 소리로 화자의 입에서 청자의 귀로 전달되는 과정이다.

 

청자

4. Physiological level: 귀 내의 음압 변화를 통해 소리를 신경 자극으로 바꾼다.

5. Linguistic level: 청자의 physiological level을 통해 생성된 신경 자극을 linguistic form으로 변환한다. 즉 화자가 전하고자 하는 메세지를 청자가 받아들이는 과정이다.

 

Digital Speech processing(음성신호처리)에서는 linguistic level보다 physiological level에 더 초점을 두고 있다. (Acoustic level은 사실상 인간이 관여하는 부분이 없으니 제외.) 아래 포스트에서는 각각 화자단의 physiological level(Human Speech Production)과 청자단의 physiological level(Speech Perception)에 대해서 더 자세히 알아본다.

 

Human Speech Production

https://youngwonchoi.tistory.com/27

https://youngwonchoi.tistory.com/30

 

Speech Perception

https://youngwonchoi.tistory.com/28

https://youngwonchoi.tistory.com/29


Reference

Peter B. Denes et al., "The Speech Chain"

Lawrence R. Rabiner, "Theory and Applications of Digital Speech Processing"

반응형