본문 바로가기

음성&오디오처리/Speech Processing

Human Speech Production(음성 생성과정)-1

이전 포스트에서 speech chain에 대해 알아봤다. 더 자세한 내용은 해당 포스트를 참고하시길.

 

The Speech Chain

Speech(음성)은 인간들 사이의 communication에 있어서 가장 간편한 형태 중 하나이다. 두 사람이 speech를 통해 소통하는 과정을 Speech Chain이라고 부른다. The Speech Chain Speech chain을 더 구체적으로 설..

youngwonchoi.tistory.com

 

화자는 머릿속의 생각을 linguistic form(언어형식이라는데, 대충 문장이라고 생각하면 되겠다.)으로 바꾸고(linguistic level), 운동 신경을 이용해 발성 기관을 활성화하여 linguistic form을 다시 음파, 즉 소리로 바꾸는 과정(physiological level)을 거쳐 음성을 생성하게 된다. 음성처리 분야에서는 이 중 physiological level에만 주로 관심을 갖고 연구를 하게 된다. Linguistic level은 뇌과학이나 NLP 분야를 연구하시는 연구원들이 책임져 줄 것이라고 믿는다. :)

 

그럼 이번 포스트에서는 Human Speech Production에 대해 알아보자.

 

The Mechanism of Speech Production

일단 인간의 발성 기관은 다음과 같이 존재한다.

인간의 발성 기관.

이를 단순화하여 표현한 개략도는 다음과 같이 그릴 수 있다.

인간 발성 기관의 개략도

이 기관들은 어떤 발성 과정에 기여하는지에 따라서 아래와 같이 크게 세 파트로 나눌 수 있다. 각 파트에 따라 principal한 역할을 맡고 있는 기관들만 언급하였고, 발성에 사소하게 기여하는 기관들은 언급하지 않았다. 

Subglottal System: Lungs(폐), Trachea(Windpipe, 기도)

Larynx(후두): Vocal cords(성대)

Above Larynx: Pharynx(인두), Tongue(혀), Velum(연구개), Mouth Cavity(구강), Nasal Cavity(비강), Lips(입술)

 

그럼 각 파트들에 따라 어떤 발성 과정을 거치게 되는지 알아보자. 공기가 폐에서부터 subglottal system, larynx, above largynx 순으로 거치면서 입 (혹은 코) 밖으로 나오게 되는데, 이 공기의 흐름 순으로 발성 기관들을 알아보도록 하자.

 

Subglottal System

직역하면 '성문 아래에 위치하는 시스템'을 의미한다. Glottal(성문의)의 glottis(성문)은 Larynx에 위치한다.

Subglottal System

말을 하는 행위는 호흡이 필요하며, 이 호흡은 Lungs(폐)로부터 발생하게 된다. Lung의 부피는 chest cavity(흉강), 즉 가슴쪽의 공간을 늘리고 줄임으로 조절할 수 있고, lung이 커졌다가 작아지면서 공기가 trachea(Windpipe, 기도)를 통해 Layrnx(후두)로 밀려나가게 된다. Chest cavity는 diaphragm(횡격막), 혹은 intercostal muscles(늑간근)을 통해 조절되게 된다. 참고로 diaphragm을 주로 이용한 호흡을 복식호흡, intercostal muscles을 주로 이용한 호흡을 흉식 호흡이라고 한다.

 

사실 개략도에 간단하게 표현되어 있듯 음성신호처리 관점에서는 'subglottal system이 어떤 근육의 힘으로 공기를 퍼올려준다...' 정도만 알고 있어도 된다.

 

Larynx

Larynx의 vocal cords(vocal folds, 성대)는 내가 말하게 될 음소가 voiced consonants(유성음)일지 unvoiced consonants(혹은 voiceless consonants, 무성음) 일지를 결정하는 중요한 발성기관이다. 유성음은 vocal cords의 떨림이 있는 소리, 무성음은 떨림이 없는 소리를 의미한다. 

Larynx

Voiced consonants를 발성하는 과정은 다음과 같다. 우선 arytenoid cartilage와 thyroid cartilage라는 두 연골에 의해 vocal cords가 tense되면서 vocal cords 사이의 glottis(성문)가 좁아지게 된다. 이 좁은 틈을 통해 subglottal system에서 퍼올려진 공기가 나오면서 베르누이 법칙에 의해vocal cords의 진동(60~350Hz)이 발생하게 된다. Unvoiced consonants의 경우에는 vocal cords가 untensed 되면서 glottis가 활짝 열리게 되고, vocal cords의 진동이 생기지 않게 된다.

 

Above Larynx

Larynx의 vocal cords 위쪽에서 시작하여 혀가 있는 공간을 걸쳐 입술에 이르기까지의 공간을 vocal tract(성도)라고 부른다.

Vocal tract

성도에서는 Pharynx(인두), Tongue(혀), Velum(연구개), Mouth Cavity(구강), Nasal Cavity(비강), Lips(입술) 등을 움직이면서 Larynx를 거쳐 올라온 공기가 움직이는 방향을 조절하게 되며, 공기의 마찰을 만들거나 특정 주파수에서 공진을 일으키는 등 여러가지 음을 생성할 수 있게 된다. 소리를 조각하는 단계라고 보면 편할 듯하다.

 

 

정리하면서, 발성 과정을 정말 단순하게 표현하면 다음과 같은 그림이 나온다. 이를 single tube model이라고 표현한다. 공기가 Lung을 통해 밀려오면 vocal cords에서 유성음/무성음 여부를 결정하고, 뒤의 vocal tract에서 소리를 조각하는 구조이다.

Single tube model


Reference

Peter B. Denes et al., "The Speech Chain"

Lawrence R. Rabiner, "Theory and Applications of Digital Speech Processing"

반응형