본문 바로가기

음성&오디오처리/Speech Processing

Speech Perception(음성 인지)-2

청각 시스템의 블록 다이어그램은 다음과 같다.

 

Block diagram of processes for conversion from acoustic wave to perceived sound

 

음성인지 1편에서 설명했듯, 소리가 신경 자극으로 바뀌는 과정은 꽤나 잘 알려져 있지만, 이 신경 자극이 뇌에서 어떻게 해석되는 지에 대해서는 잘 알려져 있지 않다. 즉 위 블록 다이어그램에서, (음성인지 1편에서 설명한) 'Acoustic to Neural Conversion'은 잘 알려져 있지만 Neural Transduction과 Neural Processing에 대해서는 연구해야 할 부분이 아직 많다고 한다.

 

신경계를 이해하기 위한 인류의 지식이 아직 부족하기 때문에, 청각을 연구하는 과학자들은 음파와 인간의 (심리학적인) 소리 인지가 어떻게 연관있는지를 알아보기 위해 블랙박스 모델을 도입했다.

 

 

블랙박스 모델

블랙박스 모델

 

모델이라고 하기도 뭐한 블랙박스 모델은, 소리가 신경 자극으로 변하고 그 신경 자극을 어떻게 처리하는지는 싸그리 다 무시하고, 소리와 인간이 그 소리를 어떻게 받아들이는지를 수많은 심리학적인 실험 (노가다)로 파악해보자는 모티브를 가지고 있다. 즉 소리의 물리학적 성질(physical attribute)와 인간이 심리학적으로 이 소리를 어떻게 관찰(psychophysical observation)하는지(받아들이는지)를 1대1로 매칭해보다는 의미가 된다. 이렇게 설명해도 이해하기 쉽지 않을 것인데, 그 대표적인 사례들에 대해 설명을 드리겠다.

 

Physical Attribute와 그에 따른 psychophysical observation

 

Intensity와 Loudness, Loudness level

소리도 음파고, 결국 에너지의 흐름이다. 그 에너지가 클 수록 우리는 큰 소리라고 인지하게 된다. Acoustic Intensity는 어떤 면적에 흐르는 에너지(파워)의 평균이며, 단위는 $ watt/m^2 $이다. 우리의 귀는 너무 작은 소리를 인지하지 못하며, 1000Hz의 사인파를 기준으로  $  I_0 = 10^(-12) (watt/m^2) $ 를 넘어야 들을 수 있다고 한다. 이를 기준으로 소리의 크기를 재정의한 단위가 SPL(Sound Pressure Level)이라고도 부르는 IL(Intensity Level)이다. 아래에서 I는 해당 소리의 Acoustic Intensity이다.

$$ IL = 10*log_10(I/I_0) $$

하지만 우리의 귀는 주파수마다 동일한 IL 혹은 SPL 크기를 가지더라도 이를 동일하게 인지하지를 않는다. 즉 10IL의 1000Hz 사인파와 10IL의 100Hz 사인파를 동일한 크기의 소리로 인지하지를 않는다는 뜻이다. 따라서 과학자들은 1000Hz를 기준으로 소리 크기가 같다고 느껴지는 소리들끼리 같은 단위로 두는 척도를 만들었고, 그 척도가 바로 loudness level이다. 단위는 phon이다.

Loudness level

우리가 느끼는 소리의 크기는 또한 phon 단위와 비례하지 않는다. 10phon과 20phon의 소리를 2배 차이라고 느끼지 않는다는 의미이고, 인간이 인지하는 소리의 크기를 loudness level과 매치한 단위가 loudness이다. 단위는 sone이다. 

(그런데 이 단위는 사실 거의 Linear하긴 하다. 별로 중요하지는 않다.)

Loudness

 

 

Frequency와 Pitch

소리의 진동수가 높아지면 (당연한 소리지만) 우리는 그 소리를 높은 소리로 받아들인다. 하지만 우리가 높다고 받아들이는 정도는 진동수가 높아진 정도와 비례하지 않는다. 예를 들어, 1500Hz의 소리가 750Hz의 소리보다 2배 높다고 받아들이지는 않는다는 뜻이다. 청각학자들의 수많은 실험(노가다)를 통해, 진동수가 F일 때 우리가 받아들이는 소리의 높낮이(Pitch)는  $ Pitch = 1127*log_e(1+F/700) $ 라는 사실이 밝혀졌다. 이 단위는 mel이라고 부르며, 이는 차후에 설명하게 될 멜-스펙트로그램 등 딥러닝 시대에도 feature로써 다양하게 사용되는 단위이다.

(어떻게 실험했냐 함은, 어떤 주파수의 사인파와 그 주파수의 두배 혹은 절반 되는 주파수의 사인파를 들려주고 얼마나 차이나는 것 같은지 수치로 표현하라 했다고 한다. 여기서 저 식을 유도한 선조들에게 경의를...)

mel 과 frequency의 상관관계

 

여담으로 우리 귀는 저주파수에 대한 해상도보다 고주파수에 대한 해상도가 떨어진다. 즉, 100Hz과 150Hz의 차이는 잘 구분하지만, 극단저그올 19000Hz와 19050Hz의 차이는 잘 구분하지 못한다는 의미이다. 이는 critical band theory와 연관이 있으며 이에 대한 설명은 본 포스트에서는 생략하겠다.

Critical band Theory


Reference

Peter B. Denes et al., "The Speech Chain"

Lawrence R. Rabiner, "Theory and Applications of Digital Speech Processing"

반응형