본문 바로가기

음성&오디오처리

(7)
[논문리뷰] Parallel Wavegan: A Fast Waveform Generation Model Based on Generative Adversarial Networks with Multi-Resolution Spectrogram R. Yamamoto, E. Song and J. -M. Kim, "Parallel Wavegan: A Fast Waveform Generation Model Based on Generative Adversarial Networks with Multi-Resolution Spectrogram," ICASSP 2020 - 2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP), 2020, pp. 6199-6203, doi: 10.1109/ICASSP40776.2020.9053795. 세줄 요약 - Parallel Wavegan은 multi-resolution STFT loss와 waveform-domain ..
[논문리뷰] WaveNet: A generative model for raw audio A. van den Oord, S. Dieleman, H. Zen, K. Simonyan, O. Vinyals, A. Graves, N. Kalchbrenner, A. W. Senior, and K. Kavukcuoglu, “WaveNet: A generative model for raw audio,” CoRR, vol. abs/1609.03499, 2016. 세줄 요약 - Wavenet은 autoregressive generative model에서 영감을 받아 만들어진 raw audio generation technique이다. - Dilated Causal Convolution은 Wavenet에서 큰 receptive field를 가지는 autoregressive model을 만들 수 있게 해주는 기..
Human Speech Production(음성 생성과정)-2 음성 생성과정은 한 포스트로 끝내려 했는데, 이전 포스트에서 음성 생성의 회로적인 관점에 대해서 언급하지 않았더라. 이 개념을 짚고가지 않으면 Short-time 분석의 motive에 대해 설명하기 힘들어서, 원래 있던 글에 붙여 쓰려다가 포스트 수나 늘릴 겸 음성 생성과정도 두 포스트로 나눠서 설명한다. 음성 생성과정 첫 번째 포스트에서 설명했던 single tube model이다. 공기가 폐를 통해 밀려 올라오면 vocal cords의 닫힘 혹은 열림에 따라 무성음/유성음 여부가 결정되고, 이후 vocal tract에서 소리가 조각이 되는 구조이다. Single tube model은 인간의 음성 생성과정을 이해하는데는 도움이 되는 모델이지만, 신호처리 관점에서 실제로 음성을 생성하는데 활용하기는 어려..
Speech Perception(음성 인지)-2 청각 시스템의 블록 다이어그램은 다음과 같다. 음성인지 1편에서 설명했듯, 소리가 신경 자극으로 바뀌는 과정은 꽤나 잘 알려져 있지만, 이 신경 자극이 뇌에서 어떻게 해석되는 지에 대해서는 잘 알려져 있지 않다. 즉 위 블록 다이어그램에서, (음성인지 1편에서 설명한) 'Acoustic to Neural Conversion'은 잘 알려져 있지만 Neural Transduction과 Neural Processing에 대해서는 연구해야 할 부분이 아직 많다고 한다. 신경계를 이해하기 위한 인류의 지식이 아직 부족하기 때문에, 청각을 연구하는 과학자들은 음파와 인간의 (심리학적인) 소리 인지가 어떻게 연관있는지를 알아보기 위해 블랙박스 모델을 도입했다. 블랙박스 모델 모델이라고 하기도 뭐한 블랙박스 모델은, ..
Speech Perception(음성 인지)-1 다시 Speech Chain에서 시작한다... The Speech Chain Speech(음성)은 인간들 사이의 communication에 있어서 가장 간편한 형태 중 하나이다. 두 사람이 speech를 통해 소통하는 과정을 Speech Chain이라고 부른다. The Speech Chain Speech chain을 더 구체적으로 설.. youngwonchoi.tistory.com Speech chain의 청자 부분을 보자. 음성이 음파(소리)를 통해 귀로 전달되면 귀 내의 음압 변화를 통해 소리가 신경 자극으로 바뀌게 되고(physiological level), 이 신경 자극은 뇌에서 linguistic form으로 변환(linguistic level)되게 된다. Speech production과 유사..
Human Speech Production(음성 생성과정)-1 이전 포스트에서 speech chain에 대해 알아봤다. 더 자세한 내용은 해당 포스트를 참고하시길. The Speech Chain Speech(음성)은 인간들 사이의 communication에 있어서 가장 간편한 형태 중 하나이다. 두 사람이 speech를 통해 소통하는 과정을 Speech Chain이라고 부른다. The Speech Chain Speech chain을 더 구체적으로 설.. youngwonchoi.tistory.com 화자는 머릿속의 생각을 linguistic form(언어형식이라는데, 대충 문장이라고 생각하면 되겠다.)으로 바꾸고(linguistic level), 운동 신경을 이용해 발성 기관을 활성화하여 linguistic form을 다시 음파, 즉 소리로 바꾸는 과정(physiol..
The Speech Chain Speech(음성)은 인간들 사이의 communication에 있어서 가장 간편한 형태 중 하나이다. 두 사람이 speech를 통해 소통하는 과정을 Speech Chain이라고 부른다. The Speech Chain Speech chain을 더 구체적으로 설명하면, '화자가 조음기관을 이용해 발화하면, 청자가 귀를 통해 진동이 전달되고 청자가 의미를 해독하는 일련의 과정'이라고 할 수 있다. 이 과정은 화자가 처리하는 과정과 청자가 처리하는 과정으로 나뉘어진다. 화자 1. Linguistic level: 머리 속의 생각을 linguistic form으로 변환하는 과정이다. 화자가 사용하는 언어의 문법, 단어 등에 영향을 받는다. 2. Physiological level: 화자의 linguistic lev..