Converting Audio into Text ( with Predicting Punctuation )

EDU_Siri에는 "동영상 속 강의자의 음성을 텍스트로 변환하여 파일에 저장"하는 기능이 있다. 이 기능을 구현하면서 얻었던 지식들과 삽질했던 내용들을 적어볼까 한다.

구글링을 하면 대표적으로 speech_recognition 라이브러리가 나온다.개발 초기에는 이 모듈을 이용하려 했으나, 개발에 부적합한 2가지 요소가 있었다.

Speech_recognition을 검색하면 대부분, 마이크를 통해 음성을 Input하고, 이 Input 값들을 텍스트로 변환하는 예제 코드를 소개한다. 내가 구현하려는 기능은 마이크로 음성을 Input하는 게 아니므로 다른 방식의 코드 구현이 필요했다.
위 모듈이 비디오 음성을 텍스트로 변환하게 할 수는 있다. 다만, 해당 모듈이 용량 제한이 존재한다. 100MB까지만 비디오 음성을 텍스트로 변환해주므로 이 모듈을 사용할 수가 없었다.
speech_recognition으로 음성 인식 결과값을 보면 . , ! ? 와 같은 문자들은 인식 못함을 알 수 있다. 음성 인식한 텍스트들을 요약 기능에 넘겨야하는데, 요약 기능은 . , 와 같은 구두점을 기준으로 행렬을 만든다. 즉, 구두점 없이는 요약 기능을 사용할 수가 없다. -> 이 점이 speech recognition을 사용하지 못하는 가장 큰 원인이다.

용량 제한 없이 편하게 음성을 텍스트로 변환해 줄 코드 솔루션으로 VOSK Model 채택했다.(음성인식 툴킷인데, 잘 안알려져 있다. 레퍼런스가 거의 없어 로직을 구현할 때, 꽤 고생했다).

vosk model download : https://alphacephei.com/vosk/models

나는 배포할 때를 감안하여 가장 가벼운 옵션인 vosk-model-small-en-us-0.15을 선택했다. 이제 코드를 보자.

1. Convert Video into Audio file

프로그램은 비디오 파일을 Input 하는 형식으로 진행되기에, 음성 인식 전 비디오 파일을 오디오 파일로 전환한다. FRAME_RATE는 sampling rate를 정하는 것인데, 음질과 상관있다. 16000이 가장 최적화된 값이라서 아래와 같이 정의했다. Channels는 음성의 특징을 정하는 것인데, 값을 1로 정하면 일반적으로 우리가 듣는 1차원적 음향이다. (값을 2로 정하면 서라운드 음향과 비슷한 효과가 나는 것 같다)

    # Convert Video to audio file
    clip = mp.VideoFileClip(video_path)
    clip.audio.write_audiofile(speech_path)
    
    FRAME_RATE = 16000
    CHANNELS = 1

2. Basic setup Code

사용할 음성 인식 Model과 세팅 값을 정의한다. 기능 구현 단계에서 음성 파일이 텍스트로 정확히 변환되는 지 확인하기 위해, SetWords(True)로 지정해뒀다.

# set up
model = Model(model_name='vosk-model-small-en-us-0.15')
rec = KaldiRecognizer(model, FRAME_RATE)
rec.SetWords(True)

SetWords(True) - 음성으로 번역된 완성된 문장과 각각의 단어들을 모두 확인할 수 있음

speech = AudioSegment.from_mp3(speech_path) # Load file
speech = speech.set_channels(CHANNELS)
speech = speech.set_frame_rate(FRAME_RATE)

rec.AcceptWaveform(speech.raw_data)
result = rec.Result()

이제 파일을 로드하고, 음성 인식 parser를 통해 음성 raw data 받아 result 변수에 반환한다. result 값은 아래처럼 나온다.

여기서 우리가 알고자 하는 값은 변환된 음성 text들이므로 json.loads 함수로 text의 값들만 읽어온다.

text = json.loads(result)['text']

3. Prediction of Punctuation

위 text 값을 읽어보면 완성된 문장 형태로 잘 출력되지만 . , ? ! 와 같은 문자가 없다. 이 구두점들이 없으면 글 요약 기능이 matrix를 제대로 구성할 수 없다. 즉, 글 요약 기능이 쓸모 없어진다. 따라서 구두점을 예측하는 솔루션이 필요했다.

https://alphacephei.com/vosk/models/vosk-recasepunc-en-0.22.zip

vosk-recasepunc는 문장들의 구두점을 예측해서 . , ? ! 등의 기호들을 적절한 위치에 넣어주는 역할을 한다. 구글링하면 사용법으로 2종류가 나온다. 나의 경우 subprocess 모듈을 이용해 recasepunc.py 파일을 무식하게 돌리는 방법만 제대로 작동해서, 이 방법을 선택했다.

cased = subprocess.check_output('python recasepunc/recasepunc.py predict recasepunc/checkpoint', shell=True, text=True, input=text)
cased = cased.replace(" ' ", "'").replace(" ? ", "? ").replace(" ! ", "! ")

4. Result

So if you look at recent results from several different leading speech groups, Microsoft showed that this kind of deep neural network 
when used to see coasting model and (이하 생략)

Full Code

def video_to_text(video_name):
    # Set path of video and speech file
    base_path = os.getcwd()
    video_path = base_path + "\\video\\" + str(video_name)
    speech_file = str(video_name).split('.')[0]
    speech_file = speech_file + ".wav"
    speech_path = base_path + "\\speech\\" + str(speech_file)

    # Convert Video to sound file
    clip = mp.VideoFileClip(video_path)
    clip.audio.write_audiofile(speech_path)

    FRAME_RATE = 16000
    CHANNELS = 1

    try:
        model = Model(model_name='vosk-model-small-en-us-0.15')
        rec = KaldiRecognizer(model, FRAME_RATE)
        rec.SetWords(True)
        print("\n\n#############    Now, I'm on my work.. It takes a few minutes.  #################")
        print("##################      It's okay to ignore warnings!      ##########################")
        print("####  If the program is still stuck after enough time has passed, press Enter.  #####")
        speech = AudioSegment.from_mp3(speech_path)
        speech = speech.set_channels(CHANNELS)
        speech = speech.set_frame_rate(FRAME_RATE)

        rec.AcceptWaveform(speech.raw_data)
        result = rec.Result()
        text = json.loads(result)['text']
        cased = subprocess.check_output('python recasepunc/recasepunc.py predict recasepunc/checkpoint', shell=True, text=True, input=text)
        cased = cased.replace(" ' ", "'").replace(" ? ", "? ").replace(" ! ", "! ")
        with open('speech_result.txt',mode ='a') as file: 
            file.write("\n==============================================\n")
            file.write("Content: \n") 
            file.write(str(cased)) 
            print("+===========================================+")
            print("| Converting is done! (Video Sound -> Text) |")
            print("+===========================================+")
    
    except Exception as e:
        error("Error occurred during converting video sound to text! The file is probably an unsupported format")

저작자표시 비영리 변경금지

1. Convert Video into Audio file

2. Basic setup Code

3. Prediction of Punctuation

4. Result

Full Code

티스토리툴바