[GCP] Speech API를 이용하여 음성을 텍스트로 변환하기

Google Cloud Platform에서 제공하는 Cloud ML중 Speech API를 이용하여 음성파일로 저장한 것을 텍스트로 변환을 해본다.

회의시나 통화중 저장된 음성을 텍스트로 변환할 필요가 생겼는데 이러한 것을 손 쉽게 GCP내의 Speech API를 이용하여 진행한다.

1. 음성파일을 google cloud storage로 업로드를 한다.

gsutil cp <음성파일> gs://<bucket-name>

a. curl -o- https://raw.githubusercontent.com/creationix/nvm/v0.33.2/install.sh | bash

b. Node.js 및 npm 설치

nvm install stable

nvm alias default stable

npm install --save express

git clone https://github.com/googleapis/nodejs-speech.git

npm install --save @google-cloud/speech

* npm install만 실행하면 에러가 나서 위의 명령어를 통해 dependency module을 설치한다.

Credentials -> Create credentials -> Service account key 로 들어가서 Key를 생성한다.

New service account를 아래와 같이 생성한다. 테스트 목적이기 때문에 권한은 Project Owner로 할당하였다

생성하고 나면 JSON Credential이 생성되고 해당 Json 키를 저장 후 GOOGLE_APPLICATION_CREDENTIALS 환경변수로 설정한다.

export GOOGLE_APPLICATION_CREDENTIALS=/your_path/service_account_file.json

node recognize.js --help

참고로 speech api의 경우 Quota가 제한적이다.

https://cloud.google.com/speech/quotas

Quota를 수정하는 곳은 아래에서 수정하면 된다

https://console.cloud.google.com/apis/api/speech.googleapis.com/quotas

그리고 열심히 소스코드 받아서 돌려보다가 보니 gcloud 명령어에서 위 기능을 지원해준다 -_-;;

https://cloud.google.com/sdk/gcloud/reference/ml/speech/recognize-long-running