
Amazonは11月21日、アマゾンウェブサービス(AWS)で音声から直接文字起こしを行うサービス「Amazon Transcribe」が日本語対応したことを発表しました。この発表から数日後に筆者は1時間のインタビュー音声の書き起こしに取り組もうとしていたのですが、1時間のインタビューを起こすのには結構な労力がかかります。自動文字起こしは全ライターと編集者の夢ともいえるとても魅力的なものなので、気軽な気持ちで試してみました。
AWSに触れてみるー使用するサービスは2つ

まずは、Amazon Transcribeの使い方から記事を進めていきたいと思います。流れとしては、
- AWSのS3というオンラインストレージに録音した音声データをアップロード
- Amazon Transcribeでの自動文字起こし
- 日本語テキストをダウンロード


S3にアクセスし、音声のアップロードの準備をしましょう。まずはバケットという保存場所を作成します。画像のようにバケット名taranstestと入力し、リージョンは東京を選択。次の画面ではパブリックアクセスについて質問をされますが、インタビュー音声を公開してしまうと大変ですので初期設定のパブリックアクセスを受け付けない設定のままで進めました。
パブリックアクセスについては今回の趣旨と異なりますので割愛。


なお、S3にアップロードするファイル名は英字にしましょう。日本語名のままアップロードしてしまうと、文字起こしの段階でエラーが発生しますので、筆者と同じ轍を踏まないようにお気を付けください。

それでは、いざ文字起こしへ!Amazon Transcribeにアクセスし、右上にあるオレンジのボタンを押すと上の画像のCreate transcripton jobの画面に進みます。Nameの欄には今回の文字起こしのタイトルを入力(今回のケースはtranslationtest1としています)LanguageでJapaneseを選択。Input dataのinput file location on S3の項目には、先ほどS3でアップロードしたtranslationtest.m4aの概要ページ最下段のオブジェクトURLを入力します。Amazon TranscribeはAWSのサービスなので、S3にアップロードしたファイルしか使えない仕様になっています。以下は空欄で下に進み、オレンジ色のcreateをクリック!

画面が切り替わり先ほど入力したtransltationtest1が表示され、In progressという灰色の文字が右手に見えると思います。この文字が緑色でCompleteになれば出来上がりです。1時間くらいのインタビューは20分くらいで文字起こしが完成。早い……。早すぎる……。
お昼休みの休憩の合間やちょっとコンビニに出かけるくらいの時間で文字起こしが完成しているという夢のような早さです。ではさっそく画面上段のDownload full transcriptをクリックしダウンロードしましょう。データはjsonファイルで取り出しますがテキストエディタで問題なく開くことができます。
自動文字起こしが書いたテキストの精度は?
さて、開いたテキストは当たり前ですが日本語が並んでいます。それでも最初に見た時、筆者は「本当にできている!!」と感激しました。そのテキストですが、
わたし は ゲーム が すき です
のように単語や文節ごとに半角で区切られていて読みづらいので、テキストエディタで半角の区切りを一括置換で削除し文字をつなぎ合わせました。なお、句読点は文字起こしされないので、中身を見ながら追加していく必要があります。今回のインタビュー音声は日本人3人と日本語の流暢な外国人1人のもので、インタビュアーとインタビュイーが1対1で話しているところは一言一句そのままに文字になっており、その精度の高さには驚きました。
ただ、課題もいくつかありました。なにしろ一言一句正確に文字起こしをするので、会話中の「あー」「なんか」「みたいな」「とか」などの言葉も正確に文字起こし(いわゆる素起こし)されてしまいます。基本的にメディアで記事として掲載する際はそうした相づちなどは全て取り除く(ケバ取りする)ので、そうした手間が生まれてしまいます。
また、インタビューが盛り上がって複数人が話をしたり、2人の会話が重なったりすると意味の通じない部分が出てきてしまい書き直しが必要でした。今回のインタビューは4人を相手に行ったので、インタビューが盛り上がるともうまったく意味がわからない文字列の羅列になってしまいます。外国人の日本語も正確に文字起こしをしてくれていますが、英単語の発音は日本語設定だからなのか、違う単語になっていたことも少し気になりました。さらに、筆者のインタビュー中の相槌「ああそうですね」が無駄に文字起こしされていて、その数の多さに思わず苦笑してしまいました。
次に、一つ一つの単語の文字起こしの正確さに関して言うと、ゲームタイトルやイベントの名前など固有名詞は苦手で、だいたい変な単語になっていました。こうした問題は辞書を用意することでしか解決できないかもしれません。また、インタビュアーもインタビュイーも関西の人間だったのですが、関西弁が飛び交ったところはAmazon Transcribeも苦労したようで正確さを欠いた状態になってしまいました。また、単語の同音異義語が判別できないのもやむを得ないというところでしょうか。体感的には50%くらいの精度だと感じました。
自動文字起こしが書いたテキストの精度は?その2

次に筆者はCEDECのようなカンファレンスで登壇者だけが話をする講演であれば完璧な文字起こしが出来上がってくるのでは?と考え、今年9月のCEDECの講演音声ファイルを文字起こししてみました。こちらは、インタビューに比べて精度が上がっており、修正が不要な箇所が増えています。とはいえ、やはり専門用語やゲームタイトルは苦手ですし、講演者の口調が早くなったり、録音が聞き取りにくくなったりすると文字起こしの精度は落ちてしまうようです。体感的には70%くらいの精度ではないかと感じました。
とはいえ、一から文字起こしを自分でやるより、コンビニに行く時間で完成度50%~70%くらいの文字起こしが出来ている方が断然いいと思います。今年の9月から10月のようにCEDEC、東京ゲームショウ、Unite Tokyo、UNREAL FEST EASTが連続で続くと書く記事も膨大になるのでもっと早くこのサービスと出会っていれば……と感じました。
さて、ここまではライター視点での文字起こしでしたが、ゲームプレイヤーの視点で考えると、「Amazon Transcribe」はmp4ファイル(動画)も文字起こしをしてくれるので、日本語非対応のゲームをキャプチャして音声を文字起こししたり、英語のチュートリアル動画などを翻訳したりすることにもつかえそうですね。
気になる価格は?使用開始から12か月は無料枠も
最後に気になるお値段ですが、最初の文字起こしリクエストの作成から12か月間、1か月あたり60分の無料枠が付与されます。無料使用の有効期限が切れた場合、またはアプリケーションでの使用量が無料利用枠を超えた場合は、従量課金制での標準料金が発生します。詳しい料金体系はこちらをご覧ください。なお、いろいろな音声や動画を文字起こしに投入したためか、筆者には利用の翌日に0.9ドルの請求書が届きました……。
1か月あたり60分無料というのは心強くて、来年のカンファレンスでは活躍を期待しています。ライターの方はもちろん、学生なら講義を文字起こししたり、社会人でも議事録の書き起こしを半自動化したりすることもできそうなので、興味がわいた方は一度試しに使ってみてはいかがでしょうか。
※UPDATE(2019/12/5 15:50):本文中の誤字を修正しました。コメント欄でのご指摘ありがとうございました。