最先端AI文字起こしツールを徹底比較！

概要

文字起こしという技術は、業務を抜本的に変革する可能性があります。
議事録作成という業務は一切なくなり、取材記事を書くのは録音してAIに指示するだけで終了し、商談中に話すべきことをAIがレコメンドしてくれる。そんな未来が考えられます。
今回は、文字起こしツールの比較検証を行いましたので、その結果をご共有させていただきます。これを参考に、文字起こしツールを選択してもらえたらと思います！

1.検証経緯/当社での活用想定

当社では、下記のようなシーンで文字起こし機能を利用する想定で検証を開始しました。

議事録作成
議事録作成が効率的になるだけでなく、どうしても発生してしまう聞き漏れ/書き漏れをなくすこともできます。また、メモを取ることに脳のリソースを割かずに済むため、会議がより充実することが予想されます。
商談
商談では、同様にログを残すことで、商談スキルの共有、FBの量・質の向上が期待されます。
採用面接のFB作成
当社では、部門も役職も様々な人間が面接官となり、人事にFBを送っています。
FBの書き方について、事前に指導をいただけるものの、仕事の合間に行うこともあり、どうしても質にバラつきが生まれています。
文字起こしをしたうえで、面接FB用のプロンプトを打ち込むことで、FBの均質化が図れるのではないかと推測しています。
取材記事作成
本ブログでは、いくつか取材記事を投稿しています。その作成の際にも、文字起こししたものに、取材記事作成用のプロンプトを打ち込むことで、記事が完成するようなイメージをしています。

2.比較対象ツール紹介

Azure AI Speech
Azureのサービスの一つで、比較対象のうち唯一開発（ノーコードでも可能）が必要です。当部のエンジニアがBuddy上で利用できるようにしてくれました。
YOMEL
議事録作成のクラウドアプリで、自社開発の音声解析エンジンOlarisを用いている。
Texta
Webアプリで、何も使わないとリモートで会議をしている相手方の声は文字起こしできません。イヤホンをせずに音を出すことで可能になります。また、話者識別機能はありません。
（本検証での利用モデル：Google Speech to Text）
Plaudnote　
薄型のレコーダーで録音を行い、専用アプリで要約等を行うことができるツール。
（本検証での利用モデル：OpenAI Whisper）

3.比較検証方法

ツールだけでなく、利用環境によっても精度が変動すると仮説だて、

会議の人数
対面/リモート
録音機器
（本検証での利用機器：PCマイク/安価なイヤホン/Anker PowerConf）

という条件を変動させ、全てのパターンで会議を実施し、文字起こしの精度（何割程度正しく文字起こしなされるか）と、
話者識別精度（何割程度正しく話者識別なされるか）の検証を行いました。

4.検証結果

対話形式と、使用ツールに応じて、下記のような精度になりました。（表 1 ）Plaudnoteは断トツで精度がよく、ついでYOMEL、Azure、textaと続きます。また、リモート会議の方が精度が良い傾向にあります。

PCマイク、Anker PowerConf、Plaudnoteという録音機器による精度の変化は感じませんでしたが、安価なイヤホンを用いると、音漏れから相手からの発言が、自分の発言としても認識され、二重に文字起こしされることがありました。

上記の表だけ見ると、薄型レコーダーが精度に貢献している可能性も高いですが、
Plaudnoteで録音した音声を、YOMELに読み込ませて文字起こしした結果、他の録音機器を用いた場合と同程度の精度でした。
その結果から、改めて録音機器がほとんど精度に影響を与えないことが分かります。

5.結果からPlaudnoteを用いた文字起こし結果の紹介

例として、 1 : 1 の対面 MTG を文字起こしした結果を添付いたします。

ここからは文字起こしの結果を引用します。

Speaker 1
今日はAIとアタラクラブを今後どういうふうにしていきたいかということについて話していきたいなと思います。何かありますか、本田さん。
Speaker 2
そうですね、今まで書いた記事がやっぱり各々で書き方とか体制の部分がちょっと違うなというところがあったり、サムネ感とかもちょっとバラバラなところがあるので、ライターは違うけどある程度を体裁で整えたり、サムネの質であったり、パッと見たときに面白そうというふうに思わせられるようなデザインというかを今後取り入れられると、よりインプレッション数が増えるのかなというふうには思っているので、そこの施策をどうしていくか考えられています。
Speaker 1
私としては内容の部分をもっと濃くしていくというかやっぱり，私たちの記事を見て自分たちも同じような業務改善ができるそれ見ただけでもこうしたらできるのねって思えるレベルの具体性，と真似しやすさを持たせたいなともちろん真似したいと思えるような価値こういう価値効果がありましたよということも示していき。
たいなということが一つとツール検証の話もあってなんかもう自分ちょっと気になっているツールがあったときに調べてタトラックラボがヒットしてその例えばピカとかピカに興味がある調べる，ときが引っかかって記事を見たらああもうこういうツールなんだ，こういうことができるんだもう別に，別に俺試さなくていいやって、見てる人が思えるレベルの、それも具体的な結果と、使いやすさと、でも隅から隅まで機能だったりが説明されてるみたいな、そういう本当に読んでくれる人にとって価値のある記事にできたらいいなというふうに思います。
Speaker 2
より詳細な部分とか、もう少し具体的に記載できると、読み手ももう少しわかりやすくなるんですかね、興味を持つというか。
Speaker 1
と思ってます。真似しやすさも上がるし、参考にできるし、っていうことかなぁと思ってます。じゃあ今後はデザインの部分と内容の部分、両方頑張っていきましょう

6.精度以外の差

リアルタイム性
Azure AI Speech、Texta(Google Speech to Text)、YOMELはリアルタイムに文字起こしが可能。Whisperはリアルタイムに文字起こしはできません。（小分けにして音声ファイルをアップロードしていくことで疑似的には可能と言えます）
専門用語登録機能
文字起こしを行うAIは、社内専用の用語や専門用語は、正しく認識できないことが多いです。例えば、”ゆうせん”と話すと、当社としては”USEN”と文字起こししてほしいのですが、”有線”と文字起こしされます。
そういった言葉も正しく文字起こしさせるために、YOMELとAzureでは、単語登録を行うことができます。（ゆうせん、USENをセットで登録します）これを行うことで、より高精度な文字起こしを行うことが可能です。
情報セキュリティ
Textaでは、音声データを学習させる仕組みにしています。しかし、Google Speech to Text自体は、社外に音声データを出さずに利用することが可能です。OpenAI Whisperでは、学習されないようにすることはできますが、30日間OpenAI社に保管されます。Azure AI Speechは、社外に音声データを出さない仕組みにすることができ、YOMELはNDAを締結したうえで利用しています。

7.料金体系

Plaudnote
録音機器が27,500円、毎月300分の要約がついてきます。12,000円/年を追加で支払うと、毎月1,200分要約が可能になります

YOMEL

Azure AI Speech
アップロードしたファイルを、即座に文字起こしする場合は1時間あたり1$ですが、バッチ処理（文字起こしが最大30分以上後に行われる）で行う場合は1時間あたり0.18$です。

Texta　
利用量に関わらず、30名につき、30,000円/月
ファイルをアップロードしての文字起こしには時間制限がありますが、MTG中、リアルタイムに行う文字起こしは、無制限に行うことができます。利用ユーザー数には制限があるので、小人数が何時間もリアルタイムの文字起こしを行う場合には効果的です。

リモート会議での使用可否
Textaでは、リモート会議では使用できませんでした。音声ミキサーのようなもので、相手方の音声と自分側の音声を組み合わせて一つの音声とする仕組みが必要と考えられます。
話者識別可否
Textaでは、話者識別ができませんでした。

8.比較結果まとめ

9.各用途での使用ツール

冒頭当社では、下記4シーンへの活用を検討していると話しました。

議事録作成
商談ログ作成
採用面接のFB作成
取材記事作成

検証を踏まえて、現段階での結論として、Azure AI Speechを利用したいと考えています。

価格が安いことと、セキュリティレベルが高いことが主な要因で、弱みである利用ハードルについては、当部のエンジニアが突破してくれます。誰もが使えるツールとして社内展開していきます。精度に関しては、高ければ高いほど嬉しいのですが、要点を抽出するためには十分であり、費用対効果で考えるとこれが最適と判断しました。また、録音した結果を聞きながら文字起こし結果を修正することができる設計にすることで、余りにも異なる内容である場合には容易に修正することを可能にしています。

10.おわりに

いかがだったでしょうか？

当社では、四つのツールを比較検討した結果、現段階ではAzure AI Speechを利用していく判断をしました。
今回明らかになった強み、弱みをもとに、みなさんも自社のニーズに合ったツールを活用いただけたらと思います。
また、社員のニーズや技術の進歩によって、当社の選択も変化し続けると考えています。
当社の今後の動きにも、ご注目ください！

執筆、編集作業と所要時間

所要時間: 121分
・人間: 120分
・AI: 1分

内訳
・記事執筆（by 人間）: 120分
・誤字脱字の確認（by AI）: 1分

人間のみで記事作成した場合に想定される所要時間: 130分
AIによる所要時間削減率: 7%

#AIとはたらく#AIとハタラク#AIと働く

大谷悠介（編集長）

AIとハタラクラボ by USEN WORK WELLのエディター、大谷（人間）です。

AIとハタラクラボ by USEN WORK WELLは、株式会社USEN WORK WELLのAI Labが運営するオウンドメディアです。AIとハタラクラボは、グループ各社を対象としたAIを用いた業務改革支援にとどまらず、その先にある「AIとハタラク」のが当たり前の時代の、必要とされる次を創ります。あなたと、世の中全ての人たちのあるべき未来に近づけるために。