gpstandard’s blog

最新のITや技術を始め、プログラミング、google、マイクロソフト、アマゾン・・・・色々おいかけてます

気になるのは文字起こしの精度か、議事録などの音声データをテキスト化するサービス「Minutes Mayke」

この手のサービスのポイントは精度ですよね。

dime.jp

Minutes Maykerは、顧客ごとに専用のクラウド環境を用意することでセキュリティを確保しながら、独自の音声データ前処理技術と最新のディープラーニングを活用したGoogle音声認識エンジンの組み合わせにより、高い音声認識精度を実現。これにより、議事録(Minutes)作成にかかる労力を軽減し、時間(Minutes)の創出と労働生産性の向上につながるのだ。

この分野に関しては色々なメーカーが力を入れています。

 

まだ正式版が発表されてないですが、

福岡のグルーブノーツが似たようなサービスを開発中です。

www.businessinsider.jp

機械学習を用いたデータ分析ツールを提供するグルーヴノーツ(福岡市)は、動画・音声ファイルをアップロードすると、自動で音声情報をテキスト化するベータ(試作)版をリリースした。総務省がテレビ番組の字幕放送を推進していることに加え、議事録やインタビュー音声のテープ起こしニーズに対応するため開発した。今後、改良を経て正式版を公開する。 

 

マイクロソフトのVideo Indexer

pc.watch.impress.co.jp

Video Indexerは、「動画の中身を認識し、インデックス化するサービス」である。動画に含まれる画像と音声をそれぞれ認識し、音声はテキストへと変換した上で、画像については人物の識別を行なう。テキストは話したときの時間情報と紐付いており、映像の「インデックス」として機能する。

議事録おこしよりもさらに複雑ですが、これだけできるなら、音声の文字起こしだけをサービス化してくれていいのでは?と思ってしまいます。

 

また、クラウドを利用せずにアプリ上だけで音声の変換を行う物も多数出ています。

gadgerepo.com

 

どれも気になるのは、その精度ですが、それ以外にも

- 集音マイクなどを利用しない場合は精度が下がる。

- 何人までの音声を会話として分析可能か?つまり被せた会話に対しての分析

- 100%認識は不可能の為、修正がどの程度しやすいか?

という所もポイントになりますね。

 

 

個人経験としては2時間の会議を起こすのに、やはり聞きながらだと2時間かかるので、音声データと文字データがシンクロしていて、明らかに文字がおかしい箇所を瞬時に再生できるという形であれば、及第点と思っています。

 

そういう意味では

f:id:gpstandard:20180327215056p:plain

 

そのような雰囲気っぽい解説もあるので、期待できるのではないでしょうか?