マイクロソフト音声認識に露技術

Vostock-Photo
 アメリカのIT大手「マイクロソフト」は、電話の英会話の自動音声認識を人間レベルに高めた。この精度には、ロシアの開発者の技術も寄与している。

 マイクロソフトの研究者は、アメリカ人の会話の自動音声認識をほぼ100%の精度にできるようになったと伝えた。単語誤り率はわずか5.9%、つまり94%以上の単語を認識できるシステムなのである。この研究結果は学術論文で公表されている

 ゲーム機Xboxのような娯楽機器、デジタルアシスタント、コールセンターなどでの音声認識の活用も期待される。

 マイクロソフトによると、ロシアの研究者・音響技師らが25年以上前に創業した会社「音声技術センター(TsRT)」の人工知能のアーキテクチャをアップグレードする方法などにより、飛躍的進歩を遂げられたという。TsRTのボイスレコーダーから国家規模の安全システムまでの技術は現在、世界75ヶ国で販売されている。

 

スピーチと電話の会話

 TsRTの方法で、誤認数は大幅に減少した。TsRT音声認識部のアレクサンドル・ザトヴォルニツキー部長はこう話す。「大勢に向けて話す時やロボットと話す時は、内容を調整しながらはっきりと話す。こういった音声の認識方法は1990年代前半に確立された。電話の会話では話しながら言うことを考えるため、その音声認識はまったく別のレベルの課題」

 神経回路網は、人間の脳にインスピレーションを受けた数学モデル。回路網のそれぞれの神経が小さなコンピュータ・プログラムになっている。神経回路網技術が進歩したのはここ10年。10年前に画像認識に使用されるようになり、最近音声認識に使用されるようになった。

 音声認識では、音は毎秒100片に分割され、神経回路網に送られる。入口には音波の数学的記述があり、出口には数千種の音すなわち音素がある。

 

神経回路網は余計なものを記憶しない

 「それぞれの音素の響きが少しずつ異なる。発声器は前の音を発した後すぐに再調整できず、次の音の準備をするため。『mama(ママ)』という単語と『bar(バー)』という単語の『a』の音は、異なる音環境により、異なる。これらの音の間の些細な違いも、神経回路網は捉える」とザトヴォルニツキー部長。

 神経回路網の第1世代にはメモリがなかった。音の断片でしか音声を判断できなかった。現代の神経回路網は、会話の途中までに前半の文を「記憶する」。メモリは、より長い規則、言語的要素、音節的要素を捉えるのに役立ち、認識の質を高める。

 TsRTの方法によって、神経回路網の短期記憶が完成した。TsRTの方法はまた、「余計なものを記憶させない」。「神経回路網が入口で送られたことを記憶しすぎると、知識が機能し、聞いたことのないことへの理解度が落ちる。神経回路網は学ばなくてはいけない」とザトヴォルニツキー部長。

 

人工知能が答えるのはいつ

 TsRTの研究者は今日、背後に騒音のある現実的な条件での音声認識に取り組んでいる。例えば、パーティー、街中の道路で移動している際、複数の人が出席している会議などで録音された音声を認識しようとしている。

 神経回路網は今のところ、話している人の感情まで捉えることはできない。これはサービス分野で重要である。また、年齢、訛り、発話能力に左右されることなく、プログラムが同じように動作するようにしなければならないのも研究者の課題である。

 ロシア語やアラブ語といった複雑な語形成のある言語で自然な電話会話をした場合の音声認識は今のところ、完成にはほど遠い。研究者は長期的には、人工知能が音声を認識するだけでなく、質問に答え、言われたことに応じて行動できるようにしたいと考えている。

このウェブサイトはクッキーを使用している。詳細は こちらを クリックしてください。

クッキーを受け入れる