Skip to main content

音声認識とは何ですか?

「諸見里大介が、音声認識ソフトで恩人に手紙を書いてみた。」 (六月 2026)

「諸見里大介が、音声認識ソフトで恩人に手紙を書いてみた。」 (六月 2026)
Anonim

音声認識は、システムに音声入力が可能な技術です。あなたはあなたのコンピュータ、電話、またはデバイスと話し、入力としてあなたが言ったことを使用して何らかのアクションを引き起こします。この技術は、入力、クリック、または他の方法での選択といった他の入力方法を置き換えるために使用されています。これは、デバイスやソフトウェアをより使いやすくし、生産性を向上させる手段です。

軍隊、身体障害者(手足や指の不自由な人を想像する人)の援助、医療分野、ロボット工学などの分野で、多くのアプリケーションや分野で音声認識が使用されています。近い将来、ほぼすべての人が、コンピュータや携帯電話などの一般的なデバイス間で伝播するため、音声認識に晒されています。

特定のスマートフォンは音声認識の面白い使い方をしています。 iPhoneとAndroidのデバイスがその例です。それらを通じ、「コール・オフィス」のような口頭で指示を受けるだけで、連絡先に電話をかけることができます。 「Bluetoothでスイッチする」のような他のコマンドも楽しむことができる。

音声認識に関する問題

Speech to Text(STT)と呼ばれるバージョンの音声認識も、話された単語をテキストに翻訳するために長い間使われてきました。 ViaVoiceがその箱の上で言うように、 "話す、それはタイプする"。しかし、私たちが知っているようにSTTには1つの問題があります。 ViaVoiceは業界最高のものの1つで、残りは想像してみてください。技術は成熟し、改善されましたが、テキストへのスピーチは依然として人々に質問します。その主な困難の1つは、言葉の発音において人々の間に莫大な変化があることです。

音声認識ではすべての言語が想定されているわけではなく、英語以外の言語もサポートされていないことがよくあります。その結果、音声認識ソフトウェアを実行するほとんどのデバイスは、合理的に英語でしか動作しません。

ハードウェア要件のセットは、特定のケースでは音声認識を展開するのを困難にします。背景雑音をフィルタリングするのに十分インテリジェントなマイクが必要ですが、同時に音声を自然に捕捉するのに十分強力です。

バックグラウンドノイズと言えば、システム全体が故障する可能性があります。結果として、音声認識は、多くの場合、ユーザの制御から外れたノイズのために失敗する。

音声認識は、大量テキスト入力用の生産性ツールとして、VoIPのような新しい電話機や通信技術のための入力方法として、より良いことが証明されています。

音声認識の応用

この技術は多くの分野で人気を博しており、次の点で成功しています。

  • デバイス制御。 Androidの携帯電話に「OK Google」と言うだけで、あなたの音声コマンドのすべての耳に聞こえるシステムが起動します。
  • 車のBluetoothシステム。多くの車には、Bluetoothを介して無線機をスマートフォンに接続するシステムが装備されています。スマートフォンに触れることなく電話をかけたり受信したりできます。電話だけで電話をかけることもできます。
  • 音声の転写。人々が多くの情報を入力しなければならない分野では、いくつかのインテリジェントソフトウェアが話し言葉をキャプチャし、テキストに転記します。これは特定のワープロソフトウェアでは最新のものです。音声による表記は、視覚的なボイスメールでも機能します。