技術は私たちの力。技術は私たちの楽しみ。 Creative Developer BLOG 技術部ブログ
Technology is our strength. Technology is what we enjoy.

音声入力はホントに使えるのか?

2018-08-31 勉強会

キーボードを使わずにPCは触れるのかを 検証してみました。

弊社のスタッフが突如、ヘルニアで入院してしまいました。
歩くことも起きることもできない寝たきりの状態でした。
もちろんノートパソコンを開くこともできない。
なんて不自由なんだろうか!
一体、トイレはどうするんだ・・・と想像してしまいました・・・
それはさておき、ふと思ったことがあります。
キーボードを使わずにPCを操作することができるのだろうか?
最近は、siriとかで音声検索や音声操作してくれるから
大丈夫じゃないだろうか!?など・・

と思ったことが、きっかけで、実際にキーボードを使わずにPCは触れるのかを
検証してみました。

Windows10 Cortana

Cortanaさん

まずは、windows10 標準装備 コルタナ(Cortana)を使用して検証からはじめることとしました。
(PCの電源は、どうしても手動になってしまいます。これは、止む無し。)

Cortanaの設定について

デスクトップ画面左下の◎部分をクリックするとCortana の画面の左側にある「歯車」アイコンが
表示し、さらにクリックすると設定画面が開きます。

Cortana に話しかける設定

マイクをチェックするをクリックし許可します。
これが最低限、必要な設定です。
あとは、割愛します。

Cortanaの感想

正直な感想。会話を重ねることは難しい。
が、Microsoftのアプリやブラウザを立ち上げることまではできる。
ただ、Excelなどのアプリを操作することはできない。
アカウントを持てばできるかも。
もちろん、文字入力はしてくれない。
IE以外のブラウザは立ち上げてくれない。ことがわかりました。

googleドキュメント

googleドキュメント


レポートやメールなどの長文を入力にするには、Cortanaではつらい。
そこで、ネットで音声で「テキスト入力」を支援するツールを調べて
みることとしました。
windows10の機能や市販のアプリなどと結構あることがわかりました。
中でも手軽に簡単に設定できる「googleドキュメント」にたどりつきました。
これを検証しようと思います。

googleドキュメント設定方法

ツール>音声入力をクリックると
マイクアイコンが表示します。
マイクアイコンを表示すれば入力開始です。
デモです。

googleドキュメントの感想

試しに経営理念を唱和してみると、入力できている。凄い!
これは、優秀です。私の活舌がいいのか?あまり誤字がない。
入力のスピードもストレスなくスムーズ。
数字もいける。
これは、いいね。

ただ、句読点は苦手みたいですね。
わりと使えるが、編集は必要。

WEBブラウザ上で音声入力はできるのか?

もしブラウザで音声入力が使えれば、WEBフォームなどの煩わしい入力がいらなくなるのでは??

「x-webkit-speech」属性はいずこへ

そういえば、HTML5の音声入力サポート属性があったような・・
アァ~「x-webkit-speech」属性だ。

Chromeしか使えないが、これですべて解決するはず・・・・
はず・・・・でした。
ところが、サンプルを作ってサーバへアップしてみましたが
マイクのアイコンが表示されない。・・
なぜ、設定? セキュリティ? わからない。。
googleの気まぐれか・・・途方にくれました。
どうやら、4年前に使えなくなってしまったようです。
残念です。

Web Speech API

Web Speech APIと出会いました。

やむを得ず、別の方法を探すこととしました。
ネットで調べているといろいろとAPIがでているではないですか!
でも、「x-webkit-speech」ような魔法の呪文ではありません。

今回は、W3C標準ではないですが、W3Cコミュニティグループが提供している
「Web Speech API」を試すこととしました。
このAPIは、
Speech recognition 音声を聞き取る機能と
Speech synthesis テキストを読み上げる機能があります。
今回は、音声をテキストとして取得することを試してみました。

SpeechRecognition() - Web API インターフェイス

var myRecognition = new SpeechRecognition();
この構文で、マイクを通じた音声を自動的に認識するそうです。

「Web Speech API」デモ

どうなんだろう。
SSLサーバで且つ一部のブラウザ(Chrome)じゃないと動かないようです。

デモサンプルを作ってみました

https://www.1page-plan.net/test_yama/index22.html

「Web Speech API」の感想

もしCMSに実装できたら、入力支援ツールとして便利になるのかなと
感じました。
またsublineの伝言メッセージをテキスト化し、メールやSNSへ
送ることができたら、ちょっとした注文や予約につながるのではと感じました。

おまけ:「Hands Free for Chrome」

https://nelog.jp/hands-free-for-chrome
ブラウザ操作

総括

今回試してみて、音声操作は、部分的には結構使えることがわかりました。
PC、アプリ操作、テキスト入力すべてを音声だけ指示するのは
まだまだ難しいこともわかりました。

個人的には、正直、声を出して業務を行っていると恥ずかしいし、
他人に迷惑をかけてしまうのが難点と感じました。

そもそもIT系会社には、タイピングが得意な人達ばかりなので
(私以外は)不要の産物かとも。。。思いました。

あとは個人差ありますが、活舌や発音が大事! 特に英語は、ね。


早速、このネタを持って、スタッフのお見舞いに行きたいと思います。


ご清聴ありがとうございました。
記事一覧へ