将来、人間はどのようにコンピュータとインターフェイスするのでしょうか?

コンピューターが登場してから半世紀以上が経ちますが、ほとんどの人がコンピューターと対話する方法はあまり変わっていません。私たちが使用するキーボードは、約 150 年前の技術であるタイプライターから進化したものです。ダグラス カール エンゲルベルトは 1968 年に、後にコンピューター マウスと呼ばれることになるデバイスをデモンストレーションしました。現在のコンピューターは 50 年前よりもはるかに強力になっているという事実を考えると、基本的なインターフェイスがあまり変わっていないのは驚くべきことです。

現在、キーボードとマウスのインターフェイス構成からの劇的な変化が見られ始めています。スマートフォンやタブレット コンピューターなどのタッチスクリーン デバイスは、10 年以上前から存在するこのテクノロジーを幅広いユーザーに導入しました。また、より小型のコンピューターも製造しているため、ユーザー インターフェイスに対する新しいアプローチが必要になります。スマートフォンにフルサイズのキーボードを接続することは望ましくありません。スマートフォンのエクスペリエンスが台無しになってしまいます。

タッチスクリーンは、コンピュータ ナビゲーションに新しい技術を導入しました。初期のタッチスクリーンは単一の接触点しか検出できませんでした。複数の指でディスプレイに触れようとしても、動きに追従できませんでした。しかし現在では、何十ものコンピューター デバイスにマルチタッチ スクリーンが搭載されています。エンジニアはこのテクノロジーを利用してジェスチャー ナビゲーションを開発しました。ユーザーは、あらかじめ決められたジェスチャーで特定のコマンドを実行できます。たとえば、Apple iPhone などのいくつかのタッチスクリーン デバイスでは、2 本の指を画面上に置き、指を離すことで写真を拡大できます。指をつまむと写真がズームアウトされます。

東京大学のクロノス プロジェクターの実験では、タッチ インターフェイスと、事前に記録されたビデオをナビゲートする新しい方法を組み合わせています。このシステムは、フレキシブル スクリーンの背後に取り付けられたプロジェクターとカメラで構成されます。プロジェクターはスクリーンに画像を表示し、カメラはスクリーンの張力の変化を検出します。ユーザーは画面を押すと、事前に録画されたビデオに影響を与えることができます。つまり、ビデオの一部の速度を上げたり、遅くしたりしながら、画像の残りの部分には影響を与えません。

クロノス プロジェクターを使用すると、新しい空間と時間の構成でイベントを表示できます。 2 人が並んで道路を競争しているビデオを想像してください。画面を押すと、一方が他方をリードしているように見えるように画像を操作できます。画面上で手を動かすと、2 人の人物が切り替わります。あるルールに従っているように見えたビデオは、別のルールに従っています 。

画面の操作は始まりにすぎません。次に、エンジニアが私たちが何も触れずにコンピューターと対話する方法をどのように開発しているかを見ていきます。

ハンズオフインターフェイス

東京ゲームショウ2010でのKinect

一部のエンジニアはタッチを通じてコン​​ピュータを操作する新しい方法に取り組んでいますが、他のエンジニアは音を通じてコン​​ピュータを制御する同様の方法を検討しています。音声認識技術は、1952 年にベル研究所が 1 人のユーザーが話した数字を認識できるシステムを構築して以来、大きく進歩しました 。現在、スマートフォンなどのデバイスは、さまざまな精度で音声メッセージをテキスト メッセージに書き写すことができます。また、ユーザーが音声コマンドを通じてデバイスを制御できるアプリケーションはすでに存在します。

このテクノロジーはまだ初期段階にあります。私たちはコンピューターに音を認識させ、さまざまな単語やコマンドを区別できるように教える方法を学んでいます。しかし、これらのアプリケーションのほとんどは、かなり狭い音の範囲内で動作します。コマンドを正しく発音しないと、コンピュータが無視したり、間違ったコマンドを実行したりする可能性があります。これは解決するのが簡単な問題ではありません。さまざまな音を解釈し、あらゆる可能性の中から最良の結果を選択するようにコンピューターに教えるのは複雑です。

他のエンジニアは、まったく異なるハンズフリー インターフェイスに取り組んでいます。 Oblong Industries は、g-speak インターフェイスを作成しました。映画「マイノリティ・リポート」を見たことがある人なら、G の話に見覚えがあるはずです。映画の中で、登場人物の中には、マシンにまったく触れずにコンピューター画面上の画像を制御する人もいます。 G-speak システムは、センサーとカメラの集合を使用してこれを実現し、ユーザーの動きを解釈し、コンピューターのコマンドに変換します。ユーザーは、反射ビーズが付いた特別な手袋を着用します。カメラはビーズの動きを追跡し、ユーザーの動きを解釈します。

ユーザーは画面または壁の前に立っています。プロジェクターには画像が表示され、ユーザーは 3 次元空間で手を動かすことで画像を操作できます。コマンドをコンピュータ言語に翻訳したり、ディスプレイに垂直な平面上でマウスを使用したりする必要はありません。手を動かしてデータを操作するだけです 。

コンピュータ システムとのやり取りが受動的になることさえあります。無線周波数識別 ( RFID ) タグを使用すると、コンピュータ システムに近づくだけでコンピュータ システムと対話できます。このテクノロジーには、環境内を歩くユーザーを追跡して、各部屋でお気に入りの種類の音楽を再生したり、事前に選択した好みに合わせて空調システムを調整したりするなど、無害で楽しい用途があります。あるいは、環境内を移動する人々を追跡する監視目的に使用することもできます。

夕食の準備にも役立ちます。それぞれに RFID タグが付いている食材のコレクションを家に持ち帰ることを想像してみてください。あなたの家の統合されたコンピュータシステムはあなたが何を持ってきたかを検出し、あなたがラザニアを作りたいと判断します。即座にあなたの家はレシピを作成し、オーブンを予熱するかどうかを尋ねます。このシナリオは未来のユートピアだと思いますか、それとも店舗があなたが購入したすべての製品を追跡し、顧客ごとに書類を作成するというオーウェルの悪夢だと思いますか?

あるいは、RFID チップがまったく必要ない場合もあります。 Microsoft の Xbox 360 用 Kinect 周辺機器は、カメラを使用してエンターテイメント センターの前の環境をマッピングします。ユーザーがカメラの前に立つと、システムはユーザーのフレームと顔をマッピングし、ユーザーがプロフィールを作成できるようにします。その後、その人物がフレーム内に入るたびに、システムはそれが誰であるかを認識します。プロファイルにはユーザーの好みとスキル レベルを保存できるため、ゲームに飛び込み、開始 5 秒でキャラクターが惨殺されることを心配する必要はありません。

Kinect の初期の用途はゲーム、ソーシャル ネットワーキング、テレビ上のメディアの制御を中心に展開されていますが、将来的には他のコンピュータ システムと統合される可能性があります。コンピューターの前に座って、自動的に好みの設定に切り替わるのを眺めているところを想像してみてください。お気に入りのブックマークが読み込まれ、最も頻繁に使用するアプリケーションがすぐ近くにあります。それからあなたが立ち上がると、友人が座ります。コンピュータは友人の好みに切り替わり、まったく異なる体験を友人に提供します。

ユーザー インターフェイスに関しては、もう 1 つの方向性があります。つまり、脳に直接アクセスすることです。

私は考える、だから私は計算する

2010 CeBIT テクノロジー フェアでのブレイン インターフェイス

あなたの脳は電気を帯びています。脳内の神経細胞 (ニューロンと呼ばれます) は、小さな電気信号を通じて通信します。これらの小さな電荷は、神経系全体の樹状突起と軸索を通過します。意識的か否かに関わらず、あなたが行うあらゆる行動は、これらの神経細胞が正しい経路を通じて特定の一連の電荷を送信することに依存します。

これらの信号をマッピングする方法が見つかれば、信号を検出、解釈、変換するデバイスを作成して、外部デバイスの制御に使用できるようになります。私たちはこれをブレイン・コンピューター・インターフェースと呼んでいます。理想的には、ユーザーとコンピューターの間には何もなく、思考がシームレスにコマンドになるでしょう。

実際には、それよりもはるかに複雑です。問題の 1 つは脳活動の検出です。多くのシステムは脳波計 (EEG) を使用して、鼻の内部で何が起こっているかを垣間見ることができます。 EEG には一連の電極があり、頭皮の特定のポイントに取り付ける必要があります。動作範囲が制限され、コンピューターに拘束されます。また、脳波検査では最良の信号が得られるわけではありません。そのためには、脳に直接電極を埋め込む必要があります。これはいくつかの倫理的な問題を引き起こし、研究技術者がブレイン・コンピューター・インターフェースに関して行うことができる範囲に制限を課します。

それに加えて、私たちの脳は複雑なので、気が散りやすいのです。私たちの脳内で生成されるノイズから明確なコマンドを分離するのは簡単ではありません。コンピューターが実際のコマンドとバックグラウンドノイズを区別できるようにインターフェイスを微調整するには何時間もかかります。

信号を解釈してコマンドに変換するためのコンピューターのプログラミングも複雑です。これまでのところ、エンジニアは単純なコマンドに応答できるインターフェイスの作成に成功しています。サウサンプトン大学の科学者によって開発された、人々が思考を通じてコミュニケーションできるシステムさえあります。被験者の一人は、「ゼロ」などの所定の単語を表すために左腕を上げるなどの動作を考える。 EEG は被験者の脳からの信号をコンピューターに送信します。コンピューターは信号を解釈してメッセージとしてエンコードし、ランプに送信します。ランプが高速で点滅します。 2 人目の被験者はシーケンスを観察し、EEG で脳波を測定します。 2 番目のコンピューターはこの情報を解釈し、「ゼロ」を意味するものと解読します。

このシステムの大きな欠点は、2 番目の被験者がメッセージを受信して​​も、それを理解できないことです。メッセージを理解するには、2 台目のコンピューターの助けが必要です。しかし、この実験はさらなる開発につながり、コンピュータを制御したり、考えるだけでコミュニケーションをとることさえできるようになるかもしれない。

私たちが肉体的にも精神的にも仕事をすることになるのか、それともコンピューターが私たちを観察するだけで私たちが何を望んでいるのかを理解するのかにかかわらず、基本的なコンピューター インターフェイスが進化していることは明らかです。一世代か二世代以内に、キーボードとマウスの組み合わせが博物館に展示されるようになるでしょうか?

コンピュータ インターフェイスの詳細については、次のページのリンクを参照してください。