Google Deep Dream の仕組み

私たちの地球上の何百万台ものコンピューターはスリープする必要がありません。しかし、それでも彼らは夢を見ることを止められません。私たち人間が働いたり、遊んだり、休んだりしている間、私たちのマシンは古いデータを絶えず再解釈し、さらには Google Deep Dream のおかげで、あらゆる種類の新しい奇妙な素材を吐き出しています。

Deep Dream は、デジタル画像内のパターンを特定して変更するコンピューター プログラムです。その後、人間の目に見えるように根本的に調整された画像が提供されます。結果は、入力データと Google 従業員のガイダンスによって設定された特定のパラメータに応じて、ばかばかしいものから芸術的なもの、悪夢のようなものまで変化します。

Deep Dream が何であるかを理解するための最良の方法の 1 つは、自分で試してみることです。 Google は、Deep Dream がどのようにして特定の種類の画像を分類し、インデックスを付けているのかをよりよく理解するために、夢見るコンピューターを公開しました。 Google のプログラムを好きにすれば、数秒後にはあなたの写真に基づいた素晴らしいレンダリングが表示されます。

その結果、通常、サルバドール・ダリがヒエロニムス・ボッシュやヴィンセント・ファン・ゴッホと一晩中ワイルドな絵画パーティーを行ったかのような、奇妙なハイブリッドデジタル画像が生成されます。葉、岩、山が、カラフルな渦巻き、繰り返される長方形、そして優雅にハイライトされた線に変化します。

以前は何もない風景があった場所に、Deep Dream は塔、車、橋、人体の一部を作成します。そして、ディープ・ドリームは動物たちを見ます…たくさんの動物たち。トム・クルーズのポートレートをアップロードすると、Googleのプログラムはしわやスペースを犬の頭、魚、その他のおなじみの生き物として再加工します。これらは普通の見た目の動物ではなく、LSD 風味の万華鏡が掛け合わさったような幻想的なレクリエーションです。それらは不気味な刺激を与え、多くの場合、少なからず恐ろしいものです。

明らかに、Google は毎晩レイブを開催したり、コンピューターに幻覚物質を与えたりしているわけではありません。どういうわけか、同社はこれらのサーバーを誘導して画像を分析し、それを私たちの世界の新しい表現として吐き出させているのです。

すべてがどのように機能するかは、私たちがデジタル デバイスを構築する方法と、それらのマシンがテクノロジーに取り憑かれた世界に存在する想像を絶する量のデータを消化する方法の性質を物語っています。

ビット内のニューロン

Google Deep Dream の仕組み

コンピュータは無機質な製品なので、人間と同じような夢を見ることはなさそうです。しかし、ディープ ドリームは、コンピューター プログラムが人間世界のデータと組み合わせるとどれほど複雑になるかを示す、孤立した例の 1 つです。

Googleのソフトウェア開発者はもともと、2010 年に始まった年次コンテストである のためにディープ ドリームを考案し構築しました。毎年、数十の組織が数百万の画像を自動的に検出して分類する最も効果的な方法を見つけるために競い合っています。各イベントの後、プログラマーは自分の手法を再評価し、技術の向上に努めます。

画像認識は、インターネット ツールのほとんどに欠けている重要なコンポーネントです。当社の検索エンジンは主に、画像ではなく入力されたキーワードやフレーズを理解することを目的としています。これが、画像コレクションに「猫」、「家」、「トミー」などのキーワードをタグ付けする必要がある理由の 1 つです。コンピューターは、信頼できる精度で画像の内容を識別するのに苦労しています。視覚データは乱雑で乱雑で見慣れないため、コンピューターが理解するのが難しくなります。

Deep Dream のようなプロジェクトのおかげで、私たちのマシンは周囲の視覚的な世界をより良く認識できるようになりました。 Deep Dream を機能させるために、Google のプログラマーは、独自に学習できるコンピューター システムの一種である人工ニューラル ネットワーク(ANN) を作成しました。これらのニューラル ネットワークは人間の脳の機能をモデルにして作られており、脳は 1,000 億個以上のニューロン (神経細胞) を使用して、すべての身体プロセスを可能にする神経インパルスを伝達します。

ニューラル ネットワークでは、人工ニューロンが生物学的ニューロンの代わりとなり、システムが何らかの結果に到達するまで、さまざまな方法でデータを何度もフィルタリングします。 Deep Dream の場合、通常 10 ~ 30 層の人工ニューロンがあり、最終的な結果は画像になります。

Deep Dream はどのようにあなたの写真を再考し、見慣れた風景から、今後何年も悪夢に悩まされる可能性のあるコンピューター アート レンダリングに変換しますか?

コンピューターの頭脳とバイク

Google Deep Dream の仕組み

ニューラル ネットワークは、自動的にデータの識別を開始しません。実際には、少しのトレーニングが必要です。つまり、参照ポイントとして使用するデータ セットを供給する必要があります。そうしないと、データを何も理解することができず、ただやみくもにデータを選別することになるでしょう。

Google の公式ブログによると、トレーニング プロセスは反復と分析に基づいています。たとえば、自転車を識別できるように ANN をトレーニングしたい場合は、何百万台もの自転車を表示することになります。さらに、2 つの車輪、シート、ハンドルバーを備えた自転車がどのようなものであるかを、もちろんコンピューター コードで明確に指定します。

その後、研究者はネットワークを緩めて、どのような結果が得られるかを確認します。エラーが発生する可能性があります。たとえば、プログラムはオートバイや原付バイクを含む一連の画像を返す可能性があります。そのような場合、プログラマーはコードを微調整して、自転車にはエンジンや排気システムが含まれていないことをコンピューターに明確にすることができます。その後、プログラムを何度も実行し、満足のいく結果が返されるまでソフトウェアを微調整します。

Deep Dream チームは、ネットワークが特定のオブジェクトを識別できるようになると、それらのオブジェクトを独自に再作成できることに気づきました。したがって、自転車を一目で認識できるネットワークは、追加の入力なしで自転車の画像を再現できます。その考えは、ネットワークが画像を分類および分類する機能のおかげで、創造的な新しい画像を生成しているということです。

興味深いことに、何百万枚もの自転車の写真を選別した後でも、コンピューターは依然として独自の自転車の写真を生成する際に重大な間違いを犯します。ハンドルバーに人間の手の一部が置かれたり、ペダルに足が置かれたりする場合があります。これは、テスト画像の多くに人物も含まれており、最終的にコンピューターが自転車の部分がどこで終わり、人物の部分が始まるのかを識別できなくなるために発生します。

この種の間違いはさまざまな理由で発生しますが、ソフトウェア エンジニアでさえ、構築するニューラル ネットワークのあらゆる側面を完全に理解しているわけではありません。しかし、ニューラル ネットワークがどのように機能するかを知ることで、これらの欠陥がどのように発生するかを理解し始めることができます。

ネットワーク内の人工ニューロンはスタックで動作します。 Deep Dream では、最小で 10 個、最大で 30 個のレイヤーを使用できます。各レイヤーは画像のさまざまな詳細を取得します。最初のレイヤーは、画像内の境界線やエッジなどの基本的な部分を検出する場合があります。特定の色と方向を識別する人もいます。他のレイヤーは、椅子や電球などのオブジェクトに似た特定の形状を探す場合があります。最後のレイヤーは、車、木の葉、建物などのより洗練されたオブジェクトにのみ反応する場合があります。

Google の開発者は、この特定のニューラル ネットワーク アーキテクチャを参照して、このプロセスの開始主義と呼んでいます。 Deep Dream の作品例を示す も投稿されました。

ネットワークが画像のさまざまな側面を正確に特定すると、さまざまなことが発生する可能性があります。 Deep Dream では、Google はネットワークに新しい画像を作成するように指示することにしました。

辺境の闇

Google Deep Dream の仕組み

Google のエンジニアは実際に、Deep Dream に画像のどの部分を識別するかを選択させました。そして基本的に、画像のそれらの側面を取り出して強調するようにコンピューターに指示します。 Deep Dream がソファの生地のパターンに犬の形を見つけた場合、その犬の細部が強調されます。

毛皮から目、鼻に至るまで、レイヤーごとに犬の外観がさらに追加されます。ソファの上でかつては無害なペイズリー柄だったものが、歯と目を備えた犬のような姿に変わります。 Deep Dream は作成を繰り返すたびに少しズームインし、画像がますます複雑になっていきます。犬の中の犬の中の犬を考えてください。

Deep Dream が画像のあらゆる細部を過剰に解釈し、強調しすぎると、フィードバック ループが始まります。雲でいっぱいの空は、牧歌的な風景から、宇宙バッタ、サイケデリックな形、虹色の車で満たされた風景に変わります。そして犬たち。 Deep Dream の結果に犬が多すぎるのには理由があります。開発者がこのニューラル ネットワークをトレーニングするデータベースを選択したとき、すべて専門的に分類された 120 個の犬のサブクラスが含まれるデータベースを選択しました。そのため、ディープ ドリームが詳細を探し始めると、検索するあらゆる場所で子犬の顔や足が見つかる可能性が非常に高くなります。

Deep Dream では、画像を作成するために実際の画像さえ必要ありません。空白の白い画像や静的な画像を入力した場合でも、画像の一部を「認識」し、それらをより奇妙な写真の構成要素として使用します。

これは、形式のないデータから意味と形式を明らかにしようとするプログラムの試みです。これは、世界中のコンピューター上に散在する画像の内容を識別し、その内容を認識するためのより良い方法を見つけようとする、プロジェクト全体の背後にあるアイデアを物語っています。

それでは、コンピュータは本当に夢を見ることができるのでしょうか?彼らは自分の利益のために賢くなりすぎているのでしょうか?それとも、ディープ ドリームは、テクノロジーがデータを処理する方法を想像するための空想的な手段にすぎないのでしょうか?

Deep Dream の出力を何が制御しているのかを正確に知るのは困難です。事前にプログラムされたタスクを完了するようにソフトウェアを具体的に指導している人は誰もいません。かなり曖昧な指示 (詳細を見つけて強調することを何度も繰り返す) を受けて、あからさまな人間の指導なしで仕事を完了します。

結果として得られる画像はその作品を表現したものです。おそらく、それらの表現は機械によって作成されたアートワークです。おそらくそれは、シリコンと回路から生まれたデジタルの夢の現れなのかもしれません。そしておそらくそれは、私たちのコンピューターが人間に依存することを減らす、ある種の人工知能の始まりでもあるのです。

あなたは、世界を征服する知性を備えたコンピューターの出現を恐れているかもしれません。しかし今のところ、この種のプロジェクトは Web を使用するすべての人に直接利益をもたらしています。わずか数年の間に、画像認識は劇的に向上し、人々が画像やグラフィックをより迅速に選別して必要な情報を見つけられるようになりました。現在の進歩のペースで行けば、Google の夢のコンピュータのおかげで、近いうちに画像認識が大きく飛躍することが期待できます。

著者メモ: Google Deep Dream の仕組み

コンピューターは芸術を作っているわけではありません。とにかく、まだです。そして彼らも夢を見ているわけではありません。これらのプロセスはどちらも明らかに人間的なものであり、個人の文化、生理学、心理学、人生経験、地理などの影響を大きく受けます。コンピューターはこれらの変数に関する大量のデータを吸収する可能性がありますが、人間と同じ方法でデータを経験し、処理するわけではありません。したがって、テクノロジーによって人間の経験が時代遅れになってしまうのではないかと心配しているのであれば、まだ心配する必要はありません。あなたの世界の認識は、コンピューター ネットワークの認識よりもはるかに深くなります。

関連記事

  • 画像認識ソフトウェアの仕組み
  • 顔認識マシンの仕組み
  • もしGoogleがなかったらどうなるでしょうか?
  • あなたが夢を見る5つの理由