コンテンツ認識ソフトウェアの仕組み

映画の列に並んでいると、サウンドシステムから素晴らしい曲が流れてきます。その曲は好きですが、その曲の名前や誰が歌っているのかわかりません。携帯電話を取り出し、番号をダイヤルし、スピーカーに向かって携帯電話をかざします。数秒以内に、曲名、アーティスト名、さらにはコピーを購入するためのリンクが記載されたテキストメッセージが届きます。

あなたが呼び出したサービスは、コンテンツ認識ソフトウェアを使用して曲を識別します。これらのプログラムは、近くで流れている曲について知りたい場合に役立ちます。また、独立したアーティストや企業にとって同様に大きな問題である著作権侵害の抑制にも役立ちます。

ピアツーピアネットワーク、ファイル共有サービス、YouTube などの強力なサービスは、人々に料金を支払わずにコンテンツにアクセスする多くの機会を提供します。最近まで、企業は著作権侵害を検出し、対策を講じるには人間に頼らなければなりませんでした。 YouTube などのサイトは通常、ユーザーが不適切な素材を報告することを期待していますが、著作権法に違反するクリップを不適切とはみなしていないサイトもあります。現時点では、ほとんどの企業は従業員に独自のビデオ映像を発見してレポートを記録することに頼らなければなりません。これは退屈で非効率なプロセスですが、コンテンツ認識ソフトウェアのおかげですぐに不要になる可能性があります。この記事では、このプロセスがどのように機能するのか、そしてこのソフトウェアが人々と企業の両方にどのように役立つのかを詳しく説明します。

ソフトウェアの開発

いくつかのソフトウェア会社は、オーディオクリップやビデオクリップを分析し、コンテンツのデータベースと比較して、著作権で保護されているソースからのものであるかどうかを判断できるプログラムを提供する予定です。このようなソフトウェアは、インターネット上の膨大な量のコンテンツをくまなく調べるための、効率的で比較的安価な代替手段を提供します。また、ラジオで流れている曲を知っているかどうかを友人に尋ねるよりも信頼性が高くなります。

ビデオまたはオーディオコンテンツを認識するプログラムの作成は複雑ではないと思うかもしれませんが、それは実際の課題であることが判明しています。まず、サウンドファイルやビデオファイルをエンコードする方法は数十あるため、一致するコードを探すプログラムを作成することはあまり役に立ちません。結局のところ、同じ曲の WAV ファイルと MP3 ファイルは、プログラミング言語の観点からは同じには見えません。さらに、曲とビデオは異なるビットレートで録音される可能性があるため、同じ曲の 2 つのMP3ファイルが一致しない可能性があります。携帯電話を介して曲を識別するソフトウェアは、録音の品質や干渉する背景雑音にもかかわらず、トラックを識別できなければなりません。

他にも課題はあります。ビデオ海賊の中には、映画に録画機器を持ち込んで、自分のカメラで映画をキャプチャする人もいます。一部の映写技師は映写室にデジタルビデオカメラを設置し、プレミア公開の夜に初上映の映画を録画することが知られている。合法的な配布を回避する他の人は、ビデオをトリミングしたり、その他の方法で変更したりする可能性があります。このような録画を検索するように設計されたプログラムは、プログラミング言語や同一のファイルだけに依存することはできません。

次のセクションでは、オーディオファイルを識別するプロセスと、それがこれらの課題をどのように補うかについて見ていきます。

コンテンツ認識ソフトウェア – オーディオ

コンテンツを識別するための最初のステップは、他のファイルと比較できる素材のデータベースを構築することです。レコード会社の場合、これには会社の音楽カタログ全体が含まれます。コンテンツ認識ソフトウェアは各曲を分析し、その曲を識別するデジタルタグを作成します。タグはフィンガープリントまたは署名と呼ばれます。

ソフトウェアは、エンコード言語ではなく、曲の実際のサウンドを分析します。一部のプログラムは、曲のテンポとビートを分析します。曲の振幅と周波数を測定するものもあります。フィンガープリンティングソフトウェアは通常、単一の記録からそれぞれわずか数秒の複数のサンプルを取得します。可能な限り完全なフィンガープリントを取得するために、オーディオクリップ全体を分析するソフトウェアを提供している企業がいくつかあります。現在の製品の少なくとも 1 つは、曲のランドマーク(クリップ内の特徴的な音響的瞬間) を分析し、ランドマークの周囲の音を分析します。理想的には、他の音楽をスキャンするときにランドマークがすぐに識別できるようになります。

プログラムはアルゴリズムを使用して音を分析します。ほとんどは、高速フーリエ変換 (FFT)アルゴリズムの一種です。この数学的手法により、複雑な一連の信号を受け取り、その信号内のあらゆる変化を追跡できます。これらの変化は、テンポの変化、1 分あたりの拍数、クリップ内のサウンドの振幅と周波数など、マッピングされ、数学的にデジタルフィンガープリントに変換されます。指紋は通常、数値形式です。

レコード会社がデータベースを確立すると、潜在的な顧客が曲を特定したり、著作権侵害のケースを追跡したりできるようになります。いずれの場合も、ソフトウェアは、会社のカタログ内の曲の場合と同じ方法で、未知のオーディオクリップを分析します。オーディオファイルの内容に応じてハッシュ、つまりショートコードが作成されます。ソフトウェアはデジタルフィンガープリントをクリップに割り当て、データベース内のフィンガープリントと比較します。次に、曲が同じかどうかをどのように判断するかを正確に見ていきます。

聞きましたか?聞きましたか?

コンテンツ認識ソフトウェアがどのような形式であっても曲を確実に識別できるようにするために、プログラマーは、 MP3ファイルと同様に、人間の可聴範囲内のサウンドのみを分析することに集中します。 MP3 ファイルが比較的小さい理由の 1 つは、人間の可聴範囲内の音だけがエンコードされ、他のすべては無視されるためです。コンテンツ認識ソフトウェアは、オーディオトラックの MP3 バージョンを見落とす可能性があるため、元の録音に存在する可能性のあるサウンドの全範囲には依存しません。

音の識別

多くの場合、分析対象のサウンドクリップは曲のクリーンコピーではありません。曲が切り詰められているか、別の曲に似ている可能性があります。ここでアルゴリズムが役に立ちます。このアルゴリズムの仕事は、フィンガープリントを比較し、受信したサウンドクリップがデータベース内の曲 (または曲の一部) と一定の確率範囲内で一致するかどうかを判断することです。

この身元確認プロセスは、かつて法医学の専門家が容疑者の指紋と犯罪現場で見つかった指紋を照合した方法に似ています。洗練されたコンピューターソフトウェアと指紋を検査する高度な方法が利用可能になる前は、専門家は異なる指紋間の類似点を探していました。ほとんどの場合、専門家は、印刷物が一致するとみなされるために、少なくとも16点の類似点を証明する必要があります。

コンテンツ認識ソフトウェアには標準的な確率範囲がありません。ほとんどのプログラムでは、顧客は一致を宣言するために必要な類似性のレベルを調整できます。たとえば、アルゴリズムが 95% 以上の確率で一致すると判断した場合にのみ一致結果を返すようにプログラムを調整できます。受信クリップがその範囲に含まれない場合は、ユーザーにエラーメッセージが送信されます。

プログラムが一致すると判断すると、提携アプリケーションが引き継ぐことができます。このアプリケーションは、曲のタイトルを知りたい人に情報を送信したり、 Web サイト上の曲にフラグを立てて、対応するレコード会社の法務部門に電子メールを送信したりする場合があります。一部のレコード会社は、このようなソフトウェアを使用して、ファイル共有サイトをスキャンしたり、音声をストリーミングする Web サイトのコンテンツを追跡したりしています。分析と照合のプロセス全体にかかる時間はわずか数秒です。

次のセクションでは、ビデオコンテンツがオーディオファイルとは異なる課題をどのように提示するかを見ていきます。

コンテンツ認識ソフトウェア – ビデオ

最近、タイムワーナーとディズニーは YouTube と提携して、Google が開発したビデオコンテンツ認識ソフトウェアをテストしました。このソフトウェアは、コンテンツを分析してフィンガープリントを作成するという点で、既存のオーディオコンテンツ認識プログラムと似ています。次に、その情報をデータベース内のフィンガープリントと比較して、一致するかどうかを判断します。ただし、ビデオには、簡単には克服できない特有の課題があります。

たとえば、YouTube のほとんどのビデオは 10 分または 100 メガバイトに制限されています。クリップには、著作権で保護されている映画やテレビ番組の 10 分間のセグメントが含まれる可能性があるため、コンテンツ認識ソフトウェアは、比較的小さなサンプルクリップから意味のある一致を検出できるように、元の作品全体を分析する必要があります。 Googleはソフトウェアがこれをどのように管理するかについて多くを語っていないが、おそらくプログラムは元のコンテンツの重複する部分を分析して複数のフィンガープリントを作成していると思われる。

ビデオコンテンツ認識ソフトウェアは、コンテンツをアップロードした人が最初に編集したとしても、映像を識別できなければなりません。たとえば、ビデオの色の彩度を微調整することで、色の解像度に一致するソフトウェアを騙すことができます。ビデオをトリミングしたり、ビデオカメラで撮影したフィルムの映像をアップロードしたりすると、認識ソフトウェアが騙される可能性があります。一部の海賊版映画は、画面に対して斜めに設置されたカメラで撮影されており、識別プロセスがさらに複雑になっています。

開発者が試みているアプローチの 1 つは、プログラムを使用して、ビデオ内の動きの特徴の変化の分析からフィンガープリントを取得することです。誰かが手持ちカメラで撮影した海賊版ビデオをアップロードした場合、これでも効果がないことが判明する可能性があります。場合によっては、著作権侵害の可能性のあるすべてのケースにフラグを立てるために、一致の確率範囲をかなり広くする必要がある場合があります。映画スタジオは、侵害のケースを確認するためにビデオクリップをレビューするために依然として実際の人物が必要であることに気づくかもしれません。それでも、ビデオ著作権侵害の可能性を最初に特定するのははるかに効率的になります。

ビデオ識別ソフトウェアはまだテスト段階にありますが、一部の企業はすでにプログラムの効果的なデモを行っています。ただし、ソフトウェアが完成しても、識別の課題が終わるわけではありません。膨大な量のビデオコンテンツは大きな問題を引き起こします。映画やテレビのスタジオは、毎日公開されるすべての新しいコンテンツのフィンガープリントを使用してデータベースを常に更新する必要があります。著作権侵害を暴くプロセスはより効率的になる可能性がありますが、それでも継続的な維持とメンテナンスが必要になります。

コンテンツ認識ソフトウェアの詳細については、次のページのリンクを参照してください。

コンテンツ認識ソフトウェアの仕組み

ソフトウェアの開発

コンテンツ認識ソフトウェア – オーディオ

音の識別

コンテンツ認識ソフトウェア – ビデオ

More posts

ビットとバイトの仕組み

Facebook で写真を編集する方法

インターネットの未来はどうなるでしょうか?

コンテンツ認識ソフトウェアの仕組み

ソフトウェアの開発

コンテンツ認識ソフトウェア – オーディオ

音の識別

コンテンツ認識ソフトウェア – ビデオ

More posts

ビットとバイトの仕組み

カップルが Facebook ページを共有する理由と、それが他の人たちを悩ませる理由

Facebook で写真を編集する方法

インターネットの未来はどうなるでしょうか?