ここでは、AIモデルの画像認識精度を高めるために欠かせない「学習データ」について解説します。学習に活用できる公開データセットの種類や前処理の重要性についても紹介しているので、画像解析AIシステムの開発を進めたいSIer・AI事業者の皆様は参考にしてみてください。
画像認識AIの学習データとは、AIモデルが賢くなるために必要な画像データの集合体のこと。「教師データ」や「非教師データ」「動画データ」などさまざまな種類があり、これを用いて画像内のパターンや特徴を学習します。
AIモデルの用途・目的によって必要なデータは異なるため、違いを認識することが大切です。以下で詳しく見ていきましょう。
学習データの質が高く、量が多いほど、AIモデルは正確に画像を認識できるようになります。システム開発の目的に合った学習データを活用することで、AIモデルはさまざまなパターンや特徴を学習し、未知のデータに対しても高い精度で応答できるようになるのです。
反対に偏りや不足があると、AIモデルの予測精度は低下し、実用性が損なわれる可能性があります。
教師データとは、各画像に対して正解となるラベルが付与されたデータセットです。AIモデルは、このデータを用いて入力画像と対応する出力ラベルの関係を学習する仕組み。
例えば、手書き数字の画像認識を行う場合、数字「0」から「9」までの手書き画像と、それぞれの数字ラベルが付いたデータセットが使用されます。
非教師データは、ラベルが付与されていない画像のデータのことです。AIモデルは、このデータからパターンや構造を自律的に学習する仕組み。例えば、大量の風景写真から共通する特徴を抽出し、類似した画像をグループ化する際に利用されます。
連続した画像フレームからなる動画データも、画像認識AIの学習に活用されます。特に、動作解析や行動認識など、時間的な変化を捉えるタスクにおいて重要です。例えば、スポーツ選手の動作分析や監視カメラ映像からの異常行動検出などに使用されます。
実際の画像データが不足している場合、コンピューターで生成された合成データを利用するケースもあります。これにより、学習データの多様性を高め、モデルの汎化性能を向上させることが可能です。
例えば、仮想環境で生成された自動車の画像を用いて、自動運転車の認識能力を訓練するケースなどがあります。
研究機関や企業が公開しているデータセットも、学習データとして利用することが可能です。自作できない場合、コストを抑えたい場合などに有効です。これらのデータセットは、多くの場合、特定のタスクやドメインに特化しており、AIモデルの性能評価や比較に役立ちます。
公開データセットは、特定のタスクや目的に応じて多様な種類が存在します。
ここでは、代表的な公開データセットの種類をご紹介。研究目的や商用利用など、用途に応じてライセンスや利用条件が異なるため、使用する際はよく確認してみてください。
ImageNet | 1,400万枚以上の画像に対し、2万以上のカテゴリのラベルが付与されている大規模データセットです。 |
---|---|
Open Images Dataset | 900万枚以上の画像からなるデータセット。 物体の境界区画(バウンディングボックス)とアノテーションが付与されています。 |
Food-101 | 10万枚以上・101種類の料理画像にラベルが付与されているデータセット。 食品研究分野で使用されています。 |
KITTI Vision Benchmark | 自動運転車の視覚システム向けに設計されたデータセット。 車載カメラから取得した画像やセンサー情報が含まれています。 |
PASCAL VOC | 20のオブジェクト・カテゴリーで構成されているデータセット。 オブジェクト検出、セグメンテーション、画像分類の目的で使用されています。 |
COCO (Common Objects in Context) |
約33万枚の画像にアノテーションが付与されているデータセット。 80種の物体カテゴリのラベルが付与されています。 |
DAGM 2007 | 工業用部品の表面欠陥を検出する目的で開発されたデータセット。 1,000枚の基本画像と150枚の欠陥画像が含まれています。 |
The GRIMA X-ray Database | 工業製品のX線画像(約2万枚)を5つのカテゴリに分類しているデータセット。 鋳物や溶接の分野で利用されています。 |
画像認識AI学習データの前処理とは、AIモデルが効果的に学習できるよう、収集したデータを整理・加工する工程のことです。
アノテーション | 画像内の対象物を特定し、領域を抽出し、詳細な情報や適切なラベルを付けます。 |
---|---|
色補正 | 撮影条件による色や明るさのばらつきを調整します。 |
リサイズ | モデルの入力サイズに合わせ、画像をリサイズ・トリミングして大きさを統一します。 |
幾何的変換 | 画像の回転、平行移動、反転などを行い、データの多様性を増やします。 |
ノイズ除去 | 画像に含まれる不要なノイズを削減し、重要な特徴を際立たせます。 |
正規化 | ピクセル値を一定の範囲(例えば0から1)にスケーリングし、モデルの学習を安定させます。 |
データ拡張 | 既存の画像データに対して、ランダムなクロップ、回転、スケーリング、色調補正などを適用します。 |
データのエラーやノイズを取り除き、サイズやフォーマットを整えることで、異なる画像間でもデータの一貫性を保ち、認識精度を高めることができます。
画像認識AI学習データの偏りやバイアスは、モデルの性能や公平性に大きな影響を及ぼします。
例えば、特定の人種や性別の画像データが過度に多い場合、AIはそのグループに対しては高い精度を示す一方、他のグループに対しては精度の低い結果・予測を出力する可能性があります。特定の人種だけで誤認識率が高まるなどリスクが生じるため、注意が必要です。
学習データを収集する際には、多様な属性(人種、性別、年齢など)を均等に含めるよう努めましょう。次に、データの前処理段階で、アノテーションの一貫性を保ち、誤ったラベル付けを防ぐことが大切です。
モデルの学習過程では、過学習を防ぐための正則化手法やデータ拡張技術を適用することで、モデルの汎化性能を高められます。これらの対策を講じて、偏りやバイアスの影響を最小限に抑え、公平かつ高性能な画像認識AIモデルを構築しましょう。
収集したデータをどのように前処理するかによって、画像認識AIの学習効率や最終的な画像認識精度は大きく変わります。属性に偏りが出ないように配慮しながら学習データを集め、適切な前処理を行いましょう。
学習データを用意するのが難しい場合は、公開データセットを活用するのも効果的。画像認識について学習済のAIを提供している会社を利用するのもおすすめです。
また、当メディアではシステム開発の業界・目的別におすすめの画像解析AIを紹介しています。製造業、医業、金融業など、開発システムを活用する業界・目的によって、選ぶべき画像解析AIは変わってくるもの。自社の開発システムに合った画像解析AIを導入したいと考えているSIer・AI事業者の皆様は参考にしてみてください。
様々な画像解析AIのなかで、DX化実現のため大規模なシステム構築が求められる製造業、高度な解析精度が医療業界、セキュリティが重視される金融業界と3つの業界で目的に合うツールをピックアップしました。
Bind Vision
(キヤノンITソリューションズ)
Aivia
(ライカマイクロシステムズ)
Azure AI Vision
(日本マイクロソフト)