本章におけるAIの定義
一般的に、AIは2つに大別される。一つは様々なタスクに対応できる汎用AI、もうひとつは特定のタスクに特化した特化AIである。
汎用AIは創作に出てくるAIであり、ドラえもんや鉄腕アトムがそれに該当する。
特化AIは音声認識や画像認識、機械翻訳など特定のタスクに特化している。
本章では特定のタスクに特化した特化AIを扱う。
特化AI
特化AIの基本スタンスは自動化・省力化である。
すなわち、人間が行う手間のかかる作業を、AIに代替してもらうことで、人間の作業コストを削減する使い方が主である。
例えば、文字認識であれば、レシートを認識して家計簿を自動作成するといったことを、音声認識であれば、従来人力で行ってきた文字起こしを自動で行うといったことを実現できる。
このような自動化はアクセシビリティと相性が良い。例えば、視覚障害者であれば文字認識により看板やメニューといった実世界の文字画像をテキスト化することで、それを読み上げることができる。また、聴覚障害者であれば音声認識により人間の話し言葉をテキスト化することで視覚化できる。このように、自動化により視覚情報から音声情報へ、音声情報から視覚情報へ、といったモダリティの変換を行うことができ、個々に合わせた情報獲得が可能になる。
ただし、特化AIは文字画像であればなんでも読み取れるわけではないし、音声であればなんでも認識できるわけではない。
これを理解するためには、特化AIの仕組みを理解する必要がある。
特化AIの実態
現代の特化型AIの実態は、統計処理 + 自動化プログラムである。具体的には、事前に用意した大量のデータから特徴を分析し、経験則的に高い精度で予測・分類を行う。
これは、人間が漢字、英単語を覚えるのと同じように、山のようにデータを読み込ませて傾向を理解するのと同じである。
以下に一例を示す。
文字認識
- 沢山の人が書いた文字画像から、この文字画像はこの文字であるという関係性を学ぶ
ゲームAI
- たくさんの場面から、この場面ではどんな手を出せば勝率が高いかを学ぶ
画像認識
- たくさんの画像データとテキストデータのペアから、この画像はこのテキストという関係性を学ぶ
すなわち、頻出データ(平均的なデータ)であればうまく認識できるが、そこから外れるようなデータ、例えば崩し字やノンネイティブの音声などはうまく認識できない。
これを理解すると、AIを用いたアプリケーションが有効なシーンの理解につながる。結果、AIの有効な活用につながる。