機械学習とは?

世界はパターンに満ちています。しかし、私たちがそれに気づかないことも多くあります。

人間の言語が良い例です。通常、動詞の活用や語順などが厳格な構造に従っているため、私たちはお互いを理解できます。同じことが音楽にも当てはまり、リズムや音階の予見性が秩序や予測可能性の尺度をもたらします。

コンピューターがこういったパターンを識別してモデル化できれば、予測が可能になります。それこそが機械学習(ML)の本質です。

こうした予測は、創造的に記述したりアイデアを明確にしたりする能力のように、人間を人間たらしめる基本的な要素を模倣するために使用できます。その良い例が、ChatGPTやGoogle Bardなどのチャットボットです。自動運転車を例に挙げると、十分な実例(高品質のトレーニングデータ)があれば、潜在的な衝突につながる要素を特定し、車両が事故を回避できるようになります。また、コンピューターネットワークや金融システムの場合であれば、悪意のある活動の兆候を検出できます。

これらはごく一部の用途であり、高度に接続されたデジタル世界において、MLはますます基本的な要素となっています。スマートフォンのカメラから職場のセキュリティシステムまで、数え切れないほどのビジネスやコンシューマー向けシステムに搭載されて(あるいは、その基盤となって)います。

この記事では、初期の実験から最新の進歩まで、MLの概要を紹介します。MLがどのように機能するのか、「なぜ」機能するのか、そして増え続ける利用方法について説明します。

機械学習の歴史

人工知能(AI)とMLは、同じ概念として扱われることも少なくありません。しかし、実際には、AIは統計的/数学的手法の大きな集まりを指し(MLはそのサブセットです)、集まりごとに個別の種類の問題を解決する傾向を持ちます。

MLの基盤は、19世紀のエイダ・ラブレスからアラン・チューリングまでの、計算理論の長い進歩の歴史における「論理的」な子孫です。その前提は、デジタル記憶コンピューターが発明されるよりもずっと前の1943年に、論理学者のウォルター・ピッツと神経生理学者のウォーレン・マカロック人間の脳のニューロンの数学的表現を作成しようとしたときに始まりました。この出来事は、2つの理由で重要な意味を持ちます。

脳のようなシステムの作成

第一に、人工ニューラルネットワーク(最新のMLシステムの主要コンポーネント)は、脳の神経細胞(ニューロン)の活動とニューロン間の関係を表すように設計されています。しかし、コンピューターは、より根本的な意味で言うと、本質的に数の計算を実行する機械です。アイデアを数学的に表現できれば、それをコードで実装することが可能になります。

コンピューターがまだ黎明期にあった時期、MLのごく初期の開発は主として理論的な性質のものであり、主な問題は「計算可能とは何か」(つまり、コンピューターはどのような数学的問題を解決できるのか)でした。チューリングが1950年の論文「Computing Machinery and Intelligence(計算する機械と知性)」で提唱した、思考する機械の概念のようなものです。

そのような概念実証の1つとなった1951年のStochastic Neural Analog Reinforcement Calculator(SNARC)は、40本のシナプスから成るニューラルネットワークを実装しました。その役割は、信号が回路の一方の端からもう一方の端に伝搬する確率を出力することでした。この実験は今日の基準で考えると単純で、明らかな商業的有用性はありませんでしたが、それでも今日のMLシステムを支える多くの概念を開拓しました。たとえば、オペレーターが正解に「報酬」を与えることができる強化メカニズムが含まれていたために、精度が向上しました。

同じく1950年代に、コーネル大学と米国海軍研究局パーセプトロン(1943年にピッツとマカロックによって考案された、物体をその種類に基づいて分類できる機械)の最初の実装を作成しました。これはコンピュータービジョンの初期の実験でしたが、その目的はほとんど達成されませんでした。1959年当時のMLは黎明期にあり、コンピュータは能力不足でした。

MLのイノベーションの引き金

しかし、テクノロジーではよくあることですが、その失敗がイノベーションの引き金となりました。そこから、多層ニューラルネットワーク(ネットワークが深化し、ニューロンの層が前の層からのみアクセス可能)の発見につながり、単層のニューロンよりも正確な予測が生成されるようになりました。

その後の数十年間で、新しい手法やアルゴリズム(パターン認識に使用される最近傍探索アルゴリズムや、人工ニューラルネットワークの構築と最適化のための新しい手法など)、そして新しい実装が発見され、MLへの関心が爆発的に高まりました。研究者は、現実世界の環境を横断し、ゲームをプレイし、データを分析できるシステムを構築できるようになりました。

1990年代後半には、MLが真のビジネス価値をもたらすようになり、少なくとも、かつては人間にしかできないと考えられていた分野のタスクを処理するようになりました。1997年、IBMのDeep Blueシステムは、当時チェスの世界チャンピオンだったガルリ・カスパロフを破りました(5ゲームマッチで2勝1敗3分け)。その2年後、研究者はスパム検知システムでMLを使用する手法を提案しました

MLの成長

この進歩は21世紀に入って加速し、MLは(もっと良い表現があるでしょうが)はるかにアクセスしやすくなりました。2002年、スイスのIdiap Research Instituteは、MLの用途の最初のオープンソースライブラリであるTorchをリリースしました。オープンソースのデータ、特にコンピュータービジョン向けのデータが大幅に増えたため、研究者や組織は現実世界の状況を反映したMLシステムを簡単に構築できるようになりました。

また、IBMのWatsonが「Jeopardy」というクイズ番組でチャンピオン2人を打ち負かしたり、GoogleのAlphaGoシステムがプロの囲碁棋士に勝利したりと、MLベースのシステムは成果を拡大させ続けました。MLテクノロジーが成熟しただけでなく、(実用性はないにしても)確かにインパクトのある方法でMLを実装するテクノロジー能力が実現したのです。

MLの用途

研究者が人工ニューロンの概念を生み出してから90年が経ち、デジタル世界のいたるところにMLが浸透しているように感じられます。意識されないことも多いMLですが、次のようなコンシューマー向けおよびビジネス向けの用途で重要な役割を果たします。

  • 脅威の検出:セキュリティシステムは、MLを使用して、攻撃の可能性を示唆する異常な要素を特定します。これらの要素の例としては、メールのヘッダーや本文、ネットワーク上のトラフィックなどが挙げられます。
  • スマートフォンのカメラ:スマートフォンはMLを使用してフレーム内の物体を識別・分類し、それに応じてカメラ設定を調整し、より良い写真を作成します。このテクノロジーは、AndroidおよびiOSデバイスで使用されています。
  • 大規模言語モデル(LLM):ChatGPTやGoogle Bardなどのチャットボットは、MLを使用して単語、概念、文体の要素間の関係を理解することで、無数のトピックに関する説得力のある文章を多様な文体や形式で記述できます。
  • 自律走行車:自動運転車(または半自動運転システムを搭載した車)は、AIとMLを使用して、周囲の環境にある物体、特定のアクションの実行に伴う結果を認識し、他のドライバーの典型的な行動を理解します。 
  • 顔認識:ソーシャルネットワーキングサイトは、MLを使用することで、写真に写っている個人を認識し、自動的に「タグ付け」できます。MetaのDeepFaceアルゴリズムは、その一例です。 
  • 音声認識:MLによって、ユーザーは音と文章の関係を理解でき、話し言葉から正確な文字起こしを作成できます。
  • 不正検知:金融機関は、MLを使用して異常な支出行動を検出し、不正の可能性がある取引をブロックできます。
  • 製造と物流:MLによって、産業用ロボットが自律的に動作できるようになることで、サプライチェーンの円滑化や職場の安全向上が可能になります。機械が環境を認識し、やりとりする物体を理解し、人間の従業員に害を及ぼす可能性のある潜在的な異常イベントに対応するのに役立ちます。

経済活動に関与するあらゆる分野で利用されているMLですが、その仕組みはどのようなものでしょうか。次のセクションでは、MLの背後にある概念について説明します。また、一般的なMLアルゴリズムの仕組みについても取り上げます。

MLの仕組み

MLは、アルゴリズムの膨大な集合体であり、「コンピューターがパターンを識別し、それを使用して予測を行ったり、現象に関する知識を得たりするのを支援する」という共通の目的を持ちます。

トレーニングデータ

MLシステムは、実世界のデータを使用してパターンを特定し、予測を行います。AIシステムの有効性は、トレーニングデータの量と質によって決まることが少なくありません。そのため、研究者や開発者はアルゴリズムに提供する資料のキュレーションに多くの時間を費やします。

幸い、多くの場合にこうしたデータには簡単にアクセスできます。たとえば、ChatGPTで使用されているのは、AI/MLタスクで使用するためにフォーマットされたインターネットのスクレイピングに基づくCommonCrawlデータベースの一部です。コンピュータービジョン向けの開発の場合は、大規模で高度に編成され、一般に公開されている写真のリポジトリであるImageNetを利用できます。

データの取得も問題ですが、それとは別にデータのキュレーションという大きな問題があります。AI/MLの開発では、無関係なデータ、低品質のデータ、または誤って分類されたデータを排除するる必要があります。コンピュータービジョンシステムであれば、低解像度、ぼやけた画像、またはその他の不鮮明な画像を削除します。

教師あり、教師なし(場合によっては半教師あり)

では、コンピュータービジョンアプリケーションを構築する場合を考えてみましょう。HBOのドラマシリーズ『シリコンバレー』に登場したホットドッグ識別アプリのように単純なものです。画像にホットドッグが含まれているかどうかを識別するシステムに学習させます。しかし、その前に、ホットドッグがどのようなものかコンピューターに教えるにはどうすればよいかが問題になります。

このような場合には、教師あり学習システムを使用できます。ホットドッグを含む大量の画像をコンピューターに提供します。システムは「教師あり」で、これらの画像には「ホットドッグあり」または「ホットドッグなし」の注釈(ラベルとも呼ばれます)が付けられるため、アルゴリズムは「ホットドッグ」と「ホットドッグなし」に相関する写真の統計モデルを構築し、ホットドッグを構成する明確な視覚要素を識別します。要するに、このアルゴリズムは、ホットドッグを含むすべての写真の共通性を調べるのであり、その共通性こそがホットドッグです。新しい画像が提示されたとき、その共通性が存在する場合、アルゴリズムはこの画像にホットドッグがあることを予測します(その逆も同様です)。

ただし、データの注釈付けには、往々にして非常に大きなコストがかかります。ラベルがない場合、AI開発者は教師なしアルゴリズム(ラベルなし、つまり教師が不在)を利用できます。

この場合、システムは、ホットドッグの形や色など、予測に使用できる共通点(クラスターとも呼ばれます)を識別します。

半教師ありは、上記2つの方法のハイブリッドを使用するアプローチであり、研究者または開発者がラベル付き画像とラベルなし画像を組み合わせて提供します。通常、ラベル付けされたデータの量は、提供されるデータのごく一部です。ラベル付けは時間と手間のかかる作業であるため、このアプローチは教師あり学習で得られる多くの利点を開発者に提供しながらも、データの前処理に要する時間を大幅に短縮します。

その後、研究者はトレーニングモデルの有効性を評価します。正確度(元のラベルと比較してアルゴリズムが正しく予測した頻度)や精度(アルゴリズムが実際の「ホットドッグ」の写真で「ホットドッグ」を予測した頻度)などの特定の指標を調べます。

MLのアルゴリズムとモデル

開発者や研究者は、MLアルゴリズムの大規模なライブラリを自由に使用できます。これらは異なる概念の下で動作し、さまざまなタスクや問題に最適なものとなります。その中でも特に注目すべきものを以下に紹介します。

  • ディープニューラルネットワーク:これらのモデルは、脳がどのように情報を処理し、意思決定を行うかに数学的に着想を得ています。これらは、相互接続されたニューロン(ノード)の隠れ層で構成されます。画像や動画などの入力が通過すると、ニューラルネットワークはそれを個別の要素に分割し、各要素が実際の値に対して重み付けされます
  • デシジョンツリー:デシジョンツリーは、データを使用してif-elseロジックツリーを構築し、各分割が階層型フローチャートに分岐します。
  • ランダムフォレスト:ランダムフォレストモデルは、基本的にデシジョンツリーモデルのスケールアップバージョンです。これは、複数の「木」が互いに平行に動作することで構成され、群衆の知恵によって、複数の木が単一の木よりも正確で有用な結果を生み出すことができることを期待するものです。
  • 線形回帰:線形回帰モデルは、従属変数(予測したいもの)と1つ以上の独立変数(経験年数や卒業証書で給与を予測できるなど、予測したいことを予測するのに役立つと考えられること)の間の関係に基づいて予測を行います。
  • 単純ベイズ:単純ベイズモデルは、一連の独立した属性、観測された確率に基づいてオブジェクトを分類するために使用される確率モデルです。このモデルは、スパムのフィルタリングやセンチメント分析などのタスクのテキスト分類に特に役立ちます

MLの限界

テクノロジー製品がより速く、よりスマートで、より機能的になっている状況に大きく貢献しているのがMLです。しかし、以下に示すとおり、技術的な制限や開発/トレーニングプロセスの欠陥により、十分なパフォーマンスが発揮されていない領域もあります。

  • バイアス:社会全体を代表しないトレーニングデータを使用すると、システムがごく一部の人々についてしか正確な予測ができないことになり、その他の人々にとっては非常に不正確で有害なものになります。たとえば、白人の写真のみでトレーニングした顔認識システムがこれに該当します。
  • 倫理:MLシステムは、倫理的に懸念される領域を処理したり適切に対応したりできません(そのような領域を特定することすらできません)。MLの使用自体にも、ユーザーの安全、プライバシー、説明責任などの倫理的な懸念があります。こうした懸念について、開発や実装の段階で考慮し、対処する必要があります。
  • MLの再現性:AI研究者が生み出した知見の多くに対しては、第三者が参加するピア検証や再現を実施できません。これは多くの場合、開発プロセスの文書化が不十分であること、実験が再現される環境の不一致、同じ入力に対して異なる結果を生成する可能性のある非決定的アルゴリズムの使用の結果として生じます。
  • 解釈可能性:MLシステムがどのようにデータを処理し、予測を行うかを理解することは、不可能ではないにしても、困難な作業となることが少なくありません。
  • 因果関係:MLは、原因と結果の概念を理解しない代わりに、オブジェクトとエンティティの関係に基づいて予測を行います。つまり、相関関係を特定することはできますが、因果関係を特定することはできません。

これらの問題は克服できないものではありません。MLテクノロジーは改善され続けており、AI開発者は、バイアスがもたらす問題だけでなく、ユーザー権限の重要性についても強く認識するようになっています。

問題を理解することは、解決への第一歩であり2023年に全世界のテクノロジーリーダーを対象に実施された調査によると、73%が組織内のデータバイアスの問題を認識しています。多くが対応を講じており、65%はAI/MLベンダーを検討する際の要因としてバイアスを挙げています。また、76%がバイアスに対処する最善の方法は、組織内の縦割り構造の一部に限定しない、首尾一貫した一元的な対応をとることであると考えています。

しかし、進歩には時間がかかり、それまでの間、MLの素晴らしい可能性だけでなく、MLの限界について、ユーザー、開発者、組織が認識した上で対処することが重要です。

私たちの生活におけるMLの未来の役割

MLは、人々の仕事や暮らしですでに重要な存在となっており、その役割は今後ますます大きくなっていきます。医療から製造、さにその先へと、MLは経済のあらゆる分野で未開拓の可能性を秘めています。

Forresterによると、AI/MLは、医療分野の小売り(薬剤師が提供するサービスなど)へのアクセスに要する時間を25%短縮します。PWCは、AI/MLが2030年までに世界経済に157億ドル寄与し、北米のGDPだけでも14.5%を占めるようになると予測しています。生産性改善、健康増進、生活向上に役立つツールとなります。

1世紀近くに及ぶ道のりを経て、数え切れないほどの研究者、企業、政府、信奉者がMLの発展に貢献してきましたが、これで終わるわけではありません。1940〜1950年代に最初に構想されたアイデアを実現できるだけの計算能力を初めて利用できるようになったため、今まさに最高潮に達したように見えるだけです。人間の野心に、ようやく能力が追いついたのです。

この道のりでは、ユーザーのプライバシー、安全性、持続可能性、そして特定タスクに対するMLの適合性を厳密に考慮して、慎重に管理する必要があります。この点を適切に舵取りできれば、将来の仕事や暮らしの向上と、AI/MLの全面的な浸透への道が開かれます。