AI動向のスピードと情報量の増加
近年、AIの動向は急速に進化しており、情報量も膨大になっている。特にChatGPT-4のリリース以降、AIが解決できる課題の範囲が広がり、どのように活用すべきかが不明瞭になっている。さらに、APIを活用したサービスが急激に増加し、カンブリア大爆発のような勢いである。
正直もうスピードと情報量が多過ぎて追いつけない。しかし、これらのAIの動向は今後の社会を大きく変革するため、無視するわけにはいかない。
そこでこの記事では自分なりにAI関連に関する情報を整理するアプローチについて考えてみる。
情報ソース
AI動向の情報ソースは主にtwitterをはじめとしたSNSが中心。twitter, youtube, note, lineやdiscord上のオープン・クローズドコミュニティ、LTなど。特にtwitterでは情報の鮮度とスピードが速く、大抵のAI関連情報の入り口になっている気がする。どのように情報を収集すべきかは別投稿で整理する。
AI動向の全体像とトピック分類
AI動向の全体像を把握するために、各領域を整理し、以下のトピックに分類することができる。
- 基礎理論と仕組み
- 機械学習モデルとデータセット
- 主要プレーヤーの動向
- 開発者向けAIツール
- 特化サービス群
- AIサービス活用
- プロンプトエンジニアリング
- 未来展望と倫理
それぞれのトピックについて感覚的には以下のようなイメージで情報量が多くなっていく。
各トピックについてどのような情報が実際に出ているのかもう少し詳細に見てみよう。
1. 基礎理論と仕組み
含まれる情報:機械学習、深層学習、LLMなど基礎理論と仕組みなど
全てのAIに共通する基礎理論や大言語モデルの仕組みを理解して、その特性や制約を理解しようとする試みが多く共有されている。様々なAIサービスがリリースされる中、その原理は大きく変わっていない。AIの可能性だけでなく、その限界を正しく理解する為にも必ず概要は理解しておく必要がある領域だ。
ただLLMの能力進化については開発者自身にも予測できない所があるというので、全てが基礎理論で理解できるものでもないことは念頭に入れておきたい。
2. 機械学習モデルとデータセット
含まれる情報:GPTやLaMDAなど様々な機械学習モデルやデータセット
ChatGPTのベースとなっているGPTは言わずもがな、Googleが出したBardのベースとなるLaMDA、Metaが開発した大規模言語モデルLLaMa(ラマ)やオープンソースのAlpaca、midjourneyやstable diffusionのベースとなる画像生成モデルなど様々な機械学習モデルについての情報や特定領域の情報を学習させる為のデータセットの情報なども多く共有されている。主に開発者がAIを駆使する際に学んでおく必要がある領域だ。
Metaが開発した大規模言語モデル LLaMA
4月に公開されたばかりのオープンソースの大規模言語モデル Vicuna-13B
ロシア産オープンソースの画像生成AIモデル Kandinsky
3. 主要プレーヤーの動向
含まれる情報:openAI, midjourney, Microsoftなどが提供するサービスとその動向
様々なAIサービスの中でもオープンソース化をいち早く行い、昨今のAIサービスの大きなうねりを作りだしたopenAI, midjourney, stability.aiやopenAIの出資元のMicrosoft。これら企業は先駆者でありながら、トップランナーでもあり、いまだに彼らの一挙手一投足には大きな注目が集まっている。
ベースとなるサービスを拡張する機能が立て続けにリリースされ、そちらでも社会にインパクトを与え続けている。今後も彼らを追いかける必要はあるだろう。
ChatGPT, Midjourney
ChatGPT Plugins
nijijourney v5
4. 開発者向けAIツール
含まれる情報:ControlNetやHugging Face、LangChainなどの開発者向け技術
こちらは主に開発者向けの技術の為、情報量がプロンプトほど多くはないが、世界中の開発者がクリエイティビティを爆発させている。エンジニアとして最も注目&注力するべき領域だろう。万人が血で血をあらうプロンプトの世界と比較して、エンジニアが戦うフロンティアはここにあると言って良い。エンジニアの端くれとしては最も注力したい領域。
特に最近は自律駆動型のAIエージェントの開発が進んでおり、エンジニアにとってインパクトが大きいだろう。
自動プログラミングを行うAuto-GPT
マイクロソフトがリリースしたJARVIS
画像生成に補助線を追加するControlNet
自律駆動型AIエージェント Baby AGI
5. 特化サービス群
含まれる情報:各専門領域に特化したサービス群
ChatGPT APIの公開もあってかこの数ヶ月で公開された機械学習モデルを組み込んだサービスが雨後の筍のようにリリースされている。主要企業のサービスが汎用的であるのに対して、これらのサービスは特定の専門領域に特化したサービスを提供しているのが特徴だ。
あまりにもリリースサイクルが早い為、全てをキャッチアップする必要はないが、自身の専門分野に活用することで業務の効率化を助けてくれる為、目を通しておくのは無駄ではなさそうだ。
ただ追い過ぎると消耗するので注意。また主要企業の動き次第で一掃される可能性も高い。
PDFを読み込ませて対話する事ができるChatPDF
テキストからスライドを生成するGamma
6. AIサービス活用
含まれる情報:AI x AIの活用方法 (エンジニア、非エンジニア)
AIをどのように自分の領域に活用したかという情報も多く発信されている。単純にどのようなプロンプトを使うかではなく、AIサービスを何かと組み合わせて活用することで解決する課題の幅が広がっている。
多いのがブログ生成、議事録作成、マーケティング施策立案など個人の活動を拡張させるものだが、中には「行政データなど構造化されていないデータを構造化する」など組織でも活用できる使い方も発信されている。
7. プロンプトエンジニアリング
含まれる情報:ChatGPTを中心としたプロンプトエンジニアリング
最も情報量が多いのがプロンプトに関する情報だ。この領域は特にopenAIやMicrosoftなどの手を離れ、民衆が日々様々な実験と検証で新しい手法が生まれていて、人のクリエイティビティの凄さを実感させる。最も自由度が高い。完全なるカオスから、新しい手法が生まれ、徐々に体系だった手法として確立していく様は見ていて非常にエキサイティングだ。
今後、人によって生産性の差がつく一番の領域の為、血眼になっている節もあるが、エンジニア・非エンジニア関係なく、最も重要な領域の1つになることは間違いない。
般若心境をPythonで表現する
ゴールシークプロンプト
ベクトル演算
8. 未来展望と倫理
含まれる情報:AIが発達した未来の展望、政策、倫理やセキュリティの問題
そして社会がAI技術で揺れていることを一番感じるのが政策や規制、セキュリティなどマクロな視点からの情報。自分自身の生活から少し距離はあるが、この領域の舵取りによってAIをどのように活用できるのか?も一転する為、非常に重要な領域だ。
個人的に注目していくトピック
これら8つのトピックはどれも今後の自分達の生活を左右する重要なトピックとなるが、その中でも直近の自分に大きな影響を与える「AIサービス活用」、「プロンプトエンジニアリング」、「開発者向けAIツール」は情報のスピードも量も多いながら、意識的に追っていきたい。
その上でこれらの領域をより深く理解し活用する為に「基礎理論と仕組み」、「機械学習モデルとデータセット」を徐々に深めていければと思う。
最後に
ChatGPT4がリリースされてから約1ヶ月。ようやく少し情報量やサプライズの量は緩やかになってきたが、これからもあらゆる領域、業界でAIが話題の中心になることは間違いない。情報の波に飲まれずに正気を保ってこの動向を今後も注視していこう。