Adept：LUIによって誰もがAIアシスタントを手に入れる？

Shingo Sakamoto
Mar 30, 2023
9 min read

今回は、2023年3月にシリーズBラウンドで3億5,000万ドル（≒460億円）の調達に成功した、AdeptというGenerative AIスタートアップについて調査してみます。

タイトルの「LUI」というのは、Language User Interfaceの頭文字をとったもので、Adeptが目指す「コンピュータを自然言語によって操作する」ことを表しています。

なお、レポート内で、為替レート（ドル・円）は2023年3月28日時点のものをベースに計算しています。

（Source: Stable Diffusionで「a man sitting by his desk without working」という筆者のテキスト入力に対して約7秒の間に出力された画像）

盛り上がるGenerative AI

ChatGPTをはじめとするGenerative AIが盛り上がりを見せています。Twitterのタイムラインでは毎日のように、ChatGPTと会話を楽しんだり、実際に業務に活用したりする人々の様子が流れてきます。

実際に、Google Trendsで「Generative AI」「ChatGPT」といったキーワードの検索回数は、ChatGPTがリリースされた2022年11月末を境に、急増しています。

（Source: https://trends.google.co.jp/trends/explore?q=Generative%20AI&hl=ja）

（Source: https://trends.google.co.jp/trends/explore?q=ChatGPT&hl=ja）

自然言語を用いてコンピュータと会話しながら、メール作成、プログラミングコード参照、アイディア壁打ちができるというChatGPTの体験は新鮮で、多くのユーザーに衝撃を与えています。2022年8月にリリースされた、画像生成AI「Stable Diffusion」も世間を賑わせましたが、ChatGPTもそれに続いてGenerative AIに対する人々の期待を後押ししています。

一方で、こういったGenerative AIサービスの多くは、まだ「情報出力」しかできない状態です。Adeptが目指しているのは、自然言語によってAIに指示を与え、人間は自らマウスやタッチパッドを用いることなく、AIを通じてあらゆるタスクをコンピュータに実行してもらう未来を実現することです。

LUIとAdept

私たちは、当たり前のように毎日マウスやタッチパッドを用いてコンピュータを操作しています。コンピュータを立ち上げてアプリを起動し、毎日何百回〜何千回という「クリック」と「キーボード入力」によって業務を実行しています。

こういったGUI（Graphic User Interface）が初めて実用化されたのは、アメリカ空軍が防空管制システムを開発した1963年で、その後、一般に広まったのはSteve Jobsが1984年にMacintoshに搭載したことがきっかけと言われています。それ以前のコンピュータはCUI（Command User Interface）が基本で、ユーザーは真っ黒な画面にプログラムを打ち込んでコンピュータに指示を与えていました。

GUIが一般に普及してから約40年近く経過していることになりますが、AdeptのCEOであるLuan氏は「あと2〜3年で、自然言語によってコンピュータを操作する時代が来る」と考えているようです。

Adeptが開発するプロダクトについては、まず以下の動画をご覧いただくとイメージが湧きやすいかと思います。物件検索サイトを開いた状態で、ポップアップに「ヒューストンで4人家族が住む家を予算60万ドルで探して欲しい」と入力すると、検索結果が表示されます。

（Source: https://www.adept.ai/blog/act-1）

あるいは他のケースだと、Wikipedia上で「スターウォーズ」でMace Winduを演じた俳優の年齢をポップアップに聞くと、Mae Winduのページが表示され、記事内のリンクから俳優のSamuel Jacksonのページに飛び、ページの内容から「73歳」と回答を得ます。

このように、Adeptはソフトウェア上に表示されたポップアップにテキスト入力すると、人間に代わってAIがクリックやテキスト入力をしてくれるサービスを開発しています。

Adeptのプロダクトは「チャット形式で設計できるRPA」という捉え方がわかりやすいかもしれません。実際に、「Is Adept.AI the ChatGPT of Robotic Process Automation（RPA）?（Aept.AIはRPAのChatGPTか？）」というタイトルのコラムがあり、RPAとAdept AIが比較されています。一般的なRPAは、スクリプト設計に専門性が必要であり、学習・設計コストを考慮すると任せられるタスクの幅が限定的になってしまう一方、Adept AIは、一度構築できれば、誰もが自然言語でRPAに指令を与えることができ、反復回数の少ないタスクもローコストで実行できるようになります。

Adeptは、まずWebブラウザ上で表示されるソフトウェアの操作にフォーカスし、将来的にはあらゆる専用ソフトウェアに対応し、自動車部品や医薬品の設計も自然言語で指示が出せるようにしようとしています。

Transformer

Adeptを語るうえで欠かせないのが「Transformer」という技術です。Transformerは、Generative AIの発展において非常に重要な技術であるため、この章で一度言及しておきます。

その前に、ChatGPTの整理から始めます。

まず、いま話題になっているChatGPTは、OpenAIという営利企業（元は非営利団体としてスタート）が開発したチャットボットAIです。ChatGPTは、GPTという大規模言語モデル（LLM=Large Language Model）をファインチューニングしたチャットボットアプリケーションです。なお、GPTはGeneral Pretrained Transformerの略で、大量のテキストデータを学習したAIモデルです。また、ファインチューニングは、人によって使い方が異なる場合があるため注意が必要ですが、事前学習に用いたデータセットとは別の新たなデータセットを用いてLLMを再学習させることを意味しています。

ちなみに、OpenAIが2022年5月に出した論文によると、ChatGPTのベースになっているのは、GPT-3（OpenAIが開発したGPTシリーズの1つ）を「人間のフィードバックによる強化学習」（RLHF＝Reinforcement Learning from Human Feedback）によってファインチューニングした「InstructGPT」というモデルです。

改めて整理すると、GPTは「世の中にある大量のデータを学習させた言語モデル」で、InstructGPTは「人間のフィードバックによってファインチューニングされたGPT」、そしてChatGPTは「InstructGPTをベースにしたチャットボットアプリケーション」ということになります。

つまり、ChatGPTは、あくまでOpenAIがGPTを元にチューニングした1つのアプリケーションにすぎず、ファインチューニングのプロセスを変えれば、現在のChatGPTとは違ったニュアンスの回答を返すようになるはずです。例えば、フィードバックを行う人間の年齢を10代限定 / 60代限定にした場合、リベラル派限定 / コンサバ派限定にした場合でも、回答内容は変わってくると思われます。

そして、このGPTのベースになっているのが、Transformerという技術です。Transformerの登場は、Generative AIの歴史において、大きな転換点となりました。

Transformerは、Googleが出した「Attention Is All You Need」（直訳すると「Attentionだけで良い」）という題名の論文で紹介された技術です。この論文が発表されるまで、自然言語を含む時系列データ処理には、複雑なリカレントニューラルネットワーク（RNN）が使われることが一般的でしたが、RNNアプローチは、①長期記憶が苦手（つまり、文章が長くなると精度が低下する）、②並列処理ができない（つまり、処理速度が遅い）という課題を抱えていました。Attentionを中心とするTransformerは、まさにそれらの課題を解決しました。「Attention」とは、入力データ（例えば、文章の単語列）の一部に注目する仕組みです。入力された文章は（step.1）各単語に分割され、（step.2）ベクトルに変換されますが、Attentionは、ある単語ベクトルが他の単語ベクトルとどの程度関連しているか計算します。

Attention自体は2014年に発表された「Neural Machine Translation by Jointly Learning to Align and Translate」という翻訳に関する論文で初めて登場しました。この論文では、RNNにAttentionを組み込むことで翻訳品質が向上することが示されました。そして、TransformerはRNNをなくしてAttentionを中心に据え、加えていくつかの工夫を施したことにより、精度と速度を大幅に改善することに成功しました。元々は、RNNを補うために使っていたAttentionをRNNなしで使うというアプローチを採用したことが、論文タイトルである「Attention is All You Need」につながっています。

ちなみに、Transformerに盛り込まれた「いくつかの工夫」とは、例えば、Attentionを並列につなげる「Multi-head Attention」や、特定の単語がワークしないようにする「Masking」等です。それらの工夫含め、Transformerに関するわかりやすい説明は、こちらの記事や、こちらの記事をご参照ください。

ACT-1

だいぶ遠回りをしてしまいましたが、Adeptが用いるAIモデルには、「ACT-1」という名前が付けられています。「Action」（つまり情報の参照だけでなく実行までできるAI）の頭文字である「ACT」に、Version1を意味する「1」が合わさって、「ACT-1」です。

Adeptの共同創業者3名は、TransformerやGPTと非常に深い関係を持っています。まず、3名のうち2名は「Attention is All You Need」論文の共同著者、つまりTransformerの生みの親ということになります。そして、残りの1名は、過去にGoogleでLLMプロジェクトを率いたのち、OpenAIでGPT-3開発に携わっていたLuan氏です。

彼らは、TransformerにAction機構を組み合わせることで、新たな大規模言語モデルを開発しようとしている、と言われています。具体的な技術の詳細は公開されていませんが、どうやら、インプット＝「自然言語」、アウトプット＝「コンピュータ上の人間の動作」というデータセットを大量に学習したAIモデルを目指しているようです。例えば、「クラウド会計ソフトにログインしてください」というインプット（テキスト）と、「Webブラウザにクラウド会計ソフトのURLを入力して開き、左上のボックスにメールアドレスを入力し、その下にあるログインボタンを押す」というアウトプット（動作）が1セットです。これらのデータセットを大量に集め、テキストから動作を呼び起こせるように訓練しています。

ただ、個人的には、各サイトごとに仕様はそれぞれ異なるため、満足のいく精度が出せるAIモデルをつくろうとすると、データセットがいくらあっても足りないのではないか、と思ってしまいました。また、何か方向性の違いでもあったのか、共同創業者であるVaswani氏とParmar氏が退社したと報じられた点は少し気になるところです。それでも、すでに一部の動作は実行できるプロトタイプが完成しているようで、今後の進捗が楽しみです。

いろいろな疑問はありますが、一つ言えることは、いまのAIの進化スピードを考えると、数年後にAdeptの描く未来が実現されていても全くおかしいとは思わない、ということです。

資金調達状況

Adeptは、2022年4月にシリーズAラウンドで6,500万ドル（≒85億円）調達しました。このラウンドはGreylockというベンチャーキャピタルがリードし、Howie Liu氏（Airtableの創業者）、Dara Khosrowshahi氏（UberのCEO）等、複数投資家が参画しました。この時点で、Adeptには研究者を中心とする9人のメンバーしか在籍していないようです。

そして、その約1年後である2023年3月、同社はシリーズBラウンドで3億5,000万ドル（≒460億円）調達しています。その時点の組織は25名規模と伝えられています。

直近の自然言語処理ブームを反映していないデータかもしれませんが、ZipRecruiterというサイトを参考にすると、自然言語処理研究者（NLP Scientist）の平均給与が年間約14万ドルとなっています。9人で年間126万ドルです。仮に倍の給与だとしても、年間250万ドルです。それでも大きな資本が必要になるのは、AIモデルの構築にかかる学習コストが大きいためと思われます。

（Source: https://www.ziprecruiter.com/Salaries/NLP-Scientist-Salary）

こちらの論文によると、GPT-3が学習に利用したデータセットは570GBあり、1,750億個のパラメーターで学習すると、2020年時点で最も安価なGPUサーバーを用いても少なくとも460万ドル（≒6億円）かかると言われています。この学習を何度も繰り返した場合、数十億円、数百億円というお金があっという間に会社から出ていきます。Adeptは新たなLLMの構築に取り組んでおり、学習にかかるコストが非常に大きいのではないかと思います。また、それだけでなく、そもそもデータセットを集めるためにかかるコストもあるでしょうし、いったい完璧なAIアシスタントが完成するまでにいくら必要になるのか、気になるところです。

コンピュータに対するあらゆる指令を自然言語で出すことができたら、私にとってそれは非常に喜ばしいことです。朝起きたらMacBookを開き、いくつかのタスクをAIに依頼しておきます。「昨日食事した取引先のA氏に送るメールの下書き作っておいて」「来週ニューヨークに出張に行くから、予算500ドル上限でチケット予約しといて」「今週末両親と食事に行くから美味しいステーキレストランを口コミが良い順に5つリストアップしておいて」。AIがアシスタントとして、こういったタスクをこなしてくれたら、私たちはもっと日々のタスクに追われることなく生きることができるかもしれません。

IDATEN Ventures（イダテンベンチャーズ）について

フィジカル世界とデジタル世界の融合が進む昨今、フィジカル世界を実現させている「ものづくり」あるいは「ものはこび」の進化・変革・サステナビリティを支える技術やサービスに特化したスタートアップ投資を展開しているVCファンドです。

お問い合わせは、こちらからお願いします。

今回の記事のようなIDATENブログの更新をタイムリーにお知りになりたい場合は、下記フォームからぜひ IDATEN Letters に登録をいただければ幸いです。

Adept：LUIによって誰もがAIアシスタントを手に入れる？

Recent Posts

Comments