2021年10月、AI学習向け合成データ事業を展開しているスタートアップの資金調達やM&Aが続きました。Rendered.ai、Gretel.aiが資金調達、AI.ReverieがMeta(買収当時の名前はFacebook。以下「Meta」。)に買収されたことを発表しました。これらはいずれもアメリカの企業です。
合成データとは、現実世界から集められるデータではなく、人工的に作られるデータを指します。何らかの理由で、機械学習に必要な学習データが集まらない、あるいは手元にあってもそのまま利用できないような場合に、合成データを機械学習モデルに学習させるという動きが高まっています。
合成データの歴史の中で大きなマイルストーンとなったのが、GANの登場です。GANとはGenerative Adversarial Network(敵対的生成ネットワーク)の略称で、機械学習モデルが元のデータから特徴を学習することで、実在しないデータを生成することができる技術です。GANが扱うことのできるデータは、テキスト・画像・動画・音声など、さまざまあります。ちなみに、GANはモントリオール大学の博士課程に在籍していたIan Goodfellow氏が2014年に発表した研究内容です。
私は合成データに関して、技術の存在そのものや大まかな技術的仕組みについて、なんとなくは知っていました。一方で、正直に申し上げると、ビジネスの世界でどのように、どれくらい実践的に合成データが利用されているのかという観点では、キャッチアップが遅れていました。
そこで、今回は自分自身の知識をアップデートするという目的も兼ねて、合成データ領域で資金調達したスタートアップの調査を通じて、合成データビジネスの現状を探ってみます。
(Source: https://pixabay.com/ja/illustrations/%E4%BA%BA%E5%B7%A5%E7%9F%A5%E8%83%BD-ai-%E3%82%A4%E3%83%B3%E3%83%86%E3%83%AA%E3%82%B8%E3%82%A7%E3%83%B3%E3%82%B9-6767502/)
2021年10月に資金調達したスタートアップ
Rendered.aiは2019年にアメリカで創業されたスタートアップです。2021年10月にシードラウンドで600万ドル(≒7億円)の資金調達を実施しました。シードラウンドはSpace Capitalがリードし、合計で5つのファンドが株主として参画しました。
Rendered.aiは、顧客が自由に合成データを作成できるプラットフォームを開発しています。シードラウンドの資金調達ニュースによれば、Rendered.aiは「ブラウザのボタンをクリックできる人なら誰でも合成データを生成できる」ノーコードプラットフォームの完成を目指しています。
Rendered.aiの合成データプラットフォームは、現実世界で得ることのできる量が限られている、あるいは、そもそも入手が不可能であるようなデータの生成に使われることが多くなります。例えば、一定期間で打ち上げられる数に限りのある衛星が撮影する画像、患者や症例の数に限りのある医療診断画像などの領域です。
一方で、そういった領域は、Rendered.aiに限らず、合成データを扱うことができる企業にとって等しくチャンスになります。そんな中、Rendered.aiが特に強みを持っているのが「物理学に基づいた合成」であると言われています。例えば、ある対象物に関する画像データセットから特徴量を抽出して合成データを作成するとき、現実に存在しない新たな画像を作ることになるため、物体に対する光の当たり方や物体構造がどうしても不自然になってしまう場合などがあります。Rendered.aiの技術は、合成データを作成するプロセスの中で、合成データが現実世界において存在してもおかしくないような条件をアルゴリズムに組み込んでいる点が特徴になります。
Rendered.aiが顧客ターゲットとするのは、宇宙・医療の他にも、ロボティクス・自動車関連の企業が中心のようです。人間が直接目にしにくいような「高さ」(例えば宇宙空間)、「深さ」(例えば水中ロボット)、「明るさ」(例えば暗い工場の中)、「熱さ」(例えば高温炉の中)などのさまざまな環境下で、「物理学的にも存在していておかしくない」ような合成データを作成する場合に、Rendered.aiのプラットフォームが効果を発揮するのかもしれません。
Gretel.ai
Gretel.aiは、2019年にアメリカで創業されたスタートアップです。創業から2021年11月までに資金調達を3回実施し、累計6,800万ドル(≒75億円)の出資を受けています。
Gretel.aiが提供する合成データサービスは、個人情報データの匿名化、というテーマと深く関連しています。シリーズBラウンドの資金調達ニュースによれば、Gretel.aiは顧客が機械学習モデルの学習に利用する、匿名化された合成データの作成プラットフォームを提供しています。
一般的に、個人情報のように機密性の高いデータを扱う際は、秘匿化・匿名化処理を行う必要があります。
秘匿化はデータの中身を保護する処理のことで、秘匿化の一種として暗号化処理が挙げられます。暗号化とは、元データに対して暗号化処理を行い、別のデータに変換する処理のことです。また、秘匿化されたデータをそのまま機械学習や統計処理のように計算利用することを、秘密計算処理といいます。なお、秘密計算処理もとても興味深いテーマなので、いつか取り上げたいと思います。
一方で、匿名化は個人を特定することができる情報を削除または変更するようなデータ処理になります。2017年の個人情報保護法改正によって、匿名化処理データであれば簡易的な手続きで第三者提供できるようになり、匿名化が普及し始めたと言われています。
国立情報学研究所のレポートでは、個人情報データの匿名性と有用性のジレンマが指摘されています。年々デジタル上に蓄積される個人情報データの量が増加し続け、個人に最適化されたサービスの開発がしやすくなった一方で、単に名前や住所を削除しても、他のデータの組み合わせから個人が特定されてしまうリスクが高まっています。そこで、匿名化技術の1つとして、GANのように、元データから特徴量や統計分布などが類似する合成データを機械学習で作成するというアプローチが現れ始めています。
Gretel.aiが提供しているのは、まさにそういった合成データによる匿名化サービスです。資金調達ニュースによれば、暗号化技術を用いたり、第三者に連絡してデータセットの利用許可をとったりする作業に比べると、Gretel.aiのプラットフォームを利用して合成データを作成する方が、圧倒的に時間を削減できるそうです。
【Gretel.ai、実際に利用してみました。】
実際にGretel.aiのプラットフォームを利用して、合成データの作成フローを体験してみることにしました。個人版であれば無料で利用することができます。
まず、アカウントを作成してログインし、「New Model」というボタンからモデル作成に移ります。データをアップロードすると、それらのデータを学習して合成データの自動作成が開始されます。
(Source: https://gretel.ai/)
今回はできるだけプライバシー性の高いデータで試してみたかったのですが、手元に個人情報が含まれているデータがなかったので、kaggle(データ分析のコンペティションサイト)からCustomer Personality Analysisというコンペのために用意されているデータセットをダウンロードして利用しました。ちなみに、このデータセットはウェブ上で公開されているオープンソースのものなので、特に情報公開の制限がないものとして扱っています。
kaggleからダウンロードしたデータは以下のような形式で、左から【ID】【Year_Birth(生年)】、【Education(最終学歴)】、【Marital_Status(結婚有無)】、【Income(年収)】などの個人情報と、それに続く購買データが約30列近く存在します。
(Source: https://gretel.ai/)
データをアップロードすると、1クリックで学習と合成が開始されます。今回は100 epoch(epochは、機械学習において、1つのデータをモデルに学習させる数)、dropout_rate 20%(dropout_rateは、モデルの学習精度を上げるために、データセットの一部を不活性化させる際の比率)で学習が行われました。こうしたモデルの学習設定は自動で最適化されますが、もちろん利用者がカスタマイズすることも可能です。
データ量がそれほど多くなかったこともあり、データセットのアップロードから合成データ作成完了まで約2分で終了しました。1つの比較手段として、元データと合成データにおいて同じIDのデータを見比べてみることにしました。
ID番号が4487のデータに注目してみました。下の画像のうち、上段が合成データ、下段が元データになります。ID、Year_Birth、Educationまでは同じですが、Marital_Status、Incomeは変わっており、購買データの部分も中身が異なっています。
(Source: 元データと合成データを組み合わせて筆者が作成)
ワンクリックで大量の新しい合成データを作成できる、という点についてはほぼノーストレスでプロセスを体験することができました。
一方、ユーザーが手を加えなければいけない点も見られました。特定のIDにおけるMarital_Statusが空欄になっているなど、元のデータセットに一部欠損があったせいか、合成データの一部が行ズレを起こしてしまいました(ざっと全体の1%程度)。この場合、合成データの空欄部分に平均値を入力したり、データの行自体を削除したり、作成された合成データをクレンジングしてから機械学習モデルに学習させなければなりません。今回私がトライしたケースで特別に生じただけかもしれませんが、ユーザーに全く手をかけない、という体験の方がクールだなと感じました。
AI.Reverie
AI.Reverieは2017年にアメリカで創業されたスタートアップです。2021年10月、Meta(旧Facebook)に買収されました。買収額は非公表です。AI.Reverieが買収されるまでに調達していた資金は約580万ドル(≒6億円)でした。
AI.Reverieは、機械学習モデルに学習させる合成画像・動画を作成するプラットフォームを開発しています。買収について報じた記事には、AI.Reverieと同じく合成データ事業を行うスタートアップのCEOのコメントが次のように掲載されており、合成データが持つポテンシャルを感じることができました。「今回の買収は、膨大なデータを保有しているFacebookのような企業でも、AIのトレーニングに必要なデータ量と収集できる能力にはギャップが存在することを浮き彫りにした。」
AI.Reverieは、軍事・防衛産業で合成データ事業を展開してきました。2019年には弾薬・爆発物・大砲・銃器・ミサイル・刃物などを発見できる武器検知モデルを発表。2020年にはアメリカ空軍から150万ドル(≒2億円)の助成金を受けながら、偵察機の認識技術を訓練するための合成データ開発を実施。さらに、2021年にはアメリカ空軍からAdvanced Battle Management System(先進戦闘管理システム)の開発を受注しました。さまざまなセンサーから取得するデータを用いて、軍事活動における意思決定支援AIを開発するプロジェクトです。
AI.Reverieは、軍事・防衛産業の他にも、小売、農業、不動産などのさまざまな業界に顧客を抱えていると言われていましたが、Metaによる買収後はホームページを閲覧することができなくなり、現在どういった状況なのかを把握することが難しくなりました。ただ、こちらの記事によれば、Metaは買収したAI.Reverieの合成データ技術を、運営する各アプリの改善に活かしていくつもりではないかと言われています。例えば、Facebook上のヘイトスピーチを検出するための合成データ学習、プライバシー性の高いInstagramの写真・動画に代わる合成データ学習などはその一例です。Metaはこれまで個人情報の取り扱いに関して、外部団体やユーザーから訴訟を受けてきており、今後の事業継続性の観点からも合成データ活用が求められていたのではないかと思います。
今回ご紹介した他にも、Tonic.ai(アメリカ、2018年創業)、RealityEngines.AI(アメリカ、2019年創業)、Synthetaic(アメリカ、2019年創業)、Syntho(オランダ、2020年創業)、など海外合成データスタートアップはいくつも存在します。
また、国内でも2021年11月に、データグリッド(日本、2017年創業)がプレシリーズAラウンドで資金調達を実施しており、合成データが少しずつトレンドになりつつあります。
まとめにも近いものになりますが、合成データの必要性が増していく背景としては、大きく2つあると思います。1つは、世界中でますます高まるプライバシー保護の動き。もう1つは、データ量を確保しにくいような産業でも機械学習の利用が進んでいく動きです。
例えば、特に後者のトレンドを捉えた興味深いユースケースでいくと、先ほどご紹介したSynthetaicは、カメラ映像には滅多に映らない絶滅危惧種の生物や、それらを密猟しようとする犯罪者を検知する機械学習モデルの構築に関わっています。どちらも現実世界で収集できるデータ量には限りがありますが、合成データをうまく使うと機械学習の推定精度を上げることができるそうです。
このように、合成データを活かしやすい領域においては、合成データ利用がこれからさらに進んでいくと思います。IDATEN Venturesが関心を持つ製造・建設・物流領域への合成データ利用についてご関心をお持ちの方、あるいは事業展開している方は、ぜひお気軽にご連絡いただければ幸いです。
IDATEN Ventures(イダテンベンチャーズ)について
フィジカル世界とデジタル世界の融合が進む昨今、フィジカル世界を実現させている「ものづくり」あるいは「ものはこび」の進化・変革・サステナビリティを支える技術やサービスに特化したスタートアップ投資を展開しているVCファンドです。
お問い合わせは、こちらからお願いします。
今回の記事のようなIDATENブログの更新をタイムリーにお知りになりたい場合は、下記フォームからぜひ IDATEN Letters に登録をいただければ幸いです。
Comments