NEWS /

/ お知らせ

NEWS / お知らせ

2026.05.14.

お知らせ

Gen-AX 砂金信一郎 × gin 渡邉裕介 対談:ginが対等に音声AIを共創する理由

砂金さん対談Top

gin代表取締役の渡邉裕介が、マイクロソフト、LINE AIカンパニー(現・LINEヤフー株式会社)のCEOとして「りんな」や「LINE CLOVA」を統括し、現在はソフトバンク100%子会社 Gen-AX株式会社 の代表取締役CEOとして生成AI・自律型AI事業の最前線を走る砂金信一郎さんと対談。

ginが独自に掲げる「引き出すAI」の思想や、2社が共に作り上げたコールセンター向け音声AIプロダクト「X-Ghost」の開発裏話、そしてginの自社プロダクト「S.P.A.R.K.」が見据えるパーソナルAIの未来について語り合った。

「ドラえもん」やJ.A.R.V.I.S(映画『アイアンマン』シリーズに登場する超高性能人工知能)のように、人の可能性を拡張するAIを作りたい――。そんな思いで自社プロダクト「S.P.A.R.K.」の開発を進める一方、Gen-AXのコールセンター向け音声AIプロダクト「X-Ghost(クロスゴースト)」の開発に立ち上げ当初から参画し、リリースまでともに開発を支えてきたgin代表取締役の渡邉裕介と、Gen-AX代表取締役CEOの砂金信一郎さんの対談が実現した。ginが掲げる「引き出すAI」の哲学はいかにして生まれ、「X-Ghost」の開発現場でどう実践されたのか。SFアニメ談義から音声AI市場の未来まで、フィクションとリアルを行き来しながら語り合った対談の模様を紹介する。

第 1 章

「答えるAI」ではなく「引き出すAI」を

のび太くんを成長させたドラえもんのように

――ソフトバンクのグループであるGen-AXと、30名規模のスタートアップgin。ginは「X-Ghost」の開発立ち上げ当初から開発チームに参画し、今も最前線で一緒にプロダクトを作り続けていると伺っています。規模も成り立ちも異なる2社がなぜタッグを組んだのか、まずはそれぞれが何を目指しているのかから伺えますか。

砂金信一郎

よく聞かれます(笑)。まず私たちGen-AXのミッションからお話しすると、「自立に自律を融合し、次の”流れ”を生成する」です。世の中には「AIがあれば何でもできる」と考える人が少なくありませんが、私たちはそうした発想とは一線を画しています。「自立」には、現場で自立して業務をされている方々へのリスペクトが込められています。実際の業務は非常に複雑で、そこに「AIで一挙解決」などと考えるのは早計です。だからこそ私たちは、業務の課題をどう改善したらよいかを”自律的”に考えるAIを作ろうとしています。もちろん、いま解決できなくても半年後にはできるようになるかもしれないし、2年後には大抵のことを解決できるかもしれない。そうした技術の進化に真摯に向き合いながら、できないことはきちんとお伝えし、コンサルティングも含めてお客様と伴走するのが私たちのスタンスです。

渡邉裕介

とても共感します。ginは「人の可能性を解き放ち、全ての人がやりたいこと・やるべきことに集中できる社会を創出する」というビジョンを掲げています。日常業務を見渡すと、「これは人がやらなくてもいいのでは?」と思うものが数多くある。例えば、エクセル上のデータを別のツールにコピーする転記作業をしている人は、まだまだ多いですよね。AIを活用することで、そのような作業から人を解放し、人が本来考えるべきこと・決めるべきことに集中できる社会を作りたいんです。

――渡邉さんがそうした考えに至ったきっかけは何だったのでしょうか。

渡邉裕介

子どもの頃からパーソナルAIに憧れていたんです。ドラえもんやJ.A.R.V.I.S(ジャービス)のように、僕のことを理解してくれて、能力を拡張してくれる存在。その思いが原点にあります。ただ、僕たちが作りたいのは「答えるAI」ではなく「引き出すAI」なんです。今のAIは「人間が問い、AIが答える」という構造になっている。でも、ボトルネックは常に人間の側にあります。何を聞けばいいのか分からない人、プロンプトを書くことを途中で諦めてしまう人がいる。それでは人間の可能性は解き放てません。AIの方から語りかけ、問いを投げかけ、ユーザーの意図を引き出す――僕たちが目指しているのはそういうAIです。

――アニメや映画がAIの原体験になっているのですね。

砂金信一郎

よく話すことなのですが、日本ではアニメ作品を通じてAI社会のシミュレーションを何度も繰り返してきた歴史があります。ここに日本人のAI領域における勝ち筋があると考えています。

渡邉裕介

確かに、日本人なら「ドラえもんのあの秘密道具を作りたい」と言えば伝わりますよね。そういうハイコンテキストな発想力を共有できること自体が、実は大きなアドバンテージですね。

砂金信一郎

『攻殻機動隊』も『PSYCHO-PASS』も『電脳コイル』も、物語を通じて、AIが社会をどう変えるのか、そしてそのリスクまでシミュレーションしている。「この技術が登場したらこう悪用する人が出てくる」ということを、学者が真面目に考えるよりずっと手前で、僕らはエンタメとして体験済みなんです。イーロン・マスクもSFの造詣が深いからこそ、一見突拍子もないことをやっているように見えて、実は一貫性がある。

渡邉裕介

まさにそうですね。僕たちエンジニアは、J.A.R.V.I.Sがトニー・スタークの意図を引き出して勝手にスーツを作るシーンを見ると、「この体験は作れる」と感じるんです。反重力エンジンはどうやって作るか分かりませんが(笑)、ユーザーの意図を引き出す体験設計なら、技術的に手が届く範囲にある。あとは作るだけだ、という感覚です。

第 2 章

音声にこだわる理由

思考の速度に追いつくために

――両社が開発に取り組んでいる音声AI市場の現状について、お二人はどのように見ていますか。

砂金信一郎

正直に言うと、音声AI市場はまだできていないというのが私の認識です。何をもって「音声AI」とするかの定義すら決まっていない。これまでも音声認識し、LLM処理後に音声合成で返すことはできていましたが、それを「音声AI」と言ってよいのかは疑問です。ただ、OpenAIのRealtime APIなど、音声信号を直接処理するネイティブな技術が実用段階に入ったのは本当にここ最近のことです。これによってginと一緒に作っているプロダクトの応答速度も格段に上がりました。

渡邉裕介

レイテンシー(ユーザーが話し終えてからAIの応答がユーザーの耳に届くまでの時間)はある程度解決できてきているのですが、割り込みの制御(VAD誤検知の制御や、割り込み時の文脈同期)や音声とテキストの変換精度にはまだ改善の余地があります。 ただ、僕が一番物足りなく感じているのは、AIが会話に「割り込んで」くれないことなんです。

――割り込みですか?

渡邉裕介

はい。今の音声AIは、人間が話しかけるとAIが答えてくれる。でもそれでは「会話」とは言えないんです。人間が「うーん」と考えているときに、「それって、こういうことですか?」とAIから問いかけてくれる。あるいは「今こういうことを考えていますよね。この議論をもう少し掘り下げて、タスク化しましょうか」と提案してくれる。そういう体験を作るためには、ユーザーの意図を取り出すためにAIが割り込むべき区間を検出して、適切なタイミングで適切な応答を返す能力が必要なんです。

砂金信一郎

なるほど、AIから割り込むか。

渡邉裕介

ここで音声が決定的に重要になります。キーボードで入力する速度は、人間の思考速度の5分の1くらいしかない。テキストベースのやり取りでは、僕の意図の大部分がこぼれ落ちてしまうんです。音声で高密度にターンを繰り返すことで、初めてAIが僕の意図を引き出せるようになる。人間からのタスク指示がないとAIが動かないままだと、これからのAI時代、人間がボトルネックになってしまいます。AIが適切なタイミングでこちらの考えを引き出し、それをタスクに落としてくれれば、人間一人の生産性は爆発的に向上する。僕たちが目指しているのはそういう世界です。

砂金信一郎

究極は脳波センシングかもしれないね。言葉にするよりもっと手前で、考えていることがダイレクトに伝わるような。

渡邉裕介

そうですね、脳波は次のフェーズだと思います。ただ、脳波のような生体信号と、頭の中で言語化される思考は必ずしも同じではないかもしれません。だからこそまずは音声で、思考に近い速度の対話体験を実現したい。それがginの核心です。

第 3 章

「正解が判定できる」フィールドから始める

「X-Ghost」の戦略

Figure 02
X-Ghostのプロダクトロゴ、UI、または利用シーン

推奨:プロダクト画面のスクリーンショット、もしくはロゴビジュアル

――ここからは、2024年秋から開発が進み2025年11月に製品発表された音声AIプロダクト「X-Ghost(クロスゴースト)」について伺います。どのようなプロダクトなのでしょうか。

砂金信一郎

ひと言で言えば、コールセンター業務の大半を音声AIが担えるプロダクトです。ただし、オペレーターの仕事をAIが完全に奪うものではありません。例えば10分の通話があるとして、前半7分はAIが対応し、最後の3分は人間のオペレーターが引き継ぐ。時間換算で70%の業務効率化が実現しつつ、複雑な案件は人間が対応する。全オペレーターの役割が一段上がって「スーパーバイザー」になるイメージです。

――なぜコールセンターに注力されているのですか。

砂金信一郎

対話型AIを適用するうえで、「正解が判定できるかどうか」が非常に重要だからです。コールセンター業務はKPIがきちんと設計されていて、どの対話がよかったのか、悪かったのかを日常業務の中で評価できる。特に金融業界のコールセンターは、保険の特約の案内一つとっても、オペレーターによって案内が異なることは許されません。業務が非常に構造化されているので、AIにとって学習しやすいフィールドなんです。加えて、コールセンターはそもそも人が採用できていないという課題がある。募集人数に対して充足できていないから、AIがその穴を埋めるという文脈なので、「人の仕事を奪う」のではなく、「足りない人手を補う」形になる。これは導入の土壌として非常にポジティブです。

渡邉裕介

そのうえ、AIなら24時間365日対応できる。さらに、モデルが対応可能な言語であれば多言語対応も可能です。人間のコミュニケーターでは語学学習のハードルがありますが、AIはその壁を越えてくるので、今までとは全く違う価値提供になりますよね。

――「X-Ghost」のゴーストには、攻殻機動隊の「ゴースト」との関連はありますか?

砂金信一郎

名言はしません(笑)。ただ、ゴーストという言葉を選んだのは、機械やデータの塊ではなく、人格や意志を持っている状態を表現したかったからです。英単語としてスピリットやゴーストは「魂」「精神」という意味で使われますし、ゴーストが宿った機械がどんなことを実現できるのか、これから社会的に認知が広がっていくのではないかと考えています。

第 4 章

ginが開発チームにもたらしたもの

――ginとのパートナーシップはどのように始まったのですか。また、「X-Ghost」の開発において、Gen-AXとginの役割はどのように分かれていたのでしょうか。

渡邉裕介

明確に役割が分かれているというより、同じチームとして動いていました。

砂金信一郎

発注側と受注側ではなく、共にプロダクトを作る仲間として一緒に開発してきました。ginに期待したのは、スタートアップならではの瞬発力です。経験あるエンジニアは失敗確率の少ない選択をする。それは間違いではないけれど、それだけではプロダクト開発が硬直化するリスクがある。ginのメンバーには、チーム内の固まりかけた議論や姿勢を、若さと勢いで打ち破ってほしかった(笑)。

渡邉裕介

ありがたい評価です。僕たちは「いいからとにかく作ってみよう」というスタイルなんです。要件定義書がなくても、ざっくりしたオリエンだけでプロトタイプをさっと作って「これでイメージ合っていますか」と確認する。ダメなら作り直す。その阿吽の呼吸が最初からできたのは、お互いにとってよかったと思います。

砂金信一郎

それはすごく実感しています。もう一つ印象的だったのは、私たちが作っているのは対話するアプリケーションなので、極論、画面は要らないんです。でも開発初期に、AIが今どんな処理をしようとしていて、どの段階まで進行しているかを可視化する画面を渡邉さんが先回りして作ってきた。こちらが依頼する前に「開発を最適化していく上で、音声だけだと議論しづらいから」と。そういう気の利き方は、単に技術力があるだけでは出てこないですよね。

渡邉裕介

僕たちは「実際に作って、目で見て確かめないと気が済まない」タイプなんです。ある機能がうまく動いているかどうか、よいのか悪いのかを全探索しようとする。自然とそういう行動になってしまいます(笑)。

砂金信一郎

思いつく人は多いけど、実際に手を動かしてやるかどうかは別の話。渡邉さんたちは、防衛大学校・自衛隊の出身者が多いから、胆力がある。どれだけ困難なミッションを前にしても逃げない、という訓練を受けてきた強さを感じます。

渡邉裕介

自衛隊出身者が多いこともあって、「どの戦場でも何かを持って帰る」ことを大事にしています。難しい課題を前にしても逃げずに突っ込んで、少なくとも一つは知見を得て帰る。その積み重ねが、ginの開発力の土台になっています。日本を強くしたいという思いも根底にあるので、AIを使って日本人の能力を拡張することが僕たちの使命だと考えています。

Figure 03
Gen-AX × gin の合同開発チーム、開発現場、ホワイトボード議論シーン

推奨:チームの様子が伝わる横長写真

第 5 章

音声AI開発の最前線

「聞かないと分からない」というハードル

――開発で特に大変だったことは何ですか。

渡邉裕介

品質評価ですね。音声AIは最終的に「聞いて」確認しなければならない。20分の通話なら20分間聞かないと評価できないんです。しかもエンジニアは本能的に聞きたがらない(笑)。社内でプロンプト改善コンテストを開催して、よいプロンプトを書いた人に賞金を出すなど、メンバーを巻き込む工夫も重ねました。品質を体系的にKPI化して評価する仕組みを作ることが、音声AIならではの挑戦でしたね。

砂金信一郎

しかも「プロンプト」という中途半端な存在がいろいろ悪さをしていて。C++のようにコンパイル時に矛盾が全部弾かれるなら混乱は起きないんだけど、プロンプトは素人が適当に書いても、まぐれ当たりで動いてしまうことがある。それで「動いた」と思って少し変更すると壊れる。実は前の段階から奇跡的に動いていただけで、最後のひと押しがとどめを刺しただけ、ということが多い。

渡邉裕介

さらに僕たちが使っているOpenAIのモデルは2ヶ月に1回程度の大きな更新があって、追従するだけでも大変です。テキストのLLMと違って、音声特有のパラメーターがたくさんあるので、それを制御するエンジニアの負荷も大きい。音声AIの開発は、テキストAIとは根本的に違う難しさがあります。

砂金信一郎

でもね、そういう困難に直面したときにginのチームは敵前逃亡しないんですよ。多少の障害は「どう倒すか」にすぐシフトする。加えて、私たちプロパーのメンバーがどうしても慎重な選択に偏りがちなところに、ginがアジャイルに物事を動かしてくれる。AI開発ツールの進化もあって、異なる実装をマージするような作業も効率化できるようになったし、お互いの強みが噛み合っている感覚はありますね。

第 6 章

ginの自社プロダクト「S.P.A.R.K.」

「待つAI」から「引き出すAI」へ

Figure 04
S.P.A.R.K. のロゴ、UI、または「引き出すAI」を表現するキービジュアル

推奨:プロダクトのスクリーンショット、もしくはコンセプト図

――ginでは独自プロダクト「S.P.A.R.K.」も開発されていると伺いました。「X-Ghost」との関係を教えてください。

渡邉裕介

「S.P.A.R.K.」は、ginが独自に開発している「目的駆動型対話AIプラットフォーム」です。ginの根幹思想である「待つAIではなく引き出すAI」を体現するプロダクトで、音声対話を通じてユーザーの言語化されていない意図を能動的に引き出し、AIエージェントがタスクとして実行可能な形に変換します。「X-Ghost」とは現時点では別のプロダクトですが、将来的には合流するビジョンを持っています。「X-Ghost」の開発で得た「構造化された環境での対話品質の作り込み」のノウハウは、「S.P.A.R.K.」の進化に確実にフィードバックされています。

砂金信一郎

渡邉さんたちが「引き出すAI」という方向性を独自に持っていて、それをブレずに追求しているのは、一緒に仕事をしていて非常に頼もしいですね。パーソナルエージェントの市場が本格化するのはもう少し先だと思いますが、そのときに「おせっかいかもしれないけど、こういうことも大事なんじゃない?」と語りかけてくるAIのユーザー体験を研ぎ澄ませてきた蓄積は、大きな差別化要因になると思います。

渡邉裕介

僕たちは先駆者でありたいと思っています。「S.P.A.R.K.」では現在、自動車ディーラーやAI教育の分野でPoCを進めていますが、コールセンターに限らず、コミュニケーションの根幹に関わる領域すべてが対象です。ジャーナリング、コーチング、1on1――人の意図を引き出すという機能は、あらゆる場面で価値を発揮できると考えています。

第 7 章

日本品質を世界へ

音声AIが溶かす、地球上のフリクション

――音声AIが社会に浸透した先には、どんな未来がありますか。

砂金信一郎

日本のオペレーショナルエクセレンスは世界的にも高く評価されていますが、音声AIによってそれをグローバルに展開できるようになると思います。新幹線の7分折り返し清掃に代表されるように、日本人の業務品質は異次元なんです。例えば、日本で宅急便が届かなかったり箱が潰れていたりしたら、ヤマトや佐川が丁寧に対応してくれますよね。海外に住んだことがある方なら分かると思いますが、あの品質は当たり前ではないんです。音声AIで多言語対応が可能になれば、コールセンターの運営自体は日本で行いながら、世界中にその品質を届けられる。地球規模でコミュニケーションの摩擦が溶けていくような未来は、十分に実現可能だと思います。

渡邉裕介

顧客体験も根本から変わりますよね。

砂金信一郎

そうですね。現在は対応コストが高いので、企業はFAQページの一番下に電話番号を隠して、できるだけ自己解決を促している。でもAIでコストが下がれば、問い合わせ窓口が「何でも気軽に相談できる接点」に変わる。しかもテキスト検索と違って、会話はインタラクティブなので、お客さんが本当は何をしたかったのかを声のトーンも含めてリッチに把握できる。これはマーケティング上、計り知れない価値があります。

――来るべき音声AI社会に、企業経営者はどう備えるべきでしょうか。

砂金信一郎

日本を代表するある経営者が、かつて「どうせ人間だって60点だろう。AIが62点だったら経営者としてAIを使う」と言っていたことがあります。まさにその通りで、完璧に動くシステムを求めるのではなく、人間よりもコスパがよく顧客満足度が高いものを選ぶという、ごく当たり前の物差しを経営者は持つべきだと思います。人間が対応しても100%正確なわけではない。一方で、AIにはエラーが一切あってはならないと考えるのは、過剰な品質幻想です。この幻想が、無駄なIT投資や過剰品質を生み出している面がある。大切なのは、IT投資のROIという狭い視点ではなく、組織横断で顧客接点のあり方を再設計すること。そこまで見据えられている経営者は、残念ながらまだ多くはないと感じています。

渡邉裕介

僕は、企業の皆さんに音声AIで失敗してほしくないんです。現在は過渡期で、音声AIの効果がよく分からないという空気感もあります。闇雲に導入して失敗すると、音声AI全体のイメージが傷つきかねない。まず大切なのは、音声AIに置き換えるべき領域と、置き換えてはいけないセンシティブな領域をきちんと見極めること。営業担当者が心を通わせて行う営業体験はそのまま維持しつつ、商談前のデータ収集や情報整理はAIに任せる――その見極めをKPI設計とセットで行うことが重要です。そうすることで、人間が本当にやるべきことだけに集中できる社会が実現できると信じています。

第 8 章

今後のアライアンスと、お互いへの期待

――最後に、今後の協業の方向性と、お互いへの期待をお聞かせください。

砂金信一郎

ginには今後も一緒にやっていきたいと思っています。期待しているのは、新しい人材の加入ですかね。ginのユニークな人材をもっと欲しい。できれば人間がいいです(笑)。AIは工業製品で量産型だから差別化要因になりにくい。一方、人間は20数年生きてきた中で培われた個性や特異な能力がある。それはすぐにはAIに真似できない。何か必殺技を持った人が集まってくれると、結果として我々もその恩恵にあずかれます。

渡邉裕介

優秀でユニークな人間のストックはいます(笑)。僕たちは常々「ユニークであること勝つための重要な要素である」と考えていて、他の人がやらないやり方で、日本を強くするための起爆剤になりたいんです。一方で、Gen-AXさんの隣で仕事をご一緒する中で、営業戦略や横展開の思想、広報のやり方まで、本当に学びが深いですね。僕たちの自社プロダクト「S.P.A.R.K.」も、どこかで「X-Ghost」の世界と交わるところが来ると想像しながら進めています。その合流点に向けて、技術とビジネスの両面で力をつけていきたいと思っています。

Figure 05
渡邉氏と砂金氏のツーショット、握手、または対談を象徴するカット

推奨:縦長または横長のツーショット写真

※「ChatGPT」は、OpenAI OpCo, LLCの商標です。

※「X-Ghost」は、Gen-AX株式会社の商標です。

※「S.P.A.R.K.」は、株式会社ginの開発するプロダクトです。

※文中に記載されている会社名、製品名などは、各社の商標または登録商標です。

INFO

/ CONTACT /

共同研究・委託開発のご依頼・ご相談、
その他ご不明な点がございましたらお気軽に
お問い合わせください。