会議コミュニケーションを支援するリアルタイムエージェントシステム
- #データ/AI活用
- #LLM
高島 瑛彦 (たかしま あきひこ)
川口 貴子 (かわぐち たかこ)
山縣 将貴 (やまがた まさき)
福本 拓也 (ふくもと たくや)
サービスイノベーション部
あらまし
企業活動において会議の効率や議論の質向上が重要課題となる中ドコモは,AIエージェントが会議に直接参加し,人間と協調する会議支援エージェントシステムを開発した.本システムは,会議状況のリアルタイム把握,高度な音声コミュニケーション機能,個性や役割,社内の専門知識をもったAIエージェントや特定個人の代理エージェントを主な特徴とする.これにより会議そのものの活性化や迅速な意思決定,生産性向上などの効果を実現する.
01.まえがき
近年,企業や組織における業務プロセスの高度化・複雑化に伴い,会議の効率化や質的向上へのニーズがますます高まっている.リモート会議の普及,資料や情報の多様化,意思決定のスピード感向上などが求められる一方で,会議にはいまだに「議論の活性化が難しい」「過去の議論や資料を十分に活用できていない」「専門的な知識が効果的に共有されない」「参加者による発言や視点が限られがち」など,さまざまな課題が残されていた.特に,会議の場で資料やデータベース,過去の議論など,膨大かつ多種多様な情報をリアルタイムに有効活用し,参加者全員がより深く納得できる意思決定を導くことは非常に困難であった.
従来の会議DX(Digital Transformation)*1ツールやAI議事録作成サービスは,発言内容の記録・自動要約など業務の省力化を実現してきたが,これらは主として「記録」や「情報整理」の機能に特化しており,会議そのものを能動的に支援し,議論や意思決定のプロセスを促進することは難しかった.また,資料や社内データと会議中の発言を連携・参照させながら,議論そのものをより多角化・深化させるような機能は十分に実現されていなかった.こうした課題を解決し,会議をより本質的に支援するため,人間とシームレスに会話ができ,会議シーンに特化した知的な機能をもつシステムが求められている.
このような背景のもと,ドコモは従来型の記録・整理ツールを超える,新たな「会議支援エージェントシステム」を開発した.本システムは,人間同様の多角的なコミュニケーション能力や思考能力・情報収集能力を備えているAIエージェント*2(以下,エージェント)を用いて,会議参加者の発言や投影資料をリアルタイムで解析し,議論や意思決定そのものを支援することが可能となっている.具体的には,会議発言の音声認識と投影資料の分析による会議状況のリアルタイム把握技術,エージェントの発言タイミングの判定や人間の割込みに柔軟に対応する高度な音声コミュニケーション技術,会議中の振舞いの仕方を個性や役割としてエージェントに付与する技術や,社内の資料や過去の会議データから知識を自律的に取得して議論に反映する技術,さらには,特定個人の知識・観点のデータを抽出・反映した代理エージェントを構築する技術など,複数技術を組み合わせた先進的な機能を有している.
会議支援エージェントシステムの導入により,会議運営の効率や議論の創造性が飛躍的に高まり,意思決定の迅速化・業務全体の生産性向上に貢献できるものと考えられる.
本稿では,本システムの技術的な特徴と具体的な価値について解説する.
- DX:ITを活用してサービスやビジネスモデルを変革させ,事業を促進するとともに人々の生活をあらゆる面で良い方向に変化させること.
- AIエージェント:ユーザの指示や状況を理解し,自律的に複雑なタスクを実行できる人工知能のこと.
02.会議支援エージェントシステムの概要
本システムは,人間と同じようなコミュニケーション能力,発言や思考,情報収集の能力を備え,会議に参加して議論や意思決定の支援を行う機能をもつ.本システムの特徴は,以下の3つの独自技術に集約される(図1).
・第1は,会議状況の把握技術である.これにより,会議参加者の発言や投影資料をリアルタイムで理解・分析し,会議の流れや意図を把握する機能を実現する.本機能では,ドコモが開発した「マルチモーダル*3DX基盤」を活用している.
・第2は,エージェントが人間と自然な音声コミュニケーションを行うための発言タイミングを判定する技術である.エージェントが自身の発言タイミングを的確に判断し,また人間の割込みにも柔軟に応答できる機能を備える.
・第3は,会議内容に応じてエージェントが発言内容を生成する技術である.多角的な視点やさまざまな役割をもたせたエージェントによる議論,さらには会議固有の専門知識の取得や特定個人の思考に基づく代理発言も可能とする.
これらの技術や機能が有機的に結合することで,会議参加者は従来どおりに会議をするだけで,エージェントがさまざまな支援を自律実行してくれる(図2).例えば,投影資料の内容や会話の文脈を理解し,最適な意見を述べるような動作や,会議参加者が必要とする社内の情報を自律的に集め,整理して提示するような動作や,特定の個人の知識や観点をもってディスカッションや資料レビューをするような動作が実現できる.このように人間とエージェントが協働することで,会議の生産性や創造性の向上が期待できる.
以降で,これら構成技術について詳述する.
- マルチモーダル:複数の種類の情報を掛け合わせること.ここでは,音声データや画像データなどの複数のメディアデータを入力情報として扱うことを指す.
03. 会議のリアルタイム状況把握
会議では,通常,音声によるやり取りと資料投影の双方が同時に行われ,これら複数の情報(マルチモーダル情報)が密接に関係している.本システムでは「マルチモーダルDX基盤」を用いることで,会議参加者の音声および投影資料の映像を同時に解析できる(図3).
取得した音声は,人の声の強調,音声認識,話者の識別,特定用語の置換などの音声認識技術を用いた処理を経て,リアルタイムで書起し文にする.資料映像については,図表や文章を視覚言語モデル*4で解析し,資料の内容をテキストで説明できるようにする.これにより,エージェントは会議中の「今,誰が,何について話しているか」を理解できる.さらに補助情報として,参加者の表情や動作など非言語的な情報も同時に解析し,会議の雰囲気や活発さまでも把握することができる.
こうして取得した情報は統合され,「会議状況データ」として1つの会議セッションごとに時系列でデータベースに蓄積される.データベースには発言時刻,会議参加者ID,発言内容の書起し文,投影資料内容などが記録され,エージェントはその内容を参照することで会議の流れを的確に理解し,柔軟な応対が可能となる.
マルチモーダルDX基盤の詳細については,本特集別記事を参照されたい[1].
- 視覚言語モデル:大量のテキストデータと画像データで学習させた,高度な自然言語処理と画像分析などが可能なモデルのこと.
04. 発言トリガー機構―人間らしい音声コミュニケーション―
本システムの「発言トリガー機構」は,エージェントが会議の状況と自身の役割を踏まえて自律的に発言タイミングを判断できる点が大きな特長である(図4).これにより,手動や固定ルールでエージェントを制御することなく,自然な発言を実現する.
具体的には,会議状況データベースでの累積データと,エージェントの発言傾向を示すデータを合わせて,大規模言語モデル(LLM:Large Language Model)*5に入力し,「今,発言すべきか否か」を即時に判定する.この発言傾向データは,例えば「新しい視点で意見を述べる」「まとめ役で発言をする」といった個性や役割を特徴量として個別に特徴付けることで,エージェントごとに異なる発言タイミングを生み出せる.
加えて,無音が続く時間や,会話内容の進み具合から「議論の停滞」の検知も行う.これにより後述する「発言生成機構」で会議参加者の議論が停滞したときに,エージェントが議論を活性化させるような動作が可能となる.
また,自然な会議進行を実現するために全二重通信方式*6を採用している.これにより,エージェントが発言中であっても,会議参加者の割込み発言があればそれを検知し,その内容に応じて発言の中断,補足,話題転換など柔軟に対応することができる(図5).例えば参加者の「ちょっと話したいんだけど」という割込みには,発言を即座に終了したり,「それはどういうこと?」という割込みには補足説明で応じたり,「話題を変えてほしい」という指示には議論の方向性を変更したりするなど,人間同士が行うような滑らかな割込み時のやり取りを再現している.
- 大規模言語モデル(LLM):大量のテキストデータで学習させた,高度な文書生成や理解が可能な自然言語(*11参照)処理のモデルのこと.
- 全二重通信方式:データをやり取りする両者が同時にデータの送受信が可能な通信方式のこと.ここでは人間とエージェントが同時に話し,聞くことができることを指す.
05. 発言生成機構―会議シーンに特化した発言生成―
5.1 概 要
発言トリガーが作動し「発言すべき」と判断された場合,次に「発言生成機構」が動作する.本機構ではLLMを用い,エージェントの個性や役割に適した発言文を生成し,音声合成技術でリアルタイムに発言する(図6).
発言生成機構は,会議状況データベースの情報に加え,エージェントごとの個性データ(例:「ビッグファイブ性格特性*7」「価値観」「話し方」など)と役割データ(例:「賛成意見の提示」「新規提案」「詳細な分析」など)を組み合わせた情報も発言生成機構のLLMに入力することで,その時々の文脈や参加者の反応に合った多様な発言を生成できる.さらに,異なる個性と役割を同時にもった複数のエージェントを登場させることで,エージェント同士が議論をすることもでき,議論の多角化や深化が期待できる.
会議が停滞した場合(発言が途切れる,議論が進まないなど)にも,本システムはその状況を判断し,エージェントが主体的に話題を提起し,また議論の継続を促す仕組みを備えている.これにより会議の活性化や途中での沈黙を減らし,円滑な合意形成に寄与する.
また,発言生成機構では後述する社内知識取得技術と連動し,社内知識を踏まえた応答もすることができる.
5.2 社内知識の自動取得
発言生成機構で発言を生成する際に,必要に応じて社内知識の獲得を行う「社内知識取得技術」が動作する.社内知識取得技術では,過去の会議データや社内資料から,会議における前提知識や背景情報,さらには会議参加者が知らないドメイン知識*8(専門用語や社内固有の情報など)の自動検索・獲得が行われる(図7).
会議は,定例会議など前回の議論を引き継ぐケースが多いため,エージェントは前回の決定事項などの背景情報を理解する際に,過去の会議データを参照する.過去の会議データには,例えば過去の会議音声からの書起し文や,本システムを使用するたびに蓄積される会議状況データベースのデータがある.また,ドキュメントやスライド,シートなどさまざまな形式の社内資料も参照できる.
これらのデータの参照方法として,資料内の文章を埋込みベクトルデータでデータベースに格納しRAG(Retrieval-Augmented Generation)*9による検索回答を行うパターンに加えて,市中のクラウドストレージの検索機能を活用したパターンも実装している.これらの情報検索機能では,MCP(Model Context Protocol)*10を活用し,LLMが情報を検索・参照しやすい実装方式を採用している.これらの仕組みにより,社内のデータ資産をそのまま活用できる.
エージェントは発言生成時に,不足している社内知識があれば,過去の会議データや広範な社内資料から自律的に該当情報を検索,取得し,その知識を獲得する.例えば,議論に登場する社内の専門用語に関する知識や,「A部門のBプロジェクトの進捗」などの未知情報も,資料を自動探索し要約することで,回答可能となる.これにより,参加者自身でも把握できていない最新情報を踏まえた発言や助言を行い,会議全体の情報価値を向上できる.
5.3 代理エージェント
さらには,特定個人の過去の発言傾向・知識・観点のデータを抽出し,それらを反映した「代理エージェント」として発言させることもできる.
特定個人のデータの抽出のために,蓄積された過去の会議の録音データを書起し文にし,LLMに入力させる.これにより,自然言語*11で記載された柔軟で具体的な個性データを取り出すことができる.これを前述の個性・役割データに反映することで特定個人の観点をもった代理エージェントを構築できる.
これにより,特定個人がその場にいなくてもその人物を代替したエージェントとの対話や議論が行え,多様な意見や知見を引き出す新たな会議スタイルが実現する.
- ビッグファイブ性格特性:外向性,協調性,誠実性,神経症的傾向,開放性の5つの観点から個人の性格をとらえる心理学の尺度のこと.
- ドメイン知識:対象としている業界や事業についての知識や知見,トレンドなどの情報.
- RAG:LLMが外部のデータを参照し回答する技術である検索拡張生成のこと.
- MCP:LLMを活用したアプリケーションに追加機能をもたせるための標準化された通信規格のこと.
- 自然言語:日本語や英語などの言語のことで,本稿では主に文章などのテキストを指す.
06. あとがき
本稿では,会議支援エージェントシステムの構成技術とその特徴について解説した.本システムは,会議そのものにエージェントが協調的に参加し,人間とともに議論や意思決定を進めることを可能とする技術である.これにより会議の効率や質の大幅な向上,さらには業務全体の生産性と創造性の向上,意思決定の迅速化という具体的な効果が期待できる.今後は,社内外での実証を通じて有効性を検証し,ドコモの先進技術による業務プロセスの変革に貢献していく所存である.
文献
- [1] 加藤,ほか:“AIエージェントの実現を支えるマルチモーダルDX基盤,”本誌,Vol.33,No.4,Jan. 2026.https://www.docomo.ne.jp/corporate/technology/rd/technical_journal/bn/vol33_4/004.html