社内用語に強い音声認識を活用した高精度・即時議事録作成支援ツール
- #データ/AI活用
- #LLM
斉藤 優樹(さいとう ゆうき)
加藤 拓(かとう たく)
山縣 将貴(やまがた まさき)
サービスイノベーション部
あらまし
リモートワークや多拠点会議の増加により,会議の効率化と記録の正確性が求められている.記録においては,従来は手作業による作成が主流であり,担当者の時間的負担,精度の不安定性,共有の遅延が課題であった.ドコモが開発した議事録作成支援ツールは,音声認識技術とAIを組み合わせ,社内用語対応モデルと大規模言語モデル(LLM)を活用することで,発言内容の自動要約や話者分離を実現した.これにより,会議後に高精度な議事録を即時生成でき,意思決定の迅速化と業務効率の大幅な向上が可能となる.
01.まえがき
企業活動において会議は意思決定の重要な場であり,その内容を正確にかつ迅速に記録し,関係者間で共有することはプロジェクトの円滑な遂行に不可欠である.従来の議事録作成は,多くの場合,会議終了後に議事録を作成する担当者がICレコーダの音声記録や個人のメモを基に手作業でまとめる方式が主流であった.一部の重要会議では専任の書記が配置されるケースも存在するが,いずれの場合も以下の課題が顕在化している.
・時間的負担:人手による記録と要約作業は,実際の会議時間と同等,あるいはそれ以上の時間を要することがまれではない.これは担当者の本来業務を圧迫し,長時間労働の一因ともなり得る.
・精度の不安定性:担当者のスキルや理解度に依存するため,発言者の特定ミスや専門用語の誤記,重要ポイントの抜け漏れが発生しやすい.特に,参加者が多い会議や議論が錯綜する場面では,正確な記録が困難となる.
・共有の遅延:議事録完成までに数日を要することも珍しくなく,これが意思決定や次なるアクションへの着手を遅らせ,ビジネスのスピードを阻害する要因となっている.
近年,働き方改革や新型コロナウイルス感染症(COVID-19)の影響により,リモートワークやハイブリッド会議が普及した.これに伴い,議事録作成は「会議後のまとめ」だけでなく,「会議後の即時的な議事録生成・共有」や「オンライン会議ツールとのシームレスな連携」も要求されるようになってきている.しかし,従来の人手作業や市販ツールでは,社内用語への対応やセキュリティ要件,またはマルチモーダル*1な情報(音声,映像,資料)の総合的な扱いに技術的な限界が存在していた.
そこでドコモでは,社内基盤として構築された「マルチモーダルDX(Digital Transformation)*2基盤[1]」および「LLM(Large Language Model)付加価値基盤*3[2]」を活用し,音声認識技術とAIを組み合わせることで,これらの課題を抜本的に解決する「議事録作成支援ツール」を開発した.本ツールは,特に,社内用語を学習した高精度な音声認識モデルの採用,事前資料の投入による文脈理解の精度向上,会議中のリアルタイム処理,多様な入力形式への対応が特長である.さらには,「発言録機能」により「誰が・何を発言したか」を構造化し,タイムスタンプ*4付与などを通じて,議事録の可読性を高めるとともに,発言者と発言内容を正確に対応づけることで,決定事項や提案の出所を明確にすることも本ツールの特長といえる.本ツールの開発と導入により,議事録作成プロセスを自動化・効率化し,企業のDXを加速させる.
本稿では,本ツールのシステム概要と主要機能を示し,実運用を通じて得られた技術的特長と業務領域における有効性について述べる.
- マルチモーダル:複数の種類の情報を掛け合わせること.ここでは,音声データや画像データなどの複数のメディアデータを入力情報として扱うことを指す.
- DX:IT技術を活用してサービスやビジネスモデルを変革させ,事業を促進するとともに人々の生活をあらゆる面で良い方向に変化させること.
- LLM付加価値基盤:ドコモにおいて,業務効率化や新規事業創出を目的とした,LLM活用のための基盤.
- タイムスタンプ:時刻を示す情報.
02. 議事録作成支援ツールのシステム概要
本ツールは,音声認識技術とAIを組み合わせることで,会議内容を自動的に要約・整理する議事録作成支援システムである.従来の議事録作成は,音声記録やメモを基に手作業でまとめる方式が主流であり,担当者の時間的負担や精度の不安定性,共有の遅延といった課題を抱えていた.これらを解決するため,本ツールは音声認識モデルとドコモで利用可能な「LLM付加価値基盤」におけるLLMを統合し,会議音声や関連資料を解析することで高精度な要約を生成する.
システムは,Webブラウザを介して利用可能なSaaS(Software as a Service)*5型アプリケーションとして提供されており,バックエンド*6では音声処理を行うシステムと自然言語処理(NLP:Natural Language Processing)*7を行うシステムが連携して動作する.
2.1 システム構成と基盤技術
システムの中核となるのは,ドコモが開発・運用する「マルチモーダルDX基盤」と「LLM付加価値基盤」である(図1).マルチモーダルDX基盤は,入力された音声データに対して,音声認識(Speech-to-Text),話者分離*8を行う.本基盤には,特定の業務や組織に依存せず,一般的な日本語音声を幅広い利用シーンで認識できることを前提に設計された汎用的なモデルに加え,社内の組織名やプロジェクト名,専門用語を学習させた専用の音声認識モデルが採用されており,一般的なツールと比較して社内会議における認識精度が飛躍的に向上している.一方,LLM付加価値基盤は,音声認識によってテキスト化されたデータに対し,LLMを用いて要約,校正,構造化を行う.
2.2 多様な入力データへの対応
本ツールは,複数の入力形式に対応するなど,利用環境に依存しない柔軟性を確保している.
・ファイルアップロード入力:ICレコーダやスマートフォンなどで録音した,音声ファイル(mp3,wav,m4aなど)や動画ファイル(mp4)を入力できる.1ファイル当り最大1GB,再生時間300分まで可能であり,長時間の会議にも対応する.アップロード処理では,会議音声を効率的に解析することで,会議時間が長いケースであっても実用的な時間内に議事録を生成できる.
・リアルタイム音声入力:PCのマイク入力,またはWebブラウザ上のシステム音声(他タブで開いているWeb会議ツールの音声)をリアルタイムで取得し,会議進行中に逐次テキスト化と要約を行う.これにより,Microsoft TeamsやZoom,Google Meetなど,利用するWeb会議ツールを問わずに利用可能である.
・テキスト/トランスクリプト入力:すでにテキスト化された議事メモや,Teamsなどの他ツールが出力したトランスクリプトファイル(VTT(Video Text Track)形式)を入力ソースとして利用することもできる.
- SaaS:ソフトウェアをネットワーク経由でサービスとして提供・利用する形態.
- バックエンド:GUIを動作させるためのシステム部分.主にエンジンおよびエンジンとGUIの動作を繋ぐシステム部分のこと.
- 自然言語処理(NLP):人間が日常的に使っている言語(自然言語)をコンピュータに処理させる技術.
- 話者分離(Speaker Diarization):会話や音声データから複数の話者を識別し,それぞれの発話を分けて整理する技術.
03. 主要機能と技術的特長
以下では,単なる文字起しツールとは一線を画す,本ツール独自の機能と技術的特長について解説する.
3.1 LLMを用いた高精度な要約生成
本ツールでは,以下の要約生成が可能である.
・ざっくり要約:会議全体の概要を数行で提示する.例えば「本日の会議では,製品Aの販売戦略と新機能追加について議論し,次回までに試作案を検討することを決定」といった簡潔な要約を自動生成する.
・議題別要約(シーン推定):議題単位で要約を生成する.
ただし,音声認識結果をそのまま要約するだけでは,文脈の欠落や重要度の誤認が発生する場合がある.議題別要約にあたっては,発言内容をセマンティック解析*9し,議題単位で要約を生成する方式を採用した.シーン推定にはLLMを用いたプロンプト最適化*10を採用し,従来の単語頻度ベース手法に比べ精度を向上させた.
さらに,資料読取りによる精度向上を図った.具体的には,事前にアップロードされた会議資料(PDF,PowerPointなど)からテキストを抽出し,要約生成に統合する方式を採用した.例えば,議題資料に「背景」「目的」「提案内容」が記載されている場合,音声認識結果と組み合わせることで,当該の記載に相当する発言があった箇所に着目させるようにした.これにより,音声認識結果と資料内容を文脈的に対応付けることが可能となり,議題の文脈を補強しながら,要約精度の向上に寄与する本文テキストを優先的に抽出できる.
3.2 発言録機能
発言録は,会議における「誰が・何を発言したか」を正確に記録し,時系列で整理することを目的としている.従来の議事録作成では,発言者の特定や発言内容の抜粋が手作業で行われることが多く,記録の正確性や網羅性に課題があった.特に,複数拠点によるオンライン会議では,話者の切替えが頻繁に発生し,担当者が発言者を誤認識したり,記録漏れを起こしたりしやすい.この問題を解決するため,本機能は音声認識結果と話者識別情報を結合し,発言単位で構造化されたログを自動生成する(図2).
発言録生成のパイプライン*11は以下のステップで構成される.
①音声ストリームの分割と話者分離(マルチモーダルDX基盤)
②音声認識モデルによるテキスト化(社内用語対応モデルを使用)
③LLMによる文意補正と冗長表現の削除
④話者名の自動置換(VTTファイル連携)※任意
⑤タイムスタンプ付与と時系列整列
この一連の処理により,発言録は単なる文字起しを超え,構造化された高品質な議事録要素として提供される.本機能は,議事録の精度と実用性を飛躍的に高めるものであり,従来の手作業による記録に比べて圧倒的な効率性と信頼性を実現している.
(1)特 長
(a)可読性の向上
発言録は,単なる文字起しとは異なり,発言の意味を保持しながら可読性を高める工夫が施されている.具体的には,音声認識エンジンで取得したテキストをLLMによって文意補正し,冗長な表現や誤認識を修正する.例えば,音声認識結果が「えっと,それでですね,次の資料を見てください」という冗長な文であった場合,発言録では「次の資料を確認してください」と簡潔に整形される.この処理により,発言録を見る利用者は発言の意図を迅速に把握できる.
(b)話者識別精度の向上
話者識別精度を高めるため,複数の技術的工夫を導入している.まず,会議開始時に話者数を指定することで,マルチモーダルDX基盤の話者分離アルゴリズムが最適化されるようにしている.次に,TeamsなどのVTTファイルを取込み,話者名を実名に自動置換する仕組みを採用している.これにより,識別番号や「話者1」「話者2」といった抽象的なラベルではなく,実名ベースの発言録を生成できる.例えば,「話者1:次回のスケジュールを確認してください」という記録は,「佐藤:次回のスケジュールを確認してください」と変換され,議事録の可読性と有用性が向上する.
(c)時系列情報の保持
発言録は,時系列情報を保持する点でも特徴的である.各発言にはタイムスタンプが付与され,会議の進行状況を追跡可能とする.これにより,発言順に整列され,後から議論の流れを再現したり,特定の発言時点を確認したりすることが容易になる.例えば,重要な意思決定が行われた時刻や,特定の質問が出たタイミングを迅速に検索できる.このように,発言を時系列で整理する仕組みは,会議後のフォローアップや監査対応においても有用である.
(2)利用シーン
利用シーンとしては,プロジェクト会議や経営会議など,発言責任の明確化が求められる場面で特に有用である.発言録を活用することで,「誰が提案したか」「誰が承認したか」を正確に記録でき,意思決定プロセスの透明性を担保する.また,質疑応答やディスカッションの内容を網羅的に記録することで,後続の作業や検討に必要な情報を漏れなく提供できる.
3.3 カスタマイズ性とUI設計
カスタマイズ性の面では,利用者が会議の目的に応じて柔軟に出力形式を設定できるよう設計されている.プロンプトを入力する必要はなく,UI上で「決定事項」「課題」「次回アクション」などの要約項目を事前に選択するだけで,必要な情報を効率的に抽出できる(図3).この仕組みにより,従来の固定的な要約出力に比べ,会議の性質や利用シーンに応じたカスタマイズが容易になった.
さらに,本ツールは提供時点のデフォルト音声認識モデルの段階で社内用語や略語を高精度に認識できるように設計されているが,バックエンドでは,ドコモのマルチモーダルDX基盤を活用し,担当部門内で音声認識モデルを継続的にチューニングしている.このチューニングでは,社内で頻出する専門用語や略語を網羅するため,社内で日常的に利用されている資料やドキュメントを基に,さまざまな頻出語を整理し,数千単語規模の語彙を自前で抽出している.具体的には,組織変更時に追加された部署名や略称,ドコモが提供する各種サービス名,製品名など,多岐にわたる単語群を対象としている.
加えて,ユーザ辞書機能を備えており,会議内で新たに登場する人名や所属部署内で特有の新規ワードにも対応できる.さらに,辞書登録はUI上で簡単に行えるため,ユーザ負担は最小限に抑えられる.これにより,標準モデルで高精度な認識を維持しつつ,必要に応じて柔軟なカスタマイズが可能となる.
また,話者名一括変換機能を搭載することで,識別番号から実名への変換を容易化している.これにより,議事録の可読性をさらに高めている.
これらの機能群は,現場ニーズに即した柔軟性と精度を両立させるための重要な要素である.
- セマンティック解析:自然言語処理において文章や単語の「意味」を理解するための技術や手法のこと
- プロンプト最適化:LLMに与える自然言語形式の指示や入力文(プロンプト)について,出力結果を評価しながら内容や構成を調整し,目的に沿った出力が得られるよう改善する手法のこと.
- パイプライン:一連の手順に従ってデータや開発されたプログラムを順次処理する仕組みのこと.
04. 今後の展望
本ツールは,議事録作成の効率化にとどまらず,会議そのものを進化させる「会議支援エージェント[3]」へと発展していくことをめざしている.具体的には,会議終了直後に議事録を即時生成する機能をさらに強化し,API(Application Programming Interface)連携*12によるタスクの自動登録や,CRM(Customer Relationship Management)*13・プロジェクト管理ツールとのシームレスな接続を実現する.また,音声だけでなく投影資料や動画を解析する処理においてもマルチモーダル技術を導入し,会議の全体像をより深く把握できる仕組みを構築する.
さらに,蓄積された議事録データを活用し,意思決定パターンの分析やFAQの自動生成,業務改善提案など,企業の知的資産としての価値を高める取組みも進めていく.
加えて,会議支援エージェントとして,会議中に重要キーワードや要点を提示し,過去の議事録や関連情報を即時参照できるようにすることで,意思決定を支援する機能を実装する予定である.これらの進化により,会議は単なる情報共有の場から,AIが支援する高度な意思決定の場へと変革していく.
- API連携:あらかじめ定義したインタフェースを介し,異なるプログラムやソフトウェアを連携すること.
- CRM:顧客の情報や顧客とのやり取りなどの情報を一元的に管理し,顧客との関係性を継続的に繋げる取組み.
05. あとがき
本稿では,音声認識技術とAIを活用した「議事録作成支援ツール」の技術的特長とその価値について解説した.本ツールは,会議業務の効率化と品質向上を実現し,企業のDX推進に大きく貢献するものである.現場の負担を軽減し,意思決定のスピードを高めることで,組織全体の生産性向上に寄与する.今後もユーザニーズを丁寧にくみ取りながら,技術進化を迅速に現場価値へと変換し,AIが会議のパートナーとして機能する未来をめざしていく所存である.
文献
- [1] 加藤,ほか:“AIエージェントの実現を支えるマルチモーダルDX基盤,”本誌,Vol.33,No.4,Jan. 2026.https://www.docomo.ne.jp/corporate/technology/rd/technical_journal/bn/vol33_4/004.html
- [2] 駒田,ほか:“ビジネスの現場に寄り添うLLM基盤技術,”本誌,Vol.32,No.1,Apr. 2024.https://www.docomo.ne.jp/corporate/technology/rd/technical_journal/bn/vol32_1/001.html
- [3] 高島,ほか:“会議コミュニケーションを支援するリアルタイムエージェントシステム,”本誌,Vol.33,No.4,Jan. 2026.https://www.docomo.ne.jp/corporate/technology/rd/technical_journal/bn/vol33_4/005.html