Technology Reports

共話体験を実現するオンラインコミュニケーションシステム

音声通話システム 低遅延伝送 ミュート自動制御

瀧上 順也(たきうえ じゅんや)  山田 仰(やまだ あおぐ)
サービスイノベーション部
中村 拓(なかむら たく)
ネットワーク開発部
鷹野 雅弘(たかの まさひろ)
移動機開発部

あらまし
「共話」とは,あいづちや笑いなどのリアクションと発話のオーバーラップが織りなす,共感的で日本人が好むとされる会話の型である.しかしオンラインコミュニケーションでは,音声の遅延やマイクのミュートが共話を妨げる.そこでドコモでは,5GとMECによる低遅延・高品質音声伝送と,発話を先読みしてミュートを自動制御する機能により,オンラインでの共話を可能にする音声通話システムを開発した.

01. まえがき

  • 「共話」とは,話し手が文章をあえて未完成のままいったん区切り, ...

    開く

    「共話」とは,話し手が文章をあえて未完成のままいったん区切り,聞き手とインタラクションを取りながら, 互いの発話プロセスを重ね合わせるように,共に文章を完結させていく話し方である.言語学の分野では欧米型の「対話」と比較され,日本人が好む会話の型とされている[1]~[3].「対話」と「共話」の比較例を図1に示す.共話では頻繁に話し手が交代しながら,あいづちや笑いなどのリアクションと発話のオーバーラップで共感的な雰囲気を作り,仲の良い友達同士が会って話すときのような気軽で安心感があり,かつ直感的でテンポの良い会話が進行する.

    図1 「対話「対話」と「共話」の比較例

    図1 「対話」と「共話」の比較例

    対面では,共話はごく自然に行われているが,オンラインコミュニケーションにおいては,音声伝送に伴う遅延や発言のたびに行うマイクのミュート操作などが妨げとなり,互いに息を合わせた対面のような共話の実現は困難であった.事実,リモートワークにおける会話は,しばしば対話的で,目的達成のために効率を重視した型であることが多い.このためリモートワークでは,オフィスでの偶発的な雑談のような,一見無目的だが,安心感が得られる会話が足りないとも言われている.また,雑談やブレインストーミングなどは,共感的な雰囲気の下で参加者が安心して自由に発言することで,それぞれがもっている意見や情報が引き出され,話が盛り上がったり,新しいアイデアが出たりするものであり,共話的に進行させれば生産性向上にも繋がる.

    そこで,ドコモでは5GネットワークとMEC(Multi-access Edge Computing)*1サービスを活用した「低遅延・高品質音声伝送」と,発話の先読みによる「マイクのミュート自動制御」をコア技術とする音声通話システム(以下,本システム)を開発し,話し手と聞き手を隔てる音声の遅延や煩わしいミュート操作を不要にすることで,オンラインでの共話を可能にした.

    本稿では,本システムの全体像,共話を実現する2つのコア技術,共話の実現性評価結果,そして本システムを活用したコミュニケーション促進アプリケーションについて解説する.

    1. MEC:移動通信網において,クライアント端末に近い場所にサーバやストレージを配備する仕組み.

02. システムの全体像

  • オンラインでの共話の実現に必要な低遅延・高品質音声伝送とマイクの ...

    開く

    オンラインでの共話の実現に必要な低遅延・高品質音声伝送とマイクのミュート自動制御を実現するための本システムの全体像を図2に示す.本システムは,音声通話機能を提供するWebRTC(Web Real-Time Communication)*2サーバと,オンラインのユーザの中から通話相手を選択するためのルームの作成など,音声通話のUI*3関連機能を提供するアプリケーションサーバ,そしてユーザが操作するクライアント端末(スマートフォン)から構成され,クライアント端末同士が5Gネットワークを介して接続されることで,音声通話が実行される.WebRTCサーバは,リアルタイム通信を行うためのWebRTCの仕組みを利用して音声通話機能を提供する.WebRTCサーバとアプリケーションサーバをドコモが提供するMECサービスであるdocomo MEC上に配置し,クライアント端末・サーバ間の物理的な通信距離を短くすることで一層の低遅延を実現している.また,ミュート自動制御の処理は,クライアント端末上に配置された音声通話アプリケーション内で,クライアント端末のインカメラなどのハードウェアと連携して行われる.

    図2 システムの全体像

    図2 システムの全体像

    1. WebRTC:APIを経由して,Webブラウザやモバイルアプリケーション間で音声や映像・その他ファイルのリアルタイム通信を行う仕組みであり,ソースコードが公開されているオープンな規格.
    2. UI:一般的にユーザ(利用者)と製品やサービスとのインタフェース(接点)を意味する.

03. 共話を実現する音声伝送/音声信号処理技術

  • 3.1 5GとMECによる低遅延・高品質音声伝送

    開く

    共話では,聞き手があいづちや笑いなどのリアクションを話し手に共有し,共感などを伝えることが重要となる.しかしながら,音声遅延などの要因により不自然な間でリアクションが伝わるとかえって話しづらくなってしまうため,意図どおりの自然な間でリアクションを伝えられる低遅延の音声伝送が必須となる.また,発話のオーバーラップが頻繁に起こるため,自分が発言している間に相手が発言した内容も聞き取りやすいクリアな音質が求められる.

    (1)低遅延・高品質音声伝送の仕組み

    本システムでは,リアルタイム音声通話を実現するWebRTCサーバをdocomo MEC上に配置し,よりクライアント端末に近い拠点のエッジサーバで必要な処理を実行することで,物理的な通信距離が短くなるようにしている.また,音声コーデック*4のパラメータを本システム向けに最適化することで,低遅延・高音質音声伝送を実現している.具体的には,SDP(Session Description Protocol)*5におけるパラメータについて,音声品質を下げずに遅延量を極力低減できる値を設定した.パケット化周期*6の値は複数パターンを試行し,遅延量と音声品質に与える因果関係を確認した上で,遅延量,音声品質共に最適となる値を採用した.また,入力音声を解析するためのバッファリング*7を伴う音声信号処理を追加していないことも,低遅延伝送の実現に寄与している.

    (2)伝送音声の客観品質測定結果

    図3(a)に示す測定系を用いて,本システムにおける伝送音声の客観品質(POLQA(Perceptual Objective Listening Quality Assessment)*8)と遅延を測定した.比較のため,本システム以外にも一般的なオンラインWeb会議システム(アプリケーション)A〜Dを5Gの「spモード」接続環境で評価した.測定結果を図3(b)に示す.本システムはPOLQA3.7,遅延230ミリ秒程度であり,一般的なオンラインWeb会議システムと同程度の高音質でありながら,大幅に伝送遅延の短縮を実現している.

    図3 伝送音声の客観品質測定結果

    図3 伝送音声の客観品質測定結果

    3.2 発話の先読みによるミュート自動制御

    オンラインコミュニケーションでの共話の実現には,低遅延・高音質音声伝送に加え,周囲雑音への対策が必須である.生活雑音の混入や音声の回り込み(エコー)などの周囲雑音はオンラインコミュニケーションを妨げる要因であるが,特に参加者同士でリアクションや発話の積極的なインタラクションを行う共話では発話のタイミングが不定期かつ頻繁に訪れるため,対話時のように「話さない人は自らマイクを無効化(ミュート)しておく」という慣習的に人手で行われる雑音対策が成立しない.結果としてマイクが有効化(アンミュート)されたままとなり,参加者全員の周囲雑音が常に混入してしまうため,共話時は対話時よりも周囲雑音への対策が重要となってくる.

    従来の周囲雑音への対策手法として,発話音声の検知時だけマイクを有効化する発話検知技術や,発話音声以外の音を抑圧するノイズキャンセリング技術がある.しかしこれらの技術は,入力音声が発話音声か否かの判定や,入力音声に対する信号処理に時間を要するため,その時間に相当する分の音声バッファリングに伴う遅延が生じる,もしくは音声バッファリングを行わない場合は伝送音声の話頭切れが生じる.そこで,ユーザの用いるPCやスマートフォンのカメラで口の動きを検知することで,発話開始を先読みしてマイクを有効化し,発話終了後にマイクを無効化するマイクのミュート自動制御技術を開発した[4].本技術は従来技術と異なり,発話開始前にマイクを有効化できるため,音声のバッファリングをせずとも話頭切れを回避できる.

    (1)ミュート自動制御の仕組み

    本技術は,人が発話をする直前に口を動かすことに着目している.例えば図4(a)の場合,この話者は息を吸うために発話の約0.6秒前に口を開けている.画像認識を利用し,このような発話動作を検出することで発話開始前にマイクを有効化する.また本技術は,口の発話動作や音声が検出されなくなった後にマイクを無効化する.このようにして,口の動きが伴った発話時のみマイクを有効化することで,非発話時の周囲雑音混入を回避する.

    発話の動作検知の詳細について図4(b)を用いて解説する.まずユーザの顔動画像(時間軸方向に連続する顔画像)から,画像認識によって口唇部分を抽出する.抽出した口唇部分の縦方向座標の最大点(上唇の最上部)および最小点(下唇の最下部)をそれぞれ特徴点mu,mlとする.特徴点muと特徴点mlとを結んだ線分の長さが顔の長さflに対して占める割合を計算し,これがしきい値θ1を超えた場合,もしくはこの割合の単位時間あたりの(動画像のフレーム間の)変動量がしきい値θ2を超えた場合,発話の動作が行われたと判断する.このとき,マイクが無効化されていれば有効化し,そうでなければ有効化状態を継続する.

    一方,前述の発話の動作が検出されてから時間T(本稿においては2秒とした)の間に,発話動作もしくは音声の少なくとも一方が検知されなかったとき,マイクを無効化する.さらに,時間Tを適切に設定することで,発話中の短い間でマイクの有効化/無効化が頻繁に切り替わることにより生じる不快な音声の不連続性を抑制する.

    図4 ミュート自動制御の仕組み

    図4 ミュート自動制御の仕組み

    (2)ミュート自動制御の機能実装

    ミュート自動制御の機能ブロック図を図4(c)に示す.本機能は,PCやスマートフォンのマイクとカメラから取得したユーザの音声と顔動画像を入力として,ユーザ音声のWeb会議ツールへの伝送を有効化するか無効化するかを制御する信号を出力する機能ブロックとして動作する.この制御信号は前述したマイク有効化・無効化決定方法に基づき生成され,Web会議ツールに入力する音声を制御する.

    図4(c)に示すとおり,本機能ではマイクの音声入力からWeb会議ツールまでの音声経路を通さず処理が行われるが,これは通常の発話検知技術やノイズキャンセリングなどの音声処理技術と異なり,音声を入力とした信号処理の待ち時間が生じないことを意味する.従って,本機能は,実装しても通話音声の遅延が増えないため,低遅延が求められる本システムに効果的な周囲雑音対策といえる.

    (3)性能評価結果

    本技術で使われている発話検知技術を,発話を話頭から取りこぼしなく検出できる割合(発話無欠損検出率)により評価した.使用したデータベースは,オンラインコミュニケーションにおける共話場面を収録した映像および音声のデータベース(総発話数3,107発話)である.評価により全体の99.1%にあたる3,079発話を無欠損で検出できていることを確認した.検出できない音声は「うん」「ふふっ」「んー」などの口の動きを伴わない短い発話であり,通常の会話を阻害するものではない音声のみであった.

    また,このデータベースに含まれる以下の発話の予備動作に対し,最短で発話のおよそ10ミリ秒前にはマイクが有効化されていることを確認した.

    • 発話前の一呼吸
    • 子音の発声のために,唇の形をつくる動作
    • 言葉が見つかり次第,喋ろうと口が開く動作
    • 相手の発話中に喋ろうとして,間をつかむときに口が開く動作

    (4)受容性評価結果

    本技術が実際の共話場面で使われた際の有効性およびユーザによる受容性に関する主観評価を実施した.本システムを用いて,3名1組で雑音のある環境下で本技術が無い場合とある場合とで,それぞれ数分間の雑談を実施した.その後,以下の5項目について,「非常にそう思う」から「全くそう思わない」までの5段階での評価を実施した.評価者は20〜50代の一般男女33名である.

    • この技術があればノイズが気にならない
    • ミュートしたい場合にミュートされている
    • 話し相手の音声が途切れていない
    • 意識せずに使える(普段どおり話せる)
    • この機能を使ってみたい

    評価結果を図5に示す.評価者の約7割が「この技術があればノイズが気にならない」と評価し,雑音に対する有効性が裏付けられた.また性能/効果や受容性に関する他の4項目についても利用者の過半数から「そう思う」以上の評価を獲得したことから,発話検知によるミュート自動制御の有効性や受容性が高いことを確認した.

    図5 ミュート自動制御技術評価結果(評価者33名)

    図5 ミュート自動制御技術評価結果(評価者33名)

    1. コーデック:データの符号化,復号化に関する技術や装置,プログラムなど.
    2. SDP:メディアデータのストリーミングを開始する際に必要なパラメータを伝達するためのデータ標準形式の1つ.
    3. パケット化周期:音声を伝送するためにパケットに変換する周期である,一般的にパケット化周期を長くすることで伝送効率が良くなるが,遅延が増大する.
    4. バッファリング:ネットワーク内に遅延が発生した場合などに備えて,あらかじめデータをある程度溜め込んでおく仕組み.
    5. POLQA:客観音声品質評価法の国際標準.人の知覚や認知をモデル化し,評価者が実際に音声を聴いて評価する主観評価値を推定できる.
    6. 統計的検定:ある事物の集まりに関する仮説が正しいか否かを,得られた一部のデータに基づいて統計学的に検証する手法.

04. 共話の実現性評価

  • 本システムが「共話」を実現していることを検証した.「共話」は ...

    開く

    本システムが「共話」を実現していることを検証した.「共話」は会話の型という概念的なものであり,その実現性を定量的に評価する方法はこれまで存在していなかったため,評価方法の設計から着手した.

    4.1 評価方法

    オンラインでの共話を実現するための技術要件である「低遅延」「高音質」「ミュート自動制御」が十分に達成されれば,会話において「先行話者の発話に意図したタイミングで割り込める/リアクションがとれる」「発話がぶつかっても双方で聞き取れる」「さまざまな雑音環境下でも会話がストレスなく進行できる」などの好ましい状態が実現できる.評価方法の策定には,これらの状態を実現することで話し手および聞き手が得られる体験を評価項目として言語化し,それらを主観評価試験によって定量的に評価するというアプローチを採用した.最終的に評価のしやすさを考慮し,「共話」がどの程度実現しているか(共話の実現性)を「話しやすさ」「リアクションの取りやすさ」「会話の間の自然さ」「声の聞き取りやすさ」の4項目で主観評価する方法とした

    ただし,評価の対象となる会話がそもそも対話的に進行してしまうと,共話の実現性を測ることができない.さらに,会話をする評価者同士は初対面であるという評価者呼集上での制約条件もある.このため初対面の人同士がより確実に共話に至る方法を準備する必要があった.この課題に対して,共話する場面の台本を準備し,台本に沿って会話することで共話場面を再現する再現性重視の方法があるが,この方法ではあらかじめ決められた内容を自然に発話することが難しい.そこで,台本よりも高い自由度と,一定の再現性を担保するため,「お題」に沿って自由に会話をしてもらう方法で,かつ「お題」を変えることで初対面同士であっても繰返し共話に至る確率が高い方法を探索した.結果的に採用した方法は①ブレインストーミング,②ワードウルフゲームおよびその振返りと③NGワードゲームおよびその振返りの3種である.

    ここで,今回は評価者を3名とし,①のブレインストーミングでは「マ行の文字から始まるもので一番怖いもの」などのお題を与えた.②のワードウルフゲームでは2名と1名に異なるお題を与え,3名で話し合って少数派の1名が誰かを推論する.このとき,その1名は推論されないように話を合わせるが見破られたら負けとなる.③のNGワードゲームでは3名それぞれに異なるNGワードを,本人以外の2名には開示した状態で与え,会話の中でNGワードを発言してしまうと負けとなる.①のブレインストーミングでは考えるために沈黙してしまう時間や,②③のゲームにおいても互いに発言を警戒して沈黙してしまう時間があったが,緊張からの緩和に移行する振返りのプロセスにおいて,ほぼ確実に共話に至ることができた.

    評価者を20〜50代の男女33名とし,3名のグループごとに①〜③を行い,その後共話実現性を前述の4項目で評価してもらった.また,対面時を基準として「4:対面時と同程度」「3:対面時よりもわずかに劣る」「2:対面時よりも劣る」「1:対面時よりもかなり劣る」の4段階での比較評価とした.そのため,評価者は最初に対面(ただし背中合わせに座り,お互いの姿は見えない状態とした)での会話を実施した.さらに,比較のため一般的なオンラインWeb会議システムとしてシステムB(図3(b))も併せて評価した.ここで評価対象システムの画面表示は隠し,評価者は評価対象システムが何かは分からない状態で評価した.また評価順序による影響を排除するため,本システムとシステムBのどちらを先に評価するかも評価グループごとにランダムになるように設計した.

    4.2 評価結果

    評価結果として,評価者33名の平均評価値を図6に示す.4項目すべての評価項目における平均評価値が「4:対面と同程度〜3:対面よりもわずかに劣る」の水準との結果から,本システムで対面に近い共話が実現されていると結論づけた.また,一般的なオンラインWeb会議システムであるBに対しては,本システムが4項目のすべてにおいて平均評価値で上回り,特に「会話の間の自然さ」「声の聞き取りやすさ」の2項目では統計的検定*9(有意水準5%の両側t検定*10)に基づく「有意差あり」も確認された.

    図6 共話の実現性評価

    図6 共話の実現性評価

    1. 両側t検定:統計的検定の1つであり,棄却域をt分布の両側に設定する手法.2つが同じかどうかを検証する目的で使われる.

05. 共話ができるコミュニケーション促進アプリケーション

  • 本システムを活用し,職場におけるオンラインの気軽な雑談に ...

    開く

    本システムを活用し,職場におけるオンラインの気軽な雑談に焦点を当てたコミュニケーション促進アプリケーションの試作開発を行った.

    5.1 アプリケーション開発の狙い

    コロナ禍のリモートワーク環境で求められるコミュニケーションの役割に関して,ドコモおよび調査会社社員計28名を対象とした調査を実施した.その結果,社員同士の繋がりを深めるための「雑談」のニーズが非常に高いことが分かった.

    さらに,ドコモ社員91名を対象とした社内アンケート調査を実施したところ,約8割の社員は雑談に対して積極的であることが分かった.その一方で,約8割の社員はリモートワーク環境では雑談が減少したことを実感しており,そのうち約9割が,その変化を残念に感じていた.ここで,雑談が減少した理由については下記の傾向が見られた.

    • オフィスにおける雑談のきっかけとなるような偶発的な出会いが,オンラインでは存在しないため
    • オンラインでのコミュニケーションは目的が明確で,効率性・経済性の高さが重視されると感じており,業務時間中に雑談をすることに後ろめたさを感じるため

    これらの調査結果から,コミュニケーションにおける雑談の重要性が再認識されつつあることが分かった.雑談の少ない職場では知らず知らずのうちにストレスを溜め込んでしまう恐れがあり,一見無目的な雑談にこそ,孤独感を解消し,職場内の仕事の効率を高める効果が期待される.

    本システムが実現する「共話」は,このような雑談で求められる共感的な雰囲気をオンラインコミュニケーションでつくるために効果的であると考えた.偶発的な雑談の機会を促進する仕組みと合わせて提供することで,オンラインにおいてもかつて対面で行われていたような雑談を取り戻すことがアプリケーション開発の狙いである.

    アプリケーションの利用促進と併せて,オンラインの雑談に対する考え方を「しなくていいもの,しづらいもの」から「効率的に楽しく仕事をして成果を出すために必須の要素,補給するもの.補給は自分だけでなく相手にもしてもらう,相互に贈りあうもの」へと変えていく.そして雑談が推奨される組織,雑談が評価される組織文化を醸成し,同期・先輩・後輩とより仲良くなることで社員のウェルビーイング*11向上をめざす.

    5.2 アプリケーションの機能

    図7は,前述した狙いに基づいて開発した試作アプリケーションである.主な機能としては,以下に述べる6つを備えている.

    図7 共話ができるコミュニケーション促進アプリ

    図7 共話ができるコミュニケーション促進アプリ

    1. ① プロフィール設定機能
      雑談における共通の話題の提供をめざし,自身の好きな画像をアイコンに設定できることや,趣味や今の気分の入力が可能になっている.
    2. ② 職場内のユーザ検索/プロフィール閲覧機能
      同じ会社の社員同士が気軽に雑談できることをめざし,職場内のメンバの検索・プロフィール閲覧が可能になっている.
    3. ③ フォローした人がログインした際の通知機能
      オンラインで話したい相手がログインしたことを知らせるため,ユーザ同士のフォロー/フォロワー機能を搭載した.登録したユーザがこのアプリケーションにログインした際,フォロワーにその旨を伝える通知が届けられる.
    4. ④ 3名までの同時通話が可能なルームの設定機能
      既存のWeb会議ツールとの差異化や多人数における発言のしにくさを避けるため,参加者全員が主体的に話せる上限の人数として3名を設定した.3名未満で雑談することも可能である.2名で雑談中のルームに新たにユーザが入室する場合は,一時的な待機時間を設けることで,3人目が入る際の会話内容の再構築を可能にしている.
    5. ⑥ 5分単位の制限時間設定機能
      雑談を一定時間実施後ユーザが次の作業に移れるようにする,加えて雑談開始時に時間を意識した会話であることを明示的に示すため,雑談に制限時間を設定した.この時間設定は,雑談がだらだらと長引いてしまう懸念から生じる雑談のハードルを下げることを目的としている.また,必要に応じて5分単位で時間の延長も可能である.
    6. ⑦ 通話中に口の動きから発話を先読みしてミュート自動制御を行う機能
      この機能は,本稿で記載した共話を実現するためのミュート自動制御を活かし,ユーザアイコンの周囲に発話中/非発話の状態を示すUIを表示させている.
    1. ウェルビーイング:心身だけでなく,社会的な意味でも健康・幸福であるという概念的な定義.

06. あとがき

  • 本稿では,オンライン環境においても,話し手と聞き手が一体となって ...

    開く

    本稿では,オンライン環境においても,話し手と聞き手が一体となって展開する日本型の会話である「共話」を実現するシステムについて解説した.本システムの低遅延・高音質音声伝送により,あいづちや笑いなどのリアクションを伝えるための自然な間と,オーバーラップする発話の聞き取りやすさが実現できる.また口の動きから発話を先読みしてミュート自動制御を行う技術の導入により,マイクのミュート操作の煩わしさを解消した.話しているときだけ自動でマイクのミュートが解除されるため,非発話時の周囲雑音混入を気にかけることなく,お互いにリアクションを伝え合うテンポの良い会話ができる.

    本システムのようなWebRTCに基づくコミュニケーションシステムは,多くのWebアプリケーションで利用されているだけでなく,3GPP(3rd Generation Partnership Project)*12でIMS(IP Multimedia Subsystem)*13に代わるシステムとして標準化が検討されている.これは,インターネットサービスとの親和性が高く,VoLTE(Voice over LTE)*14とは異なるリッチなコミュニケーションをモバイル網で提供することが狙いである.そこで,今回開発したシステムを,新たなコミュニケーション基盤としてドコモ網で展開することをめざす.

    今後は,試作したコミュニケーション促進アプリケーションを用いた検証を通じてサービスの商用化をめざす.さらに,本システムを活用した分野横断的な価値訴求や,コミュニケーション基盤提供による商用化に向けた取組みを加速していきたい.

    最後に,本取組みを進めるにあたり,「共話」に関する知見を授けていただいた早稲田大学のドミニク・チェン教授に深く感謝申し上げます.

    1. 3GPP:各国の標準化機関により設立された移動通信の仕様を検討,策定するプロジェクト.
    2. IMS:SIP(Session Initiation Protocol)/SDPといったインターネットの技術によりマルチメディア通信を実現するシステム.
    3. VoLTE:LTEネットワーク上で提供されている音声機能のこと.
  • 文献

    開く

    • [1] 水谷 信子:“あいづち論,”日本語学,Vol.7,No.13,pp.4–11,Dec. 1988.
    • [2] 水谷 信子:“あいづちと応答,”筑摩書房,pp.37-44,1983.
    • [3] ドミニク・チェン:“未来をつくる言葉—わかりあえなさをつなぐために,” 新潮社,pp.155-171,Jan. 2020.
    • [4] 山田 仰, 瀧上 順也, 仲 信彦, 吉村 健, 太田 賢:“発話を先読みしマイクミュート制御をするマルチモーダル発話検知技術,”情報処理学会,DICOMO2022シンポジウム,pp.705-709,Jul. 2022.
このページのトップへ