Menu

AV融合型・高精度話者分離技術 AV-Fused High-Precision Speaker Diarization

音声情報と映像情報を統合し、多人数会話環境において誰がいつ話しているかを高精度に識別する技術です。

  1. ホーム
  2. 技術紹介
  3. AV融合型・高精度話者分離技術

技術概要 Technology Overview

音声情報と顔・口唇動作情報を統合し、多人数会話環境における話者識別を行う技術です。
指向性マイクアレイによる音声方向推定と、顔特徴点・口唇動作解析を組み合わせることで、音声単独手法では困難な環境でも高精度な話者識別を実現します。
さらにAudio-Visual Fusion Engineにより、話者識別、発話タイムライン生成、重複発話解析を行い、多人数会話の発話構造を可視化します。

他技術との関係・位置づけ

本技術は、コミュニケーション解析におけるAV融合コミュニケーション解析技術として位置づけられます。
音声のみではなく、映像情報を統合することで、会議やグループディスカッションなどの多人数会話環境における発話者特定を可能にします。
会話解析や議事録生成、コミュニケーション分析の基盤技術として活用できます。

特徴・強み Features & Strengths

  • 01

    音声と映像を統合して話者識別

    音声方向情報と顔・口唇動作を統合し、発話者を識別できます。

  • 02

    重複発話環境に対応

    複数人物が同時に発話する状況でも話者を特定できます。

  • 03

    高精度な話者分離を実現

    音声単独手法を上回る精度で発話者を識別できます。

  • 04

    リアルタイム処理に対応

    フレーム単位で発話状態を解析し、低遅延で話者識別を行えます。

  • 05

    多人数会話に対応

    最大8名規模の会話環境に対応できます。

技術的アプローチ Technical Approach

指向性マイクアレイからDOA推定、TDOA、ビームフォーミングによる音声方向情報を取得します。
顔特徴点、口唇動作、AU25・AU26・AU27などの映像特徴量を抽出します。
さらにTalkNet、AV-HuBERT、AV-WavLM、Cross-modal Attentionなどを用いて音声情報と映像情報を統合し、話者識別結果と発話タイムラインを生成します。

  • 入力データ Input Data

    • 音声データ
    • 顔動画
    • 口唇動作データ
    • 発話タイミング情報
  • 出力データ Output Data

    • 話者識別結果
    • 発話タイムライン
    • 重複発話解析結果
    • アクティブスピーカー情報
    • 確信度スコア
    • 会話状態解析結果

できること・用途 Use Cases

AV融合型・高精度話者分離技術により、多人数会話環境において誰がいつ話しているかを高精度に識別できます。
音声だけでは判別が難しい重複発話や騒音環境においても、顔情報や口唇動作を統合することで発話者を特定できることが特長です。また、単なる話者識別に留まらず、その後の会話解析やコミュニケーション分析の基盤データを構築できます。

  • 01

    会議議事録自動化

    発話者付きの会話記録や議事録生成を支援できます。誰が何を話したかを正確に整理できるため、会議分析やナレッジ管理の効率化に活用できます。

  • 02

    グループコミュニケーション分析

    会話参加状態や発話構造を可視化できます。発話量の偏りや参加状況を把握し、組織やチームのコミュニケーション改善に活用できます。

  • 03

    親子コミュニケーション研究

    親子間でどのような対話が行われているかを高精度に把握できます。発話主体や反応タイミングを分析し、関係性研究や発達研究に活用できます。

  • 04

    教室・授業解析

    発話分布や参加状態を分析できます。教師と学習者、学習者同士の発話構造を把握し、授業設計や学習環境改善に活用できます。

  • 05

    インタビュー記録・定性調査

    複数参加者が存在するインタビューやグループインタビューにおいて、発話主体や会話構造を整理できます。分析効率向上や発言内容の構造化に活用できます。