話者認識のための特徴量変換と - corethan unity, then the two speech samples are judged...

163
話者認識のための特徴量変換と その法科学的応用に関する研究 長内 隆 電気通信大学 2007 年 9 月

Upload: others

Post on 22-May-2020

9 views

Category:

Documents


0 download

TRANSCRIPT

  • 話者認識のための特徴量変換と

    その法科学的応用に関する研究

    長内 隆

    電気通信大学

    2007 年 9 月

  • 話者認識のための特徴量変換と

    その法科学的応用に関する研究

    長内 隆

    電気通信大学大学院電気通信学研究科

    博士(工学)の学位申請論文

    2007 年 9 月

  • 話者認識のための特徴量変換と

    その法科学的応用に関する研究

    博士論文審査委員会

    主査 尾関 和彦 教授

    委員 岩田 茂樹 教授

    委員 野下 浩平 教授

    委員 高橋 治久 教授

    委員 西野 哲朗 教授

  • 著作権所有者

    長内 隆

    2007

  • Studies on feature parameter transformation for speaker

    recognition and its application to forensic science

    Takashi Osanai

    Abstract

    This thesis describes a feature parameter transformation method for speaker verifi-

    cation and its application to forensic science. The feature parameter transformation,

    which is called the “standardization-normalization transformation,” is performed in

    two stages. In the first stage, which is called “standardization,” a feature parameter

    is translated by subtracting the average, and then divided by the standard deviation.

    In the second stage, which is called “normalization,” the feature parameter is divided

    by the norm of each feature vector.

    In Chapter 1, the background of this work is stated. In Chapter 2, we emphasize the

    difference between the common use and the forensic use of speaker verification. We

    also describe two large-scale telephone speech databases for speaker verification used

    in this work.

    In Chapter 3, the idea of feature parameter transformation is introduced, which

    makes the core of this work. In Chapter 4 and Chapter 5, effectiveness of the transfor-

    mation is shown by speaker verification experiments using vowels uttered in isolation,

    and vowels extracted from continuous speech, respectively. Since the standardization-

    normalization transformation is closely related to polar-coordinates transformation,

    we examine in Chapter 4 the speaker-individuality information contained in each of

    the radial component and the circumferential component of the feature vector. In

  • Chapter 5, we use the HMM (Hidden Markov Model) technique for vowel identifica-

    tion in continuous speech, investigating the influence of HMM structure and the usage

    of vowel identification results on speaker verification.

    In Chapter 6, we apply the standardization-normalization technique to text-

    independent speaker verification for short speech samples based on VQ (Vector Quan-

    tization). In forensic speaker verification, it is required to judge whether two speech

    samples were spoken by the same speaker. In this chapter, we present a technique that

    uses Cross VQ-distortion for one of the speech samples calculated on a VQ codebook

    designed on the other speech sample. It is shown that the variation of equal-error-

    rate threshold over speech samples with various contents and durations decreases by

    applying the standardization-normalization transformation.

    In Chapter 7, we examine the use of a Bayesian likelihood ratio, which has already

    been used in a forensic field, in speaker verification. If the likelihood ratio is greater

    than unity, then the two speech samples are judged to have been spoken by the same

    speaker. The merit of this method lies in that the judgement is comparatively in-

    dependent of the speech content, and that it is easy to unify the judgements from

    multiple evidences. We also examine the effectiveness of applying the standardization-

    normalization transformation in the Bayesian likelihood ratio method.

    Finally in Chapter 8, we conclude this thesis by summarizing achievements of the

    work, and pointing out problems that should be settled in the future.

  • 話者認識のための特徴量変換とその法科学的応用に関する研究

    長内 隆

    概要

    本論文では,話者認識のための特徴量変換を提案し,その有効性をさまざまな観点

    から検証する.

    インターネット環境の飛躍的な発展によって,我々は生活に必要な情報をさまざま

    な空間から得ることができるようになった.しかし一方で,個人情報の流出や不正ア

    クセスなどの問題点も指摘されている.これらを防止するために注目されているのが,

    ユーザの生体情報を用いて個人認証を行うバイオメトリクス技術である.最も知られ

    ているものは指紋であるが,音声による個人認証もその一つである.音声は,指紋な

    どに比べて,その認証性能は低いものの,ユーザの心理的な負担が軽く,特殊な装置

    を必要としないなどのメリットがある.また,他の生体情報では困難であるリモート

    制御を必要とする分野での利用も見込まれる.犯罪捜査,犯罪鑑識などの法科学分野

    においても,音声による話者認証技術の確立が期待されている.

    話者認識技術の実用化を進めるためには認証性能の向上が必要である.しかし音声

    中に含まれる話者性情報を単独に抽出することは困難である.そこで本研究では,話

    者性情報を抽出する代わりに,話者認識に有効となるように特徴量を変換することを

    試みた.本論文では,特徴量の平均値と標準偏差を利用して標準化を行い,更にその

    ノルムで除することによって正規化を行う標準化・正規化変換を提案する.

    まず第 1章では,個人認証に関する概要を紹介するとともに,本研究の対象である

  • 音声による話者認証について解説する.話者認証の性能は,その利用する環境や対象

    によって大きく影響を受けることを説明する.また,話者認識における一般的な問題

    点と法科学分野における問題点を述べ,本論文で検証する課題を紹介する.

    第 2章では,話者認識の歴史的背景を紹介した後,話者認識の利用形態について述

    べる.特に,一般に行われる話者認識と法科学分野で要求される話者認識の違いにつ

    いて説明する.更に,本研究を行うために構築した音声データベースについて解説す

    るとともに,本研究で行った音声分析や話者照合系の評価法について述べる.

    第 3章は,本論文で提案する標準化・正規化変換の概念を説明するとともに,その

    変換における計算方法を示す.そして,標準化・正規化変換が話者照合に有効である

    ことの検証を第 4章,第 5章で行う.

    第 4章では,単独発声母音を用いた話者照合に提案した標準化・正規化変換を適用

    することによって,その有効性を検証する.ここでは主として,LPCケプストラム係

    数,メル周波数ケプストラム係数を対象とし,標準化・正規化変換やその変換過程で

    得られるいくつかの特徴量変換における話者照合性能を比較する.また,標準化・正

    規化変換は,極座標変換と関連があることから,特徴量を周方向成分と径方向成分に

    分離し,それぞれの持つ話者性情報に関して検討する.

    第 5章では,標準化・正規化変換を適用することの有効性を,連続音声中の母音を

    対象とした話者照合実験を行い検証する.連続音声中の母音識別器として隠れマルコ

    フモデルを採用し,その構造や学習に用いる資料並びに母音認識結果の扱い方に関し

    て検討する.

    第 6章では,標準化・正規化変換のテキスト独立型話者照合への適用について検討

    する.法科学分野では,2つの音声資料が同一の話者によって発声されたものである

    か否かを判断することが要求される.そのような利用形態に有効なクロス照合法を提

    案する.また,話者モデルの学習データ量が少ないときでも適切に照合が行えると考

    えられるベクトル量子化に着目し,数秒程度の音声資料を対象としたときの話者照合

    手法に関して検討を行う.

  • 第 7章では,既に法科学の他の分野で利用されているベイズ統計に基づく尤度比に

    よる判断を話者認識に適用する.判断基準に関しては,どのような発話内容の音声資

    料に対しても安定した判断ができるようにすべきと考える.ベイズ統計に基づく尤度

    比による判断では,尤度比 1以上で同一人であると判断する.そのため,発話内容の

    影響を受けない判断ができると期待できる.このようなアプローチは,ホルマント周

    波数を対象とした音声学的見地から既に行われている.ここでは,ホルマント周波数

    とLPCケプストラム係数を対象とし,ベイズ統計に基づく尤度比を利用することの効

    果や判断基準の安定性,更に標準化・正規化変換を適用することの有効性を検証する.

    最後に第 8章で,本研究で得られた知見をまとめるとともに,今後取り組むべき課

    題について述べる.

  • i

    目 次

    第 1章 序論 1

    1.1 研究の背景 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1

    1.2 話者認識の諸問題 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3

    1.3 法科学分野特有の問題点 . . . . . . . . . . . . . . . . . . . . . . . . . . 5

    1.4 本論文の目的 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6

    1.5 本論文の構成 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9

    第 2章 話者認識 11

    2.1 緒言 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11

    2.2 話者認識の分類 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12

    2.2.1 比較形態による分類 . . . . . . . . . . . . . . . . . . . . . . . . 12

    2.2.2 音声資料による分類 . . . . . . . . . . . . . . . . . . . . . . . . 13

    2.3 音声データベース . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16

    2.3.1 黒電話音声データベース . . . . . . . . . . . . . . . . . . . . . . 16

    2.3.2 ファッション電話音声データベース . . . . . . . . . . . . . . . . 17

    2.4 音声分析と特徴量 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    2.5 話者照合系の評価法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23

    2.6 本論文における話者照合実験の概要 . . . . . . . . . . . . . . . . . . . . 23

    2.7 本章のまとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25

  • ii

    第 3章 話者認識のための特徴量変換 27

    3.1 緒言 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27

    3.2 特徴量変換 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28

    3.2.1 標準化変換 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 30

    3.2.2 正規化変換 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 31

    3.2.3 標準化・正規化変換 . . . . . . . . . . . . . . . . . . . . . . . . 32

    3.3 本章のまとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34

    第 4章 単独発声母音を対象とした話者照合 35

    4.1 緒言 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 35

    4.2 実験方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

    4.2.1 音声資料 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

    4.2.2 話者照合方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36

    4.3 実験結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 37

    4.3.1 各種特徴量変換の効果 . . . . . . . . . . . . . . . . . . . . . . . 37

    4.3.2 特徴量の分析次数 . . . . . . . . . . . . . . . . . . . . . . . . . . 40

    4.3.3 標準化・正規化変換と極座標変換との対応 . . . . . . . . . . . . 42

    4.3.4 統計量に対する頑健性 . . . . . . . . . . . . . . . . . . . . . . . 45

    4.4 本章のまとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 46

    第 5章 連続音声中の母音を対象とした話者照合 49

    5.1 緒言 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 49

    5.2 母音認識 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

    5.3 実験方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

    5.3.1 音声資料 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52

    5.3.2 話者照合方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53

    5.4 実験結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 56

  • iii

    5.4.1 母音認識用HMM及びHMMの構造に関する考察 . . . . . . . . 57

    5.4.2 母音平均方法に関する考察 . . . . . . . . . . . . . . . . . . . . . 59

    5.4.3 標準化・正規化変換の効果 . . . . . . . . . . . . . . . . . . . . . 59

    5.4.4 不特定話者 5V-HMMにおける混合数の増加に関する検討 . . . . 59

    5.5 本章のまとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 60

    第 6章 標準化・正規化変換のテキスト独立型話者照合への適用 63

    6.1 緒言 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63

    6.2 法科学的話者照合 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

    6.2.1 クロス照合法と単照合法 . . . . . . . . . . . . . . . . . . . . . . 65

    6.2.2 VQ歪み尺度 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 65

    6.3 実験方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

    6.3.1 音声資料 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

    6.3.2 話者照合方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70

    6.4 実験結果 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 72

    6.4.1 作成可能なコードブックサイズ . . . . . . . . . . . . . . . . . . 72

    6.4.2 クロス照合法と単照合法の比較 . . . . . . . . . . . . . . . . . . 73

    6.4.3 発話長,コードブックサイズと話者照合率の関係 . . . . . . . . 74

    6.4.4 発話長,コードブックサイズとしきい値の関係 . . . . . . . . . 78

    6.4.5 照合資料の全フレームをコードブックとみなす話者照合手法 . . 79

    6.5 本章のまとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 81

    第 7章 法科学分野での実用化に向けた検討 85

    7.1 緒言 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85

    7.2 ベイズ統計に基づく尤度比尺度 . . . . . . . . . . . . . . . . . . . . . . 86

    7.3 実験方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 91

    7.3.1 音声資料及び分析条件 . . . . . . . . . . . . . . . . . . . . . . . 91

  • iv

    7.3.2 話者照合方法 . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92

    7.4 特徴量の算出に関する検討 . . . . . . . . . . . . . . . . . . . . . . . . . 95

    7.4.1 ホルマント周波数の算出 . . . . . . . . . . . . . . . . . . . . . . 95

    7.4.2 特徴量間の相関 . . . . . . . . . . . . . . . . . . . . . . . . . . . 95

    7.5 尤度比尺度による話者照合実験 . . . . . . . . . . . . . . . . . . . . . . 97

    7.5.1 話者照合率による照合性能の評価 . . . . . . . . . . . . . . . . . 97

    7.5.2 証拠能力の強さによる照合性能の評価 . . . . . . . . . . . . . . 99

    7.5.3 音素結合の効果 . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

    7.5.4 標準化・正規化変換の効果 . . . . . . . . . . . . . . . . . . . . . 103

    7.6 本章のまとめ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105

    第 8章 むすび 107

    謝辞 113

    参考文献 115

    付 録A LBGアルゴリズム 125

    付 録B HMMにおける各種アルゴリズム 129

    B.1 Forward-Backward Algorithm . . . . . . . . . . . . . . . . . . . . . . . 131

    B.2 Baum-Welch Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . 133

    B.3 Viterbi Algorithm . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 135

    付 録C 尤度比尺度の導出 139

  • v

    図 目 次

    2.1 一般の話者照合 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    2.2 法科学分野における話者照合 . . . . . . . . . . . . . . . . . . . . . . . 14

    2.3 一般の話者識別 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14

    2.4 法科学分野における話者識別(話者検索) . . . . . . . . . . . . . . . . 14

    2.5 音声分析の流れ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 21

    3.1 LPCケプストラム係数の分布図(1次 vs. 5次:母音/e/) . . . . . . . 28

    3.2 2点間のユークリッド距離と成す角度の関係 . . . . . . . . . . . . . . . 29

    3.3 標準化・正規化変換の概念図 . . . . . . . . . . . . . . . . . . . . . . . 33

    4.1 特徴量変換による話者照合実験のブロックダイアグラム . . . . . . . . . 36

    4.2 各種特徴量変換における 5母音の平均話者照合率 . . . . . . . . . . . . 38

    4.3 LPCC,MFCCの標準偏差比の逆数 . . . . . . . . . . . . . . . . . . . . 39

    4.4 特徴量の分析次数を変化させたときの 5母音の平均話者照合率 . . . . . 41

    4.5 特徴量の分析次数を変化させたときの標準化・正規化変換の効果 . . . . 42

    4.6 径方向・周方向による 5母音の平均話者照合率 . . . . . . . . . . . . . . 43

    4.7 周方向成分の重みwを変えたときの 5母音の平均話者照合率 . . . . . . 45

    5.1 一方向HMMの例 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51

    5.2 エルゴディックHMMの例 . . . . . . . . . . . . . . . . . . . . . . . . . 51

    5.3 連続音声中の母音を対象とする話者照合実験のブロックダイアグラム . 53

    5.4 状態数を変えたときの話者照合率の変化 . . . . . . . . . . . . . . . . . 58

  • vi

    5.5 混合数を変えたときの話者照合率の変化 . . . . . . . . . . . . . . . . . 58

    5.6 混合数と話者照合率の関係 . . . . . . . . . . . . . . . . . . . . . . . . . 60

    6.1 単照合とクロス照合の概要 . . . . . . . . . . . . . . . . . . . . . . . . . 66

    6.2 クロスVQ歪みによる話者照合の概要 . . . . . . . . . . . . . . . . . . . 67

    6.3 正規化クロスVQ歪みによる話者照合の概要 . . . . . . . . . . . . . . . 67

    6.4 クロス照合法における 2つのVQ歪みの取扱いの効果 . . . . . . . . . . 74

    6.5 コードブックサイズと話者照合率 . . . . . . . . . . . . . . . . . . . . . 75

    6.6 正規化クロスVQ歪みとGMMにおける最大話者照合率の差 . . . . . . 77

    6.7 コードブックサイズとしきい値 . . . . . . . . . . . . . . . . . . . . . . 79

    6.8 全フレームをコードブックとみなしたときの話者照合率と最適なコード

    ブックサイズにおける話者照合率の差 . . . . . . . . . . . . . . . . . . 82

    6.9 多数話者コードブックサイズと全フレームをコードブックとみなす効果

    との関係 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 82

    7.1 2つのサンプルの差と分布の位置 . . . . . . . . . . . . . . . . . . . . . 90

    7.2 尤度比尺度による話者照合実験のブロックダイアグラム . . . . . . . . . 93

    7.3 同一人内及び別人間の尤度比の分布の例 . . . . . . . . . . . . . . . . . 94

    7.4 各音素のホルマント周波数の頻度分布 . . . . . . . . . . . . . . . . . . 96

    7.5 LPCケプストラム係数の任意の 5つの係数を用いたときの証拠能力の

    強さ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 101

    7.6 3音素を結合したときの証拠能力の強さ . . . . . . . . . . . . . . . . . . 102

    B.1 HMMパラメータ λの再推定手順 . . . . . . . . . . . . . . . . . . . . . 131

  • vii

    表 目 次

    1.1 バイオメトリクス技術の比較 . . . . . . . . . . . . . . . . . . . . . . . 2

    2.1 黒電話音声データベースの仕様 . . . . . . . . . . . . . . . . . . . . . . 19

    2.2 ファッション電話音声データベースの仕様 . . . . . . . . . . . . . . . . 20

    4.1 標準化・正規化変換と無変換による 5母音の話者照合率 (%) . . . . . . 40

    4.2 他の特徴量における標準化・正規化変換と無変換による 5母音の平均話

    者照合率 (%) . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 40

    4.3 統計量を算出する音声資料の違いによる 5母音の平均話者照合率 (%) . 46

    5.1 話者照合実験に使用したデータセット . . . . . . . . . . . . . . . . . . 53

    5.2 状態数及び混合数を変えたときの平均話者照合率 (%) . . . . . . . . . . 57

    6.1 各データセットの発話内容 . . . . . . . . . . . . . . . . . . . . . . . . . 71

    6.2 各データセットにおけるコードブック作成可能な割合 (%) . . . . . . . 72

    6.3 クロス照合法と単照合法の話者照合率 (%) . . . . . . . . . . . . . . . . 74

    6.4 各データセットにおける最大話者照合率 (%) . . . . . . . . . . . . . . . 76

    6.5 各データセットにおけるしきい値の変動係数 . . . . . . . . . . . . . . . 79

    7.1 鼻音,摩擦音,長母音の抽出に用いた発話 . . . . . . . . . . . . . . . . 91

    7.2 相関係数の最大値と平均値 . . . . . . . . . . . . . . . . . . . . . . . . . 97

    7.3 ホルマント周波数を用いた各音素における話者照合率 (%) . . . . . . . 98

    7.4 LPCケプストラム係数を用いた各音素における話者照合率 (%) . . . . . 98

  • viii

    7.5 ホルマント周波数による証拠能力の強さ . . . . . . . . . . . . . . . . . 100

    7.6 LPCケプストラム係数による証拠能力の強さ . . . . . . . . . . . . . . 100

    7.7 3音素を結合したときの話者照合率 (%) . . . . . . . . . . . . . . . . . . 102

    7.8 標準化・正規化変換を施したときの 3音素の平均話者照合率 (%) . . . . 103

    7.9 標準化・正規化変換を施したときのしきい値の変動係数 . . . . . . . . . 104

  • 1

    第1章 序論

    1.1 研究の背景

    近年,情報通信技術の進歩によって,パーソナルコンピュータ,携帯電話などの情

    報デバイスの開発とインターネット環境の飛躍的な発展とが相まって,IT社会が急速

    に築かれている.

    インターネットを利用することによって,家庭に居ながらにして,ショッピングや

    旅行の手配などができるので,時間の有効活用を図ることができる.また,公共機関

    やマスメディア等もインターネットを利用してさまざまな情報発信や情報収集を行っ

    ている.逆に言えば,インターネット環境を持たなければ,これらの恩恵や情報を得

    ることができない時代である.このように,インターネットは,我々が生活する上で,

    必要不可欠なものへと成長した.

    ところで,ネットショッピングなどを利用する場合,ユーザの氏名,住所,電話番

    号,メールアドレスなどのいわゆる個人情報の入力が必要となるが,そのような入力

    画面の偽装によって,個人情報が盗まれる例も多く,また,個人情報が記録されたパ

    ソコンの盗難や,廃棄時に記録情報を確実に消去することを怠るなどして個人情報が

    漏えいすることも少なくない.更に,他人の IDやパスワード等を不正に利用する “な

    りすまし”などの不正アクセスも後を絶たない.このように,利便性が向上した一方

    で,個人情報流出の危機にさらされているのが現代社会と言える.そこで,個人情報

    の流出や不正アクセスを防ぐために,さまざまな観点からセキュリティ技術の開発が

    進められている.

    パスワード認証は,最も基本的なセキュリティ技術であるが,問題点を多く抱えて

  • 2 第 1章 序論

    表 1.1: バイオメトリクス技術の比較 (文献 [1]より引用)

    バイオ コ 安 精度 [%]メトリ 特徴量 ス

    ユーザ全 本人 他人

    データ量適用分野

    クス ト受容性

    性 拒否 受入[バイト]

    登録に指紋

    手の指の指紋の特徴点低 心理的 中 0.5 0.001 < 1000 全般(マニューシャ)を利用

    抵抗低セキュ

    掌形手の大きさ,長さ,

    中 容易 低 0.15 0.15 10 リティ厚さあるいは比率

    施設管理低セキュ

    顔顔の輪郭,目や

    中 容易 低 1 1 1000 リティ鼻の形及び配置

    施設管理高セキュ

    虹彩目の虹彩 (アイリス)

    高登録に

    高 2.8 0 256 リティの放射状の模様 手間

    施設管理

    声紋 話者の音声特徴 中 容易 低 1 0.1 1000電話

    サービス

    署名署名の字体や

    低 容易 低 0.2 0.6 1000セキュア

    署名時の書き順,筆圧 PC

    耳形状,キーストローク,その他 手の甲の血管パターン, 製品化された技術もあるが多くは研究中

    におい,DNAなど

    いる.例えば,簡単なパスワードでは他人が容易に類推することができてしまい,難

    しくすると自分が覚えておけなくなってしまう.忘れないようにするためにメモを残

    してしまうとパスワード漏洩のリスクを高めてしまうことにもなる.そこで,ユーザ

    の生体情報を用いて個人認証を行うバイオメトリクス技術が注目されている.これは,

    個々の人間が有しているさまざまな生体情報(指紋,虹彩,網膜,掌形,音声,署名

    など)を用いて,個人を認証する技術である.これらの生体情報のうち,指紋,虹彩,

    網膜,掌形などは人間の身体的特徴であり,音声,署名などは人間の行動的特徴であ

    る.表 1.1に代表的なバイオメトリクスとその特徴を示す.

    これらのバイオメトリクスの中で最も広く認知され,製品化,システム化されてい

  • 1.2. 話者認識の諸問題 3

    るものは指紋である.指紋は,万人不同,終世不変といわれており,その認証性能は

    高く,パーソナルコンピュータや携帯電話などの個人用の情報端末の管理から高いセ

    キュリティが要求される入退室管理に至るまで,さまざまな分野で利用されており,低

    コスト化も進んでいる.しかし,犯罪捜査等に利用されているためか登録にあっては

    ユーザの心理的抵抗は大きいものがある.

    一方,音声中に含まれる話者性情報を利用して行う話者認証 [2]は,指紋や虹彩など

    の身体的特徴を利用する認証に比べて,その認証性能は低下する.これは,例えば,同

    じ人が話しても,時間帯や体調によって声は変化してしまうように,音声の個人内変

    動が,指紋などの身体的特徴が持つ個人内変動に比べて大きいことが要因である [3].

    また音声中には,話者性情報の他に,音韻性情報や情緒性情報などのさまざまな情報

    が密接に関連しているため,話者性情報を単独に抽出することが困難であることもそ

    の一因である [4].したがって,話者認識において認証性能を向上させるためには,話

    者性情報以外の情報をできるだけ同条件となるように設定することが必要となる [5].

    このように音声を用いた話者認証では,指紋などに比べて認証性能は劣るものの,

    ユーザの心理的な負担は軽く,またマイクロホンや携帯電話等のマイク入力を用いて

    音声を収録することができるので,特殊な装置を必要としないメリットがある.した

    がって,セキュリティを少しでも高めたい場合に気軽に利用できる認証手法として期

    待されている.また,他のバイオメトリクスが,その場に赴かなければ認証できない

    のに対し,音声の場合は電話を利用することによって,離れた場所からでも認証が可

    能となるなど,リモート制御を必要とする分野での利用が見込まれる.今後は,この

    ような適用分野の拡大と認証性能の向上に向けた研究開発が進むものと思われる.

    1.2 話者認識の諸問題

    話者認証技術を製品化した例として,Voice Passport [6],Nuance SpeechSecure [7],

    AmiVoice Mobile Verification [8]などが存在するが,指紋認証を応用した製品に比べ

  • 4 第 1章 序論

    たら,その数ははるかに少ない.これはやはり,話者認識の認証性能が指紋などに比

    べて低いためであると考えられる.商業的利用の場合,高い認証性能が得られなけれ

    ば,利用者に与える不利益が多くなり,その結果,採算に合わなくなってしまうとい

    う問題を抱えている.したがって,話者認識の認証性能を,今以上に向上させること

    ができなければ,商業的利用の更なる普及は難しいと思われる.また,音声を対象と

    した話者認証を行うためには,認証性能以外にも解決すべき問題が多く,その問題点

    にも対処できなくては本格的な実用化は望めないと考えられる.以下に,その主だっ

    た問題点を列記する.

    (1) 基本的な認証性能の向上

    話者認識において認証性能を向上させるためには,話者性情報以外の情報をで

    きるだけ同条件となるように設定することが望ましい.したがって,同じ発声内

    容を比較することが可能な場合は,この手法を用いるべきである.一方,自由発

    話による認証は,ユーザにとっての利便性が向上すると考えられることから,こ

    れまでに異なる発話内容を比較する認証性能の向上を目的とした照合手法に関す

    る検討も行われている.確率モデルの有効性が示されて以来,確率モデルを用い

    た照合手法が基本となっている.

    また話者認識で広く用いられている特徴量は,LPCケプストラム係数 (LPCC)

    やメル周波数ケプストラム係数 (MFCC)などである.これらの特徴量は音声認

    識のために開発されたものであるが,話者認識においても有効であることから,

    よく用いられている.照合手法の高精度化の検討も必要であるが,それと並行し

    て,話者認識のための特徴量を見出すことも必要である.

    (2) 実環境下における認証性能の向上

    実用化を念頭に入れた場合,話者の周囲の環境雑音の影響を考慮することがで

    きなければ,話者認識の認証性能の低下は避けられない.携帯電話の普及によっ

    て,いろいろな環境から通話が可能となった現在,発話者周辺のいかなる環境に

  • 1.3. 法科学分野特有の問題点 5

    も対応できる手法の開発が望まれている.

    1.3 法科学分野特有の問題点

    筆者が身をおく犯罪捜査,犯罪鑑識などの法科学分野も,音声による話者認証技術

    の確立を期待している分野の一つである [9][10].

    話者認証において,法科学分野と他の分野における最大の違いは,その扱う話者に

    ある.他の分野では,一般に,自分自身を認証してもらいたい話者(協力的話者)を

    対象としているのに対し法科学分野で扱う話者はその逆に,自分自身を認識してもら

    いたくない話者(非協力的話者)を対象としている.話者が協力的であれば,認証し

    てもらいたいとの話者の配慮が働き,その結果,認証性能の向上が見込まれる.一方,

    法科学分野では,非協力的な話者を対象とするため,話者の配慮は認証性能を低下さ

    せる方向に働くことになる.

    このことから,法科学分野での話者認証は,商業的利用における話者認証よりも困

    難な面を持っている.しかし法科学分野では,2つの音声を比較して同一人の音声で

    あることが断言できなくても,例えば,「2つの音声を比較したところ,90% の可能性

    で同一人の音声であると推定できる」などといった同一人の音声である可能性を示す

    ことができれば良いことが多い.このときに必要なことは,判断の根拠を客観的に示

    すことである.したがって,このような根拠が確保されていれば,多少,認証性能が

    低くても,実用化は可能であると考える.

    法科学分野における話者の認証性能も,商業的利用と同様に,高いほど良いのは言

    うまでもない.しかし,法科学分野での利用にあたって最も大事なことは,判断までの

    過程が客観的に明らかで,かつ,再現性が確保されていることである.そのため,法科

    学分野では,認証結果が裁判における証拠として採用されることを念頭に置き,信号

    処理技術を利用した,より客観性の高い認証手法の研究開発を行っている [11][12][13].

    扱う話者以外に法科学分野に特有と考えられる主だった問題点を以下に列記する.

  • 6 第 1章 序論

    (1) 十分な音声資料が得られない場合の対処

    最近では,ノンパラメトリックな照合手法に関する研究 [14][15]も行われてい

    るが,これまでは隠れマルコフモデル (Hidden Markov Model:HMM)[16][17]や

    混合ガウス分布モデル (Gaussian Mixture Model: GMM)[18][19]などのパラメト

    リックな確率モデルに基づく話者認識が広く研究されている.

    一般には,事前に登録された数分程度の発話長を持つ音声資料から話者モデル

    を構築する.しかし,法科学分野においては,事前に話者モデルを構築すること

    はできないので,与えられた音声資料から話者モデルを構築することになる.こ

    のとき,事前登録で用いている音声資料と同程度の発話が得られれば,その発話

    から話者モデルを構築することができるが,常に十分な長さの発話が得られると

    は限らない.そこで,発話長の短い音声資料を用いたときの認証性能について検

    討する必要がある.このような利用形態は,一般の話者認識ではあまり考慮する

    必要はないが,法科学分野では,検討しなければならない課題の一つである.

    (2) 判断基準と評価手法

    話者の同一性を判断するための判断基準は,比較する音声資料の発声内容の影

    響を受ける.どんな発話を対象とするか事前に指定することができない法科学的

    利用においては,発声内容の影響をできるだけ受けない判断基準が望ましいと

    考える.また,照合する 2つの音声資料がどの程度の可能性で同一人であるかの

    判断が求められることから,個々のケースにおいて,同一人か否かの判断のほか

    に,同一人である可能性を示すことができる評価手法について検討する.

    1.4 本論文の目的

    これまでに話者認識における一般的な問題点と法科学分野における問題点を述べた.

    一般的な問題点のうち,(2) 実環境下における認証性能の向上に関しては,話者認識

  • 1.4. 本論文の目的 7

    のみならず,音声認識においても検討すべき課題であり,現在,これに関連した研究

    は数多く行われている [20][21].

    そこで本論文では,共通課題である “基本的な認証性能の向上”と法科学分野におい

    て検討すべき課題である “十分な音声資料が得られない場合の対処”,“判断基準と評

    価手法” に関連する以下の 3点に焦点を当てて検討を行った.

    (1) 特徴量変換

    一般的に用いられている特徴量を話者認識に有効になるように変換する方法を

    提案し,話者認識の認証性能の向上を目指した.提案する特徴量変換は,特徴量

    の平均値,標準偏差で標準化を行い,そのノルムで正規化するものである.この

    変換によって,話者の発声による特徴量の変動が減少し,話者認識の認証性能の

    向上に寄与すると考えられる.

    提案する特徴量変換に類似する研究として,Projection Measure(PM)が提案さ

    れている [22].これは,特徴量を変換するのではなく,資料を比較する際の歪み尺

    度にノルムで正規化するのと同様の効果を持たせたものである.この研究の結果,

    ノルムで正規化することは耐雑音性に効果があることが示されたことから,雑音

    に頑健な音声認識,話者認識に関する研究も行われている [23][24][25].特徴量を

    変換する手法として,ケプストラム平均値正規化 (Cepstral Mean Normalization:

    CMN),ケプストラム分散正規化 (Cepstral Variance Normalization: CVN)や両者

    を組み合わせたケプストラム平均分散正規化 (Mean and Variance Normalization:

    MVN)などの正規化法が提案され,乗法性歪みや加法性雑音の軽減に有効であ

    ることが示されている [26][27][28].このMVNは,本論文で試みている特徴量変

    換の一つである標準化変換と同じ変換ではあるが,MVNでは,発話を単位とし

    て平均値等の算出を行うのに対し,本論文では,発話や話者に依存しない平均値

    等を得るために複数話者の発話の集合を用いている.

    (2) 発話長の短い資料を対象としたベクトル量子化に基づく話者照合手法

  • 8 第 1章 序論

    法科学分野では,2つの音声資料が同一の話者によって発声されたものである

    か否かを判断することが要求されることから,そのような利用形態に有効なクロ

    ス照合法を提案する.これは一方の音声資料で話者モデルを構築し,そのモデル

    に対する他方の音声資料の尤度や歪みを相互に求めて照合する手法である.一般

    の話者認識では,事前に構築した話者モデルに未知音声を入力するので,相互に

    尤度や歪みを求めることはしない.

    また,発話長の短い音声資料を扱うことが多い法科学的利用において,発話長と

    その認証性能の関係を明らかにすることは必要である.先行研究 [29]で,発話長が

    20秒程度のときに,HMMを用いるよりもベクトル量子化 (Vector Quantization:

    VQ)を用いる方が有効であることが示されていることから,本論文でもベクト

    ル量子化に着目し,更に発話長の短い 10秒以下の音声資料を対象としたときの

    照合手法や話者モデルの作成に関して検討を行った.

    (3) 判断基準

    既に法科学の他の分野でも利用されている尤度比の利用を試みた.話者認識に

    おいても,音声学的見地から既に行われている [30][31]が,信号処理技術を利用

    した自動話者認識においては最近検討されるようになった.

    尤度比を利用するメリットは,どんな特徴量であっても,その比較結果が確率

    の比として表わされるので,判断の基準を画一化することができることである.

    話者認識に用いる特徴量は,その録音系の影響を受け,それに伴い,判断の基準

    も影響を受けてしまう.さまざま環境下において収録される音声を対象とする法

    科学分野においては,判断の基準を画一化できることは,極めて有効であると考

    える.

    また,照合する 2つの音声資料がどの程度の可能性で同一人であるかを示すた

    めに,証拠能力の強さを利用することができることも利点の一つである.そこで

    本論文でも,尤度比を利用するこれらのメリットを検証するための話者照合実験

  • 1.5. 本論文の構成 9

    を行った.

    1.5 本論文の構成

    本論文は,話者認識の法科学分野における実用化を目的とし,認証性能の向上と認

    識結果の信頼性の確立を目指したもので,全 8章から成る.

    第 2章では,話者認識の概要及び法科学分野で要求される話者認識形態について説

    明した後,本論文で使用する音声資料,特徴量抽出並びに評価方法について述べる.

    第 3章では,話者認識に有効な特徴量変換である標準化・正規化変換を提案する.前

    述のように,音声には,音韻性情報,話者性情報などのさまざまな情報が含まれてい

    るが,これらを独立の情報として抽出する技術は残念ながらまだ無い.そこで本論文

    では,新たな特徴量を抽出するのではなく,話者認識に有効となるように既存の特徴

    量を変換することを提案する.そして,第 4章では単独発声母音を,第 5章では連続

    音声中の母音をそれぞれ対象とした話者照合実験を行い,提案した標準化・正規化変

    換の有効性を検証する.

    第 6章では,ベクトル量子化を用いたテキスト独立型話者照合手法の法科学的な照

    合形態を提案するとともに,標準化・正規化変換を導入することによって話者照合性

    能の向上が図れることを示す.特に,照合する音声資料の発話長が極めて短い場合に

    おける話者モデル構築に関する検討を行っている.

    第 7章では,他の法科学的な判断にも利用されている尤度比を話者照合に適用する

    ことの有効性を検討する.照合する 2つの音声資料がどの程度の可能性で同一人であ

    るかを示す証拠能力の強さを利用した評価や音素の違いに対する判断基準の安定性に

    ついて検討を行う.

    最後の第 8章では,これまでの章で見出された結果をまとめるとともに,今後,検

    討すべき課題について述べる.

  • 10 第 1章 序論

  • 11

    第2章 話者認識

    2.1 緒言

    人間は,自分が意図した内容を相手に伝えるために “声”を利用する.聞き手は,そ

    の “声”を聞いて,話し手が何を伝えようとしているのか(音韻性情報),話し手は誰

    なのか(話者性情報),このときの話し手の感情はどのような状態であるのか(情緒

    性情報)といったことを聞き取ることができる.このように音声にはさまざまな情報

    が含まれているが,このうち音声に含まれる音韻性情報を利用して,発声している内

    容を認識することを音声認識 (Speech Recognition),話者性情報を利用して,発声者

    が誰であるかを判断することを話者認識 (Speaker Recognition)と呼ぶ.認識性能を向

    上させるためには,これらの情報をそれぞれ単独に抽出することが望まれるが,これ

    らの情報は,音声信号中に複雑に絡み合っているため,それぞれを明確に分離して抽

    出することは困難である.そのため,認識性能を向上させるために,音声認識では話

    者を固定し,話者認識では発声内容を固定することによって,認識を行うことが多い

    [5].

    音声から話者を判断するための最も基本的な手法は,耳で聞くことである.我々も,

    よく知っている人の声ならば,聞いただけで誰の声かを判断することができる.この

    ような人間の聴取による話者の個人識別は,1932年に米国で起きたC. A. Lindberg氏

    子息誘拐事件がきっかけとなり,1937年に初めて科学的検討が行われた [32].

    その後,1945年に米国ベル研究所のP. K. Potterが,音声を周波数分析することに

    よって,音声に含まれる周波数成分の強さを濃淡表示し,その時間変化を描画するサ

    ウンドスペクトログラフを開発した [33].この分析結果は,スペクトログラムまたは声

  • 12 第 2章 話者認識

    紋と呼ばれている.更に,1962年に米国ベル研究所の L. G. Kerstaによって,スペク

    トログラムを用いた話者認識の可能性が示され [34],聴取による話者の識別から,音

    声の物理的な解析による話者の識別へと研究の手法も広がりを見せた [35][36].

    聴取,視察のいずれの手法も,話者の判断を人間の感覚に大きく委ねており,判断

    する人の経験によるところが大きい.そこで,客観的判断が可能な自動話者認識に関

    する研究 [37]が数多く行われるようになり,認証性能の向上も図られている.

    2.2 話者認識の分類

    2.2.1 比較形態による分類

    話者認識は,その比較形態により,話者照合 (Speaker Verification)と話者識別 (Speaker

    Identification)に分類することができる.

    話者照合は,図 2.1に示すように,未知話者Xの音声とその音声を発声した話者が

    Aであるという話者 IDが与えられたときに,その未知話者Xの音声が本当に申告者

    Aの音声であるか否かを判断することである.この場合,申告者Aの音声を用いて構

    築した話者モデルの未知話者Xの音声に対する尤度または距離を求め,判断の基準と

    なるしきい値との大小関係によって,未知話者Xの音声が申告者Aの音声であるか否

    かを判断することが一般的である.この場合,判断の基準となるしきい値は,多数の

    話者の音声を用いた話者照合実験を行い,事前に求めておくことが必要である.

    法科学分野では,一般の話者照合のように事前に話者モデルを構築しておくことは

    できない.したがって,図 2.2に示すように,2つの音声資料を比較することによって

    話者照合を行うことになる.つまり,犯人の音声と被疑者の音声を比較し,同一人に

    よって発声されたものか否かを判断する.この場合,数分程度の音声資料が得られる

    ならば,その音声資料から話者モデルを構築することができるので,一般の話者照合

    と同様な利用形態をとることが可能となる.しかし,必ずしも十分長い音声資料が得

    られるとは限らない.例えば,犯人同士の音声を比較し,同一犯によるものかどうか

  • 2.2. 話者認識の分類 13

    を判断するような場合などは,短い音声資料しか得られないことが多い.したがって,

    与えられた音声資料の発話長と話者照合性能の関係を明らかにする必要がある.

    一方,話者識別は,図 2.3に示すように,未知話者Xの音声が,登録されている複

    数の話者の中の誰が発声した音声であるかを判断することである.この場合,登録話

    者毎に構築した話者モデルの未知話者Xの音声に対する尤度または距離をそれぞれ求

    め,最も高い尤度または最小距離を与えた登録話者が未知話者Xの音声を発声した話

    者であると判断する.つまり,第 1位に選ばれた登録話者だけに注目していることに

    なる.

    法科学的な話者識別では,図 2.4に示すように,複数の被疑者のうち,誰の音声が

    犯人の音声に最も似ているかを判断するのに利用することができる.これを話者検索

    (Speaker Retrieval)と呼んでいる [38].したがって,登録話者中の第 1位にヒットし

    なくても,多数の被疑者の音声を,犯人の音声に似ている順に提示することによって,

    被疑者の絞込みに利用することができる.

    話者識別では,未知話者 Xの音声と個々の登録話者を相互に比較することになる.

    つまり,1対多の比較になる.しかし,基本となるのは,1対 1で比較する話者照合で

    あるので,本論文では,話者照合を対象とした.

    2.2.2 音声資料による分類

    話者認識で対象とする音声資料によって,テキスト依存型,テキスト独立型,テキ

    スト指定型の 3つに分類することができる.

    テキスト依存型は,同じ単語,同じ母音など,同じ発話(キーワード)を比較対象と

    するものである.前述のように,音声には音韻性情報,話者性情報,情緒性情報などの

    さまざまな情報が複雑に絡んでおり,これらを独立に抽出することはできない.した

    がって,発声内容を固定するテキスト依存型の方が,音韻に依存した話者性情報を比

    較することができるので,テキスト独立型より高い認識性能を得ることができる.し

  • 14 第 2章 話者認識

    未知話者音声X話者ID:A 未知話者音声Xの発声者は,申告通り,Aであるか否か

    登録話者音声A話者モデル

    図 2.1: 一般の話者照合

    犯人の音声X 犯人の音声Xと被疑者の音声Yは,同一人が発声した音声であるか否か被疑者の音声Y図 2.2: 法科学分野における話者照合

    未知話者音声X 未知話者音声Xは、登録話者A~Nのうち,誰の音声であるか

    登録話者A話者モデル 登録話者B話者モデル 登録話者N話者モデル…

    図 2.3: 一般の話者識別

    犯人の音声X 被疑者A~Nのうち,犯人の音声に似ている順に,順位付け

    被疑者B …被疑者A 被疑者N

    図 2.4: 法科学分野における話者識別(話者検索)

  • 2.2. 話者認識の分類 15

    たがって,テキスト依存型による話者認識が可能な場合は,この手法を用いるべきで

    ある.

    一方,テキスト独立型は,テキスト依存型に比べて認識性能は劣るものの,発話に

    制限を設ける必要がないことから,その応用分野は広く,例えば,複数話者の会話が

    収録されているときに,誰がどの部分を話しているかを知りたいときや指定した話者

    の発話だけを抜き出したいといったときにも利用することができる.長時間平均スペ

    クトルを用いる手法 [39]が,テキスト独立型話者認識手法の初期の手法である.これ

    は,話者の特性は発声する内容に依存するが,数十秒程度の音声の平均的な特徴を利

    用することによって,発声の違いによる影響が小さくなることを利用した手法である.

    しかし,高い話者認識率を得ることはできない.その後,確率モデルの利用が有効で

    あることが示されてからは,話者モデルの構築に必要な音声資料が十分に与えられる

    ならば,高い話者認識率を得ることができるようになっている.

    テキスト指定型 [40]は,話者に発声させる内容を認証システムが提示し,提示した

    内容を話しているかどうか,申告話者が話しているかどうかというように音声認識と

    話者認識を組み合わせることによって認証を行うものである.これは,当該話者の音

    声を録音し,認証システムの前で再生したときになりすまして認証されてしまうこと

    を防ぐ目的で開発された手法である.話者認識という観点から見れば,テキスト依存

    型の話者認識手法を利用することができる認証方法である.

    本論文では,テキスト依存型とテキスト独立型の両方の形態を扱っている.つまり,

    第 4章,第 5章では母音を,第 7章では,音素を対象としており,その対象とする音

    韻ごとに特徴量間を比較することによって話者照合を行っている.一方,第 6章では,

    テキスト独立型の話者照合を行っている.

  • 16 第 2章 話者認識

    2.3 音声データベース

    音声認識研究を行う上で必要不可欠なものが,音声データベースである.現在,入

    手可能な音声データベース [41]はいくつか存在するが,実用化を目的とした検証を行

    うためには,研究目的に合った音韻,発声者数,性別,発声内容や収録条件などを設

    定した上で音声を収録する必要がある.特に,話者認識研究用の音声データベースに

    必要な条件は,時期差のある音声を収録することである.話者認識を困難にする要因

    は,話者の個人内変動が大きいことである.したがって,同時期に収録した音声を用

    いて研究を行っても,話者の個人内変動に対応することができないので,実用化は望

    めない.

    法科学分野では,電話音声を扱うことが多い.そこで本論文で行う話者照合実験で

    は,収録条件の異なる 2種類の電話音声データベースを構築した.一つは黒電話音声

    データベース,もう一つはファッション電話音声データベースである.これらの音声

    データベースの仕様は以下の通りである.

    2.3.1 黒電話音声データベース

    昭和 60年~62年頃に全国の警察職員の方々の協力を得て,600型ダイアル式黒電話

    機を用いて警察電話回線を経た音声を収録した.収録は都道府県ごとで行った.男性

    発声者が比較的静かな環境から収録担当者あてに架電して,収録担当者が発声者の音

    声をカセットテープに録音するという方法を採用した.発声内容は,日本語 5母音や

    数字の他に犯罪に利用される可能性の高い単語,文章を選んだ.前述のように,話者

    認識実験を行うためには,時期差のある音声を収録する必要があるので,ここでは,3

    ~4ヶ月の時期差を設けて 2時期にわたって,各時期 2回の発声を収録した.発声話者

    数は,1時期目 3,033名,2時期目 2,575名であった.

    カセットテープに録音した音声資料をディジタルデータに変換するために,サンプ

    リング周波数 10kHz,量子化精度 12bitでA/D変換を行い,発話ごとにラベリングす

  • 2.3. 音声データベース 17

    ることによって,音声データベースとして登録した.その際,収録した発声話者数は

    最大 3,033名のうち,2時期にわたって発声し,発声時期差など上記の条件を満たす話

    者で,かつ,録音状態の良い音声資料に限定した.その結果,登録話者数は,740名

    となった.黒電話音声データベースの仕様を表 2.1にまとめて示す.

    2.3.2 ファッション電話音声データベース

    日本電信電話公社が民営化されたことによって,これまで使われていた 600型黒電

    話に代わって,さまざまな形状を持つ電話機が普及した.このような電話機をここで

    はファッション電話と呼んでいる.これらの電話機はプッシュボタン型電話機で,そ

    のマイクロホンには,コンデンサマイクロホンが採用されており,従来用いられてい

    た黒電話におけるカーボンマイクロホンとはその特性を異にしている.

    そのため,改めて,平成 11~12年頃に全国の警察職員の方々の協力を得て,ファッ

    ション電話を用いて警察電話回線を経た音声を収録した.男性発声者が,最寄りの比

    較的静かな環境から,科学警察研究所内設置のパーソナルコンピュータで構成された

    自動通話収録装置に架電することによって,その音声の収録を行った.したがって,本

    データベースの収録場所はすべての話者に対して共通となっている.発声内容は,先

    のデータベースと同様に,日本語 5母音の他に犯罪に利用される可能性の高い単語,文

    章を選んだ.本データベースの収録時期及び発声回数は,先のデータベースより増や

    し,3ヶ月程度の時期差を設けて 3時期にわたって,各時期 3回の発声とした.

    自動通話収録装置上でサンプリング周波数 11.025kHz,量子化精度 16bitでA/D変

    換し,更に,電話音声であることから,8kHzにダウンサンプリングを行ったディジタ

    ルデータを,発話ごとにラベリングすることによって,音声データベースとして登録

    した.その際,自動収録時におけるオーバーフローの検知が不十分であったことや,発

    声者の周囲の雑音が多い場所での発話があったため,収録した発声話者のうち,録音

    状態の良い話者 300名を選択して話者認識実験に使用した.ファッション電話音声デー

  • 18 第 2章 話者認識

    タベースの仕様を表 2.2にまとめて示す.

  • 2.3. 音声データベース 19

    表 2.1: 黒電話音声データベースの仕様

    使用電話機 600型ダイアル式黒電話架電元 発声者が所属する組織内設置の電話架電先 発声者が所属する組織内設置の電話録音方法 都道府県ごとにカセットテープに録音発声数 成人男性発声話者数 第 1時期 3,033名,第 2時期 2,575名話者年齢 20歳代~50歳代発声時期 2時期発声時期差 3~4ヶ月発声回数 各時期 2回発声内容 5母音,10数字,27単語,14文章

    イ,エ,ア,オ,ウ,0(ゼロ),1(イチ),2(ニ),3(サン),4(ヨン),5(ゴ),6(ロク),7(ナナ),8(ハチ),9(キュウ),車,電話,警察,毒,連絡,爆弾,銀行,時間,もしもし,はい,俺,金(カネ),私(ワタシ),子供,仲間,会社,高速道路,大丈夫,約束,レストラン,女,今日(キョウ),現金,あのー,ねー,奥さん,あのねー,時間はまた連絡する,子供は大丈夫だ,爆弾を仕掛けた,今から一人で来い,今日中に,銀行に振り込め,もう一度電話する,火事です,喫茶店がある,車に乗って,逆探するな,明日(アシタ)の朝,お金を用意しろ,警察に言うな

    登録話者数 740名サンプリング周波数 10kHz量子化精度 12bit

  • 20 第 2章 話者認識

    表 2.2: ファッション電話音声データベースの仕様

    使用電話機 ファッション電話架電元 発声者が所属する組織内設置の電話架電先 科学警察研究所内に設置の電話録音方法 自動通話収録装置を用いて録音発声者 成人男性発声話者数 第 1時期 2,839名,第 2時期 2,811名,第 3時期 2,781名話者年齢 20歳代~50歳代発声時期 3時期発声時期差 3~4ヶ月発声回数 各時期 3回発声内容 5母音,25単語,13文章

    ア,イ,ウ,エ,オ,車,電話,警察,毒,連絡,爆弾,銀行,時間,もしもし,はい,俺,金(カネ),私(ワタシ),子供,携帯,火事,コンビニ,大丈夫,昨日(キノウ),今日(キョウ),明日(アシタ),現金,あのー,ねー,あのねー,時間はまた連絡する,子供は大丈夫だ,爆弾を仕掛けた,今から一人で来い,今日中に銀行に振り込め,火事です,コンビニがある,携帯をもって車に乗れ,逆探するな,明日(アシタ)の朝,もう一度電話する,お金を用意しろ,警察に言うな

    登録話者数 300名サンプリング周波数 11.025kHz → 8kHz量子化精度 16bit

  • 2.4. 音声分析と特徴量 21

    2.4 音声分析と特徴量

    Speech SignalLPCAnalysis……

    extract Window Pre-emphasis図 2.5: 音声分析の流れ

    2.3節で紹介した音声データベースに対して,図 2.5に示す手順に従って音声分析を

    行った.まず,ディジタルデータに変換された音声信号に対して,短時間ごとに分析を

    行う.この分析単位をフレームと呼び,その長さをフレーム長と呼ぶ.切り出したフ

    レームに対して分析を行うが,その両端において生じる不連続を緩和させるために窓

    掛けを行う.このときに用いる窓関数にはさまざまなものがあるが,本論文では,ハ

    ミング窓を用いた.ハミング窓の窓関数は,分析窓のサンプル数N とすると,

    WH(n) = 0.54− 0.46 cos(

    2nπ

    N − 1)

    , (0 ≤ n ≤ N − 1) (2.1)

    で表わされる.窓関数をかけることによって,等価的に分析区間が短くなるので,情報

    の欠落を生じないようにするために,分析区間が一部重複するようにフレームをずら

    して分析を行うことが多い.このときのフレームをずらす量をフレームシフトと呼ぶ.

    本論文では,フレーム長 256ポイント,フレームシフト 128ポイントとした.したがっ

    て,黒電話音声データベースでは,サンプリング周波数が 10kHzなので,フレーム長

    25.6ms,フレームシフト 12.8msとなり,ファッション電話音声データベースでは,ダ

  • 22 第 2章 話者認識

    ウンサンプリング後のサンプリング周波数が 8kHzなので,フレーム長 32ms,フレー

    ムシフト 16msとなる.

    音声は,−6dB/octのスペクトル減衰特性を持っているので,音声信号の差分,あるいは次の伝達関数を持つ 1次のディジタルフィルタを施すことによって,高域強調を

    行うことが望ましい.

    H(z) = 1− α · z−1 (2.2)

    ここで,αは高域強調係数と呼ばれるもので,α = 0.90~0.98の固定した値がよく用

    いられる.本研究では,分析区間の音韻によって強調の程度を変えるために,分析区

    間のスペクトル慨形を直線近似した時の傾斜を利用する 1次の適応型高域強調 [42]を

    行った.

    このような前処理を施した音声信号に対して,フレームごとに線形予測分析 [42]を

    行い,自己相関関数,線形予測係数などの特徴量を求めることができる.またこれら

    の特徴量は相互に変換が可能である.本論文では,話者認識でよく利用されるLPCケ

    プストラム係数 (LPCC)を主として使用した.

    LPCケプストラム係数以外で話者認識によく利用される特徴量として,メル周波数

    ケプストラム係数 (MFCC)[43]がある.これは,三角フィルタの特性を持つチャネル

    が非線形な間隔で並んだフィルタバンクに対して,フレームごとにフーリエ変換を施

    して求めた振幅スペクトルを通過させることによって,各チャネルにおける出力を求

    めるものである.この出力をメルスペクトルと呼ぶ.メルは,人間の聴覚心理に基づ

    いて定義された尺度である.k次のメル周波数ケプストラム係数 Ck, (k = 1, . . . , K)

    は,M 個のフィルタバンクの出力 b(1), b(2), . . . , b(M)に対して,

    Ck =

    √√√√ 2M

    M∑m=1

    log b(m) cos

    {(m− 1

    2

    )kπ

    M

    }, (k = 1, . . . , K) (2.3)

    によって定義される離散コサイン変換を行い,各コサイン成分に分解することによっ

    て求めることができる.

  • 2.5. 話者照合系の評価法 23

    2.5 話者照合系の評価法

    特徴量や照合手法を変えて話者照合実験を行うが,どの条件における話者照合シス

    テムが優れているかを評価しなければならない.この評価には,いくつかの方法があ

    るが,ここでは,同一人を別人に誤る本人棄却率と別人を同一人に誤る詐称者受理率

    とが等しくなる等誤り率を求め,そのときの正答率を話者照合率と呼び,話者照合率

    が高いほど優れた話者照合システムであると判断する.

    判断基準である等誤り率を与えた尤度または距離の値をしきい値と呼ぶが,照合に

    用いる音声資料によって,このしきい値は異なる.どんな発話を対象とするか指定す

    ることができない法科学的利用においては,発声内容の違いによる,しきい値の変動

    が小さいほど望ましいと言える.そこで,テキスト独立型において,異なる発声内容

    の音声を用いたときのしきい値の平均値,標準偏差を求め,その標準偏差を平均値で

    割った変動係数 [44]をしきい値の安定度を評価する尺度とした.

    2.6 本論文における話者照合実験の概要

    本論文では,提案する特徴量変換の有効性を検証するために,まず第 4章,第 5章

    で,日本語音声で最も基本となる音韻である母音を対象としたテキスト依存型話者照

    合実験を行う.使用する特徴量は,話者認識に広く用いられているLPCケプストラム

    係数とメル周波数ケプストラム係数とする.

    従来,単独発声母音や連続音声中の母音を対象とした話者照合を行う場合は,母音

    発声時における声道や口腔内の状態変動が小さく,特徴量の時間的変動は少ないと考

    えられるので,発話区間,もしくは同じ母音であると判断された全フレームの特徴量

    から求めた平均値間のユークリッド距離を用いることが多い.本論文においても,同

    様の手法で照合実験を行う.したがって,特徴量変換を行わない(無変換)ときの話

    者照合率をベースラインとし,特徴量変換によって話者照合率がどの程度向上するか

    を議論することによって,提案する特徴量変換の有効性を検証する.

  • 24 第 2章 話者認識

    次に第 6章で,VQに基づくテキスト独立型話者照合における特徴量変換の効果につ

    いて述べる.テキスト独立型話者照合において最も利用されている照合手法はGMM

    に基づく手法であるが,先行研究 [29]で,20秒程度の短い発話長においては,VQの

    方が有効な照合手法であることが示されていることから,ここでは,VQに基づく話

    者照合手法に関する種々の検討を行う.ただし,本論文では更に発話長の短い 10秒以

    下の音声資料を対象とするので,GMMに基づく照合実験も行い,話者照合率の比較

    を行うこととする.

    VQに基づく話者照合では,各フレームの特徴量と VQコードブック間の VQ歪み

    を求めるが,このVQ歪みは,最小ユークリッド距離の和として計算されることから,

    上記の母音による話者照合と同様に扱うことができる.つまり,無変換のときの話者

    照合率がベースラインとなり,特徴量変換によって話者照合率がどの程度向上するか

    を議論することとする.

    また,異なる発話内容間で照合する際,判断の基準値であるしきい値が発話内容の

    違いによって変動する.そこで,特徴量変換を施すことによって発話内容の違いによ

    るしきい値の変動を抑えることができることを示す.

    第 7章で,尤度比尺度を導入することの有効性を連続音声中の音素を対象として検

    証する.ここでも扱う対照が音素であることから,第 4章,第 5章と同様に,平均特徴

    量を用いたユークリッド距離による照合を従来法として位置付けることができる.し

    たがって,尤度比尺度による話者照合率とユークリッド距離による話者照合率との比

    較を行う.更にこれらに対して,特徴量変換を施すことによって,話者照合率がどの

    程度向上するかを議論することとする.

    この尤度比尺度は,音声学的見地からの既に検討されているものであり,そこでは

    ホルマント周波数が利用されていることから,本論文で使用する特徴量は,LPCケプ

    ストラム係数に加えてホルマント周波数も対象とする.

    また,尤度比尺度の利用によって,照合する 2つの音声資料が同一人によって発声

    された可能性を評価できることを示すとともに,音素の違いによるしきい値の変動が,

  • 2.7. 本章のまとめ 25

    特徴量変換を施すことによって抑えることができることも示す.

    2.7 本章のまとめ

    本章ではまず,話者認識の歴史的な背景を紹介した.音声から話者を判断するため

    の最も基本的な手法は聴取であるが,サウンドスペクトログラフの開発によって,音

    声を目で見ることができるようになったことから,音声の物理的な解析による話者認

    識研究が広がりを見せた.しかし,聴取,視察のいずれの手法も,話者の判断を人間

    の感覚に大きく委ねており,判断する人の経験によるところが大きい.そこで,客観

    的判断が可能な自動話者認識に関する研究が広く行われている.

    次に.一般的な話者認識と法科学分野で要求される話者認識にはかなりの違いがあ

    ることを述べた.そして,本論文で使用する音声データベース,特徴量抽出手法並び

    に話者照合手法の評価方法,更に,第 4章以下の話者照合実験で行う照合手法の概要

    を説明した.

    本論文では,法科学分野における実用化を目的とした実証検証を行うために構築し

    た電話音声を対象とした 2種類の音声データベース(黒電話音声データベース,ファッ

    ション電話音声データベース)を使用した.これらの音声データベースは,電話を介し

    て,多時期にわたって収録した日本語音声を話者認識実験が行えるように,話者ごと,

    発話ごとにまとめたものである.複数の時期で収録し,話者数 300名を超えるデータ

    ベースは他に類を見ないものである.

  • 26 第 2章 話者認識

  • 27

    第3章 話者認識のための特徴量変換

    3.1 緒言

    これまで話者認識性能の向上を目指して多くの研究が行われている.特に,テキス

    ト独立型においては,GMMなどの確率モデルの利用によって,その性能が大きく向

    上した.話者認識の研究において広く利用されている特徴量は,LPCケプストラム係

    数 (LPCC)やメル周波数ケプストラム係数 (MFCC)などのケプストラム空間における

    特徴量である.これらの特徴量は,主として,音声認識のために見出されたものであ

    るが,話者認識にも利用でき,かつ,比較的高い認識性能が得られることから広く利

    用されている.しかし,現在の話者認識性能を更に向上させるためには,音声に含ま

    れる話者性情報を効率良く抽出する技術,つまり,話者認識のための特徴量の抽出手

    法の開発が望まれる.ところが,音声中に含まれる話者性情報は,音韻性情報や情緒

    性情報などと複雑に絡みながら存在しているため,これらのどの情報も単独に抽出す

    ることは困難である.したがって,この開発は残念ながら一朝一夕に行うことはでき

    ないであろう.

    そこで本論文では,新たな特徴量を抽出するのではなく,既存の特徴量を話者認識

    を行うのに有効となるように変換することを考える [45][46][47].提案する特徴量変換

    は,特徴量の平均値,標準偏差を用いて行う標準化変換と,特徴量ベクトルのノルム

    を 1にする正規化変換を連続して行う標準化・正規化変換である.この変換によって,

    特徴量に与える発声変動の影響が減少するため,話者認識性能の向上に寄与すること

    が期待される.

    本章の構成は,以下のとおりである.第 3.2節では,本論文で提案する特徴量変換

  • 28 第 3章 話者認識のための特徴量変換

    -0.6-0.4-0.20.00.20.4

    0.6 0.8 1.0 1.2 1.4 1.6 1.81次のLPCケプストラム係数5次のLPCケプストラム係数 話者2 話者1

    話者4話者3平均値

    図 3.1: LPCケプストラム係数の分布図(1次 vs. 5次:母音/e/)

    の基本概念を説明し,第 3.3節で本章のまとめを行う.

    3.2 特徴量変換

    話者認識でよく利用されるLPCケプストラム係数の分布状態を求め,その中で各話

    者の特徴量がどのような位置に布置するかを調べるために,ファッション電話音声デー

    タベースの中から選んだ 4名の話者が,3時期にわたって,各時期 3回,単独に発声し

    た母音/e/を LPC分析し,12次の LPCケプストラム係数を求めた.図 3.1に LPCケ

    プストラム係数の 1次の係数と 5次の係数の分布を示す.

    図 3.1を見ると,各話者のデータは分布の中心から放射状に布置していることが分

    かる.他の次数間,他の母音においても同様の傾向がみられる.このような分布状態

    であることを考慮すると,任意の話者の母音音声は,複数話者によるその当該母音の

    分布の中心,つまり,平均値から見て,それぞれある方角に分布する傾向があると考

  • 3.2. 特徴量変換 29

    θ

    y

    xO

    1

    1

    b

    α̂

    図 3.2: 2点間のユークリッド距離と成す角度の関係

    えられる.

    そこで,話者の違いを表す尺度として,2つの特徴量間のユークリッド距離の代わ

    りに,分布の中心から見た 2つの特徴量間の成す角度を利用することを考える.

    図 3.2に示すように,特徴量間のユークリッド距離を dとすると,次式のように表

    すことができる.ただし,上付添字 Tは転置を表す.

    d2 = (a− b)T(a− b) (3.1)

    また,特徴量の原点Oと 2つの特徴量に向うベクトルの成す角度を θとすると,次式

    の関係が成り立つ.

    cos θ =〈a, b〉

    ‖a‖ · ‖b‖ =〈

    a

    ‖a‖ ,b

    ‖b‖〉

    =〈â, b̂

    〉(3.2)

    ここで,〈, 〉は内積を,â,b̂はそれぞれ a,bのノルムで正規化した特徴量を表す.式 (3.2)より,特徴量の原点から 2つの特徴量に向うベクトルの成す角度の余弦は,2

  • 30 第 3章 話者認識のための特徴量変換

    つの特徴量をそのノルムで正規化した特徴量の内積として求めることができる.とこ

    ろで,ノルムで正規化した特徴量間のユークリッド距離を d̂とすると,次の関係式が

    成立する.ただし,0 ≤ d̂ ≤ 2, 0 ≤ θ ≤ πである.

    d̂2 = (â− b̂)T(â− b̂) = 2 · (1− cos θ) (3.3)

    cos θ = 1− d̂2

    2(3.4)

    ノルムで正規化した特徴量間のユークリッド距離 d̂は,超球面における 2点間の弦

    の長さに相当し,特徴量の原点から 2つの特徴量に向うベクトルの成す角度 θは,超球

    面における 2点間の弧の長さに比例する値である.これらは等価な値ではないが,ノ

    ルムで正規化した特徴量間のユークリッド距離が求まれば,特徴量の原点から 2つの

    特徴量に向うベクトルの成す角度が一意に求まることを表している.このユークリッ

    ド距離と角度は,0 ≤ d̂ ≤ 2と 0 ≤ θ ≤ πの範囲で互いに単調増加関数となっているので,両者の値の大小関係は保たれている.したがって,本論文では,話者の違いを表

    す尺度として,特徴量の原点から 2つの特徴量に向うベクトルの成す角度を求める代

    わりに,ノルムで正規化した 2つの特徴量間のユークリッド距離を距離尺度として利

    用する手法を提案する.提案する変換法は,以下に示す標準化変換,正規化変換で構

    成される.

    3.2.1 標準化変換

    特徴量ベクトルの成す角度を,より意味のあるものにするためには,特徴量の平

    均値を原点とすることが効果的と考える.また,その際の平均値は,個々の発話や話

    者に左右されない一般的な値であることが望ましい.そこでまず,多数話者が発声し

    た N 個の p次元の特徴量 CTj = {Cj1, . . . , Cji, . . . , Cjp}, (j = 1, . . . , N)から平均値µT = {µ1, . . . , µi, . . . , µp}を次式によって求める.

    µ =1

    N

    N∑j=1

    Cj (3.5)

  • 3.2. 特徴量変換 31

    この平均値が特徴量の原点となるようにするために次式によって変換する.これを

    零平均化変換と呼ぶことにする.

    Cj = Cj − µ (3.6)

    次に,特徴量の標準偏差を用いて標準化を行う.i次の標準偏差 σiは次式で求める.

    σi =

    √√√√ 1N − 1

    N∑j=1

    (Cji − µi)2 (3.7)

    各次数の標準偏差を対角成分に持つ対角行列をΛ = diag{σ1, . . . , σi, . . . , σp} とし,次式によって特徴量 C̃jに変換する.これを標準化変換と呼ぶことにする.

    C̃T

    j = (Cj − µ)TΛ−1

    =

    {Cj1 − µ1

    σ1, . . . ,

    Cji − µiσi

    , . . . ,Cjp − µp

    σp

    }

    (3.8)

    3.2.2 正規化変換

    図 3.1に示したように,話者毎の特徴量は,特徴量の分布の中心から見て,放射状

    に布置していることが観察されたことから,中心からの距離は,話者性にあまり影響

    を与えないことが推察される.また,特徴量の原点から 2つの特徴量に向うベクトル

    の成す角度と,ノルムで正規化した 2つの特徴量間のユークリッド距離が一対一に対

    応することから,特徴量をノルムで正規化する.この正規化変換は,特徴量の各成分

    をそれぞれ対応する座標軸との方向余弦に変換することと等価である.N 個の p次元

    の特徴量CTj の正規化変換後の特徴量 ĈT

    j は次式で表される.

    ĈT

    j =CTj‖Cj‖

    =

    {Cj1‖Cj‖ , . . . ,

    Cji‖Cj‖ , . . . ,

    Cjp‖Cj‖

    }

    = {cos θj1, . . . , cos θji, . . . , cos θjp} (3.9)

  • 32 第 3章 話者認識のための特徴量変換

    ここで,‖Cj‖ =√√√√

    p∑i=1

    C2jiは,Cj のノルムであり,cos θjiは,特徴量Cj の座標軸 i

    との方向余弦である.

    雑音等の影響を受けるとケプストラム係数のノルムが減少する [22][23][24][25] こと

    から,ノルムで正規化することによって雑音等の影響を軽減できるものと思われる.な

    お,正規化変換後の特徴量では,独立な成分は p − 1次元となるが,変換後の特徴量間のユークリッド距離を利用して話者照合を行うことから,次元を落とさず,正規化

    変換後においても p次元の特徴量として扱うこととする.

    3.2.3 標準化・正規化変換

    特徴量に対して,上記に示した標準化変換を施した後,正規化変換を行うことを考

    える.この場合の変換後の特徴量は次式で表される.この変換を標準化・正規化変換

    と呼ぶことにする.

    ̂̃C

    T

    j =C̃

    T

    j

    ‖C̃j‖

    =(Cj − µ)TΛ−1‖(Cj − µ)TΛ−1‖

    =

    {(Cj1 − µ1)/σ1‖(Cj − µ)TΛ−1‖

    , . . . ,(Cji − µi)/σi

    ‖(Cj − µ)TΛ−1‖, . . . ,

    (Cjp − µp)/σp‖(Cj − µ)TΛ−1‖

    }

    ={

    cos θ̃j1, . . . , cos θ̃ji, . . . , cos θ̃jp

    }(3.10)

    ここで,‖C̃j‖ = ‖(Cj − µ)TΛ−1‖ =√√√√

    p∑i=1

    (Cji − µi

    σi

    )2は,標準化変換後の特徴量

    C̃jのノルムであり,cos θ̃jiは,特徴量 C̃j の座標軸 i との方向余弦である.

    特徴量に対して,前述の零平均化変換を施した後,正規化変換を行うこともできる.

    この場合の変換後の特徴量 Ĉj は次式で表される.この変換を零平均化・正規化変換

  • 3.2. 特徴量変換 33

    変換前 変換後

    O x

    y

    x~1µ1

    ),( 21 CCC

    1C

    2C )~̂,~̂(~̂ 21 CCC

    1~̂C2~̂C

    y~

    図 3.3: 標準化・正規化変換の概念図

    と呼ぶことにする.

    ĈT

    j =C

    T

    j

    ‖Cj‖=

    (Cj − µ)T‖Cj − µ‖

    =

    {Cj1 − µ1‖Cj − µ‖ , . . . ,

    Cji − µi‖Cj − µ‖ , . . . ,

    Cjp − µp‖Cj − µ‖

    }

    ={cos θj1, . . . , cos θji, . . . , cos θjp

    }(3.11)

    標準化・正規化変換の概念を図 3.3に示す.ある特徴量が平均値µのまわりに分布し

    ているとする.標準化・正規化変換は,その特徴量の分布の中心が原点となるように

    平行移動した後,各座標軸方向の標準偏差が 1になるように標準化を行い,次に,新

    しい原点である分布の中心µからの距離が 1となる超球面上に特徴量を射影すること

    である.

  • 34 第 3章 話者認識のための特徴量変換

    3.3 本章のまとめ

    特徴量の分布状態から,話者の違いを表す尺度として,2つの特徴量間のユークリッ

    ド距離を利用する代わりに,分布の中心から見た 2つの特徴量間の成す角度を利用す