僕が研究に使っている Buckeye Corpus は、その構築時に ESPS Aligner というツールを使ったとドキュメントにあります。これは、音声ファイルと、それに対応した正書法による文を含んだテキストファイルがあれば、自動処理により、(アメリカ)英語発音を前提にした音声表記を、Praat の TextGrid として生成してくれるというもののようです。自動ラベリングは完璧ということはあり得ないので手動修正が必ず必要ですが(もしも完璧なら、それは音響音声学の完成=終焉を意味しますが、そういうことはちょっと考えられないですね)、このツールが作業効率を飛躍的に高めたことでしょう。
しかし残念ながら、ESPS Aligner は現在手に入らないようです。
僕がやろうとしている研究テーマの中には、日本人話者による英語読み上げ音声をコーパス化してその特徴を探ろう、というものがあります。当然ながら、Aligner が使えればいいなと思いました。日本人発音による英語ですから、英語には存在しない音も含まれていて、そのために処理の精度は低くなることが予想できますが、それでもゼロからラベリングするのとは比べものにならないくらい効率的でしょう。実際、僕はゼロからラベリングを初めてみたものの、あまりにも時間がかかるため、作業時間が見つけられずに停滞状態にあります。
僕が手作業をはじめてしまったのは、Aligner が入手できないことが判ったからです。
http://www.ee.uwa.edu.au/~roberto/research/speech/local/entropic/ESPSDoc/ あたりを見ると、これは ESPS/waves+ のパッケージの一部らしいということが分かりますが、http://www.f.waseda.jp/kikuchi/tips/esps.html によれば、このパッケージ自体の販売・配布が終了しているんですね。
これは、開発元の Entropics Research Laboratory が1999年にマイクロソフトによって買収されてしまったことによるようです。http://findarticles.com/p/articles/mi_m0CGN/is_1999_Nov_1/ai_57089882/
マイクロソフトは恐らく、Entropics 買収により、その技術を生かして Windows を音声で操作することを可能にしたのだと思うのですが、その過程で、折角のツールを埋もれさせてしまったのは残念です。(もっとも、http://htk.eng.cam.ac.uk/docs/history.shtml を見ると、Entropics から引き継いだものでも、Hidden Markov Model Toolkit のように、マイクロソフトが公開して利用できるようにしているツールもあるようですね。いずれにせよ、waves+/AlignerはUNIXで動くプログラムだったようですから、僕たちが利用するにはやっぱり壁があったと思います。)
そう思ってあきらめていたのですが、その後、展開がありました。今年秋、日本(幕張メッセ)で行われた Interspeech 2010 のサテライトワークショップ Second Language Studies: Acquisition, Learning, Education and Technology (L2WS。前回の記事参照)に参加したところ、Buckeye Corpus を作ったオハイオ州立大学所属の人が自作(?)コーパスを使ったポスター発表をしていたのです。彼女の研究内容に立ち入らないのは失礼かなと思いながら、これは音声表記をしたのか、したのなら、どうやって、と聞くと、Northwestern 大学の NU Aligner http://groups.linguistics.northwestern.edu/documentation/nualigner_home.html を使った、あなたも研究者だから使用許諾をもらえば使えるはずだ、とアドバイスをもらいました。
そこで、Northwestern大学言語学科の問い合わせ先にメールを送ると、Tech Support Consultant からの返事で、NU Aligner は HTK(=Hidden Markov Toolkit)を GUI で使うようにしたものに過ぎないのでと前置きして、更なるアドバイスをもらいました。そこから判ったのは以下のようなことです。
まず、ペンシルベニア大学のサイト http://www.ling.upenn.edu/phonetics/p2fa/ の、The PPL Forced Aligner Online Processing System で、オンライン上で1ファイルずつ Aligner の処理を行うことができます。
オンラインでなく、自分のコンピュータ上で、バッチ処理などで多数のファイルを処理するには、同じページにある The Penn Phonetics Lab Forced Aligner (P2FA) を使えばいいそうです。但し、これを使うには、HTK http://htk.eng.cam.ac.uk/ を自分のコンピュータ用にコンパイルしてインストールし、更に Python http://www.python.org/ もインストールしておく必要があるということです。
(Northwestern 大学から NU Aligner の使用許諾をもらえなかったのは、僕の素性が不明だということに加えて、HTK のドキュメントにある、再配布禁止の条項が関係しているのかも知れません。)
いずれにせよ、この「HTKを自分のコンピュータ用にコンパイル」というのが問題です。ドキュメントを見ていると、Windows PC の場合、恐らく Visual Studio を使うんだろうな、とは思うのですが、NT, 2000, XP については動作報告があるものの、Vista については「多分動く」としか書いていないんですよね。僕のメインのPCは更に次の世代の Windows 7 なんですけど。
たまたま最近、友人が『ゼロから学ぶ!最新C/C++』http://itpro.nikkeibp.co.jp/article/MAG/20101005/352599/?ST=cloud という本を上梓し、僕に送ってきてくれたのですが、その中には Visual Studio 2010 Express の入った DVD-ROM が入っていたので、これで試してみればいいのでしょう。
恐らく、コンピュータに詳しい人なら、ここまで僕が書いた情報だけで、自分で P2FA を動かすことができるようになるんだろうな…。僕はもう少し時間がある時にじっくりやってみます。
コメントを残す