英語の音声に関する雑記帳

英語の発音について徒然と


CorPho 2008: Summer School on Corpus Phonology (コーパス音韻論夏季講座)第2~5日目

報告を毎日書くつもりでいたのですが、休憩時間を挟みながらも9時から5時30分まで講習を受けた後というのは想像以上に疲れてしまい、夕食を食べたら寝てしまうという生活になってしまいました。今日で5日間の講習が終了したので、4日分をまとめて報告したいと思います。

2日目(8月19日)
9:00~10:30 Tools for corpus annotation and analysis: presentation and practical session – ELAN (Peter Wittenburg, Max-Planck-Institute for Psycolinguistics, Nijmegen)
11:00~12:30 Praat, Praat scripting (Caren Brinckmann, Universität des Saarlandes)
14:00~15:30 Keynote talk 2: Corpus phonology and language aquisition research (Yvan Rose, Memorial University of Newfoundland)
16:00~17:30 The Phon tool (Yvan Rose)
3日目(8月20日)
9:00~10:30 Keynote talk 3: Corpus phonology and phonological research (Elisabeth Delais-Roussarie, CNRS-Université Paris 7)
11:00~12:30 Corpus annotation: annotation systems, reliability testing (Elisabeth Delais-Roussarie, Urlike Gut)
14:00~17:30 Practial annotation
4日目(8月21日)
9:00~10:30 Keynote talk 4: Corpus phonology and speech synthesis and recognition (Julie Berndsen, University College Dublin)
11:00~12:30 Corpus format: XML-based formats, meta data formats (Jan Torsten Milde, Universität Bielefeld)
14:00~17:30 Statistical corpus analysis: multivariate techniques, stochastic modelling (Hermann Moisl, University of Newcastle upon Tyne)
5日目(8月22日)
9:00~12:30 Web-based corpus queries: corpus query, corpus distribution, hands-on experience (Atanas Tchobanov, Université de Paris X)
14:00~15:30 Summary: rounding up, discussion of future, cooperation/networks
実は、4日目の最初の「コーパス音韻論と音声合成・認識」の話は聞き逃してしまいました。ハンドアウトもなかったのでどんな話だったのか全く分からないのですが、後日 CorPho のWebサイトに全ての授業?講演?のPDF化したスライドを掲載する方向になっているので、それでフォローしたいと思います。
コーパス作成用のツールとしては、ELAN, Praat, Phon に加えて、21日の2つめの講演をした Milde氏が開発中の Eclipse Annotator というものも紹介されていました。見た中では、ターゲット音声と実音声のtierが予め備わっていて、音節単位で対応関係を取れるようになっている Phon が僕の研究上のニーズに最もマッチしているように思います。もっとも、ELAN や Praat と違い、音声データを直接見ながらの入力でないこと、音声データとの間の細かい時間軸の割り付けが現時点ではできないというのが弱いところではあります。tierを加えることもできますが、これの扱い方も今のところ不透明で、自由度という意味では ELAN の方が強いようです。ですが、Phon のユーザーとして希望を出していけば機能は強化されて行くはずだし、当面は分節音のみを扱う(しかない)僕のプロジェクトに最も合ったツールであることは間違いないところです。(ファイルはXMLなので、もしこれがダメとなっても然るべき変換ツールを使って他のツールに乗り換えることも一応可能ですし。)
また、コンピューターを使うということは、できれば転写作業を自動化したいと思うわけですが、Delais-Roussarie氏の紹介した Praatスクリプトの prosogram、そして Praatアドオンの EasyAligner が、綴り字を与える必要がある(更には、各言語に対応したパラメーター記述と発音辞書も必要)とはいえ、将来的に役に立つものになる可能性を秘めていると感じました。
僕は現時点では、学習者が発する、英語と日本語の中間言語的なイントネーションを体系化する方法が見出せず、プロソディーをコーパスに加える見通しが立っていないのですが、INTSINTという、言語や機能に依存せずに、音声ファイル内のピッチ変動からdiscreteな値の連続を取り出すツール(これもPraatのスクリプト)の出力がヒントになるかも知れないと思いました。もちろん、関連の論文を読んで、このツールが一体何をしているのかを理解しないといけないのですが。
今朝の、Webでの公開・検索システムの構築の話は、僕にコンピューターの知識がなさ過ぎて、とても苦しかったです。他の受講者の大多数もそうだったのではないでしょうか。いきなり CakePHP とか言われても…という感じです。

実習もついて行けなかったし、何とかついて行けたとしても、ただ真似をして操作をしただけということに終わっていたでしょう。受講者のコンピューターリテラシーの度合いも様々なので、こうなるのも仕方がないとは思いますけどね…。この話は、大規模コーパス作成のプロジェクトの代表者が、技術的な細部を抜きにして、方針を決める参考にするような内容だったのかも知れません。受講者の目的も様々だったと思うので、こういうものも当然出てくるわけですね。

全体として、様々な手法やツールについて知ることができたし、コーパス音韻論の目的論のような話も、今後の研究の指針を考えるのに役立ちそうだと思っています。参加した価値は十分にありました。

参加者全員で CorPho についてディスカッションを続けることも合意されました。日本からの参加者は僕1人だったので、僕は日本でのCorPhoのプロモーションをしていくことになるのかなあ。少なくとも主催者はそのように期待しているようでした。しかし、それにはちゃんと具体的研究を進めることが必要になりますね。頑張らなければ。



コメントを残す