Home>『BTSJによる日本語話し
言葉コーパス(トランスクリプト・音声)2011年版>宇佐美まゆみ監修(2011)『BTSJによる日本語話し言葉コーパス(トランスクリプ
ト・音声)2011年版』について |
|
『BTSJによる日本語話し言葉コーパス(トランスクリプト・音声)2011年版』利用申し込みはこちら(外部リンク・新HPへ) |
近年、自然会話分析が数多く行われるようになり、話し言葉のコーパスも様々な種類のものが公開されています。しかし、音声学的な分析や、形態素分 析、構文の分析のためではなく、人間の相互作用としての「言語運用」の分析に適した形で文字化され、蓄積された「話し言葉のコーパス」は、未だほとんどな いのが現状です。また、自然会話をデータとして用いる研究では、会話の収集、文字化といった基礎的作業をはじめ、その後の分析にも多大な時間と労力を要し ます。そのため、このような研究を効率的に進めていくには、自然会話データを共有化することが必要です。
そういう状況の中、宇佐美研究室では、多様な場面・言語(日本語、韓国語、中国語、英語など)の自然会話データを収集し、膨大な時間と労力を投入し て『BTS(Basic Transcription System)による多言語話し言葉コーパス』の構築に取り組んできました。2011年までに、研究成果として公開していたコーパスは以下の3つです。
@『BTSによる多言語話し言葉コーパス−日本語会話1(日本語母語話者同士の会話)2007年版』116会話、1435分54秒(約24時間)
A『BTSによる多言語話し言葉コーパス−日本語会話2(日本語母語話と学習者の会話)2007年版』37会話、691分11秒(約11時間)
B『BTSJによる日本語話し言葉コーパス−日本語会話1(初対面・友人、雑談・討論・誘い)』99会話、1604分(約27時間)
上記@からBのコーパスに、新たに44会話252分(約4時間)分のトランスクリプト・音声データ、及び、既存のトランスクリプトの音声データ92 会話1005分11秒(約17時間)分を追加したものが『BTSJによる日本語話し言葉コーパス(トランスクリプト・音声)2011年版』です。本コーパ スには、294会話、総時間4000分31秒(約66時間)の会話が収録されており、そのうち音声付きデータは136会話、1164分43秒(約20時 間)です。整備にあたっては、記号などの表記を「改訂版:基本的な文字化の原則(BTSJ: Basic Transcription System for Japanese) 2011年版」に改めました。
この、人間の相互作用の分析に適した形のコーパスが広く利用され、自然会話をデータとする言語運用研究の発展の一助となることを願っています。
会話参加者の年齢、性別、話題などが統制された形で集められていますので、様々な観点から比較・対照研究ができるようになっています。会話データ は、収集の条件や研究目的ごとに、ひとつの「会話グループ」に入っています。
また、BTSJの背景理論となる言語社会心理学、及びその方法論である総合的会話分析では、会話自体の分析のみならず、データの収集法、被験者の属 性調査など、「録音された会話」以外の部分の分析も、人間の相互作用としての「会話分析」のために、極めて重要だと捉えています。各会話グループの実験計 画や話者の年齢・性別・属性等のデータベースも入っていますので、分析にご活用ください。
表1に、本コーパスの概要を示します。
会話グループ番号と会話グループ名 | 会話の 通し番号 |
データの特徴 | データ数 | 総分数 | 音声 付き |
|
1 | 親しい同性友人同士(男女)の雑談 | 1-19 | 同性の友人同士の会話 | 19会話 | 444分 24秒 |
|
2 | 初対面と友人同士の女性の雑談 | 20-42 | 女性の、親しい友人同士と初対面の会話 | 23会話 | 482分 5秒 |
|
3 | 論文指導 | 43-52 | 教師と学生の面談の会話 | 10会話 | 311分 | |
4 | 女性同士の断りの電話会話 | 53-91 | ある学生(女性)をベースに、電話で、先輩・同輩・後輩に依頼の電話をかけた会話 | 39会話 | 53分 28秒 |
○ |
5 | 同性同士男女の依頼を含む電話会話 | 92-111 | 同性の友人同士の会話 | 20会話 | 53分02秒 | |
6 | 友人同士の女性の雑談 | 112-116 | 女性の友人同士の会話 | 5会話 | 91分 55秒 |
|
7 | OPIインタビュー | 117-120 | OPIインタビュー形式に基づく、フランス語母語話者の縦断データ | 4会話 | 40分 | |
8 | 韓国人学習者(中級)と日本人の初対面雑談 | 121-129 | 韓国人日本語学習者の接触場面データ | 9会話 | 249分 | |
9 | 台湾人学習者(上級)と日本人の初対面雑談 | 130-141 | 台湾人日本語学習者の接触場面データ | 12会話 | 234分20秒 | |
10 | 台湾人学習者(上級)と日本人の友人の雑談 | 142-151 | 台湾人日本語学習者の接触場面データ | 10会話 | 167分51秒 | ○ |
11 | 初対面女性ベース雑談(接触、母語)その1 | 152-160 | 20代前半の日本人女性(学生)が、対同世代の日本人女性、対日本語中級話者、対日本語超級話者と3通りの会話を行っている | 9会話 | 159分32秒 | ○ |
12 | 初対面女性ベース雑談(接触、母語)その2 | 161-172 | 20代前半の日本人女性(学生)が、対同世代の日本人女性、対日本語初級話者、対日本語上級話者と3通りの会話を行っている | 12会話 | 120分11秒 | |
13 | 初対面男性ベース雑談(性差、年齢差) | 173-190 | 35歳男性が、年上(45歳)・同等(35歳)・年下(25歳)の話者(男/女)と6通りの会話を行っている | 18会話 | 295分 | ○ |
14 | 初対面同性同士雑談(男、女) | 191-206 | 20代前半大学生・大学院生、初対面の雑談 | 16会話 | 271分 | ○ |
15 | 友人同士女性雑談 | 207-209 | 20代女性学生、親しい友人同士の雑談 | 3会話 | 63分 | |
16 | 友人同士男女(雑談、討論) | 210-233 | 10代後半〜20代大学生友人同士の会話、ベース話者(男女同数)が、同性/異性の友人との雑談/討論という4通りの会話を行ってい る。 | 24会話 | 401分 | |
17 | 友人同士男女間討論 | 234-238 | 20代-30代学生、友人同士の討論 | 5会話 | 87分 | |
18 | 初対面女性討論 | 239-242 | 20代女性、大学生・大学院生、初対面の討論 | 4会話 | 44分 | |
19 | 友人同士女性誘い | 243-250 | 20代大学生友人同士。話者の一方が協力者である。協力者が「気軽に行うこと」を誘うように依頼した。 | 8会話 | 175分 | |
20 | 初対面女性雑談(母語・接触) | 251-262 | 日本語母語話者同士の会話と、日本語母語話者と日本語学習者の会話 | 12会話 | 186分20秒 | ○ |
21 | 謝罪の会話 | 263-294 | 2人の話者が、負担度の軽い場合と重い場合の2つの謝罪場面についてロールプレイを行っている。 | 32会話 | 31分32秒 | ○ |
計 | 294会話 | 4000分31秒 (約66時間) |
データ提供者は、以下の方々です(50音順)。
李恩美、伊集院郁子、宇佐美まゆみ、カチマレク・ミロスワバ、北見奈津子、木林理恵、金銀美、木山幸子、黄瓊芸、施信余、鄭賢児、関崎博紀、蘇玉 萍、高森絵美、張鈞竹、鄭榮美、藤田朋世、松本剛次、松本紫帆、宮武かおり、林君玲
『BTSJによる日本語話し言葉コーパス(トランスクリプト・音声)2011年版』利用申 し込みはこちら(外部リンク・新HPへ) |
その他、お問い合わせは宇佐美研究室(btsjcorpus@ninjal.ac.jp)まで。