NICE 2.2.2 公開b

[3.3が公開されています]



NICE 2.2.2 公開 (2015-04-24)

学習者コーパス NICE (Nagoya Interlanguage Corpus of English)

NICE 2.2.2は、基本的なデータは、NICE 2.2と同じですが、いくつかの修正点と追加情報があります。
主な変更は以下の通りです:
―――――――――――――――――――――――――――――――――――
1. 監督者情報(Proctor)の明記
2. 英文添削作業者に関する情報の追記
3. サブコーパスの構成(データの由来)の説明を追加
4. 学習者データの執筆者識別記号の誤りを訂正
5. 品詞タグづけデータの不統一についての説明と注意書きを追加
―――――――――――――――――――――――――――――――――――

NICE 2.2.2の概要

1) 学習者データは、日本語を母語とする大学生または大学院生の英語学習者によって書かれた英文エッセイです。

2) エッセイは、「一つのテーマについて、1時間で、辞書などの参考書を使用しない」で書かれました。
ただし、個々のエッセイについては、データ収集の際に、細かい点では統一されていない条件もあります。たとえば、以下のような点です。
例1)「一時間で」という指示だけの場合と、「一時間で(500語をめざして)」と書く目安も指示した場合
例2)監督者がいる状態で書いた場合と、本人に条件だけを示して監督者がいない状態で書いた場合(監督者がいる場合も、一対一の場合や、一人が複数人を監督した場合などもあります)
例3)11のテーマから好きなものを一つ選んだ場合と、一つのテーマを指定して書いてもらった場合

3) 学習者データの収集手順は、基本的に以下の通りです:

1.実験の内容説明と契約書にサイン
2.ワープロソフトを使用し作文(スペルチェック使用)
3.執筆者情報に関するアンケートの実施
4.データ整形(匿名化を含む)

4) 現在、約9割の学習者データにTOEFLやTOEIC等の英語習熟度情報が含まれています。

5) データはCHILDES (Child Language Data Exchange System) のCHAT (Codes for the Human Analysis of Transcripts) に準拠したフォーマットになっています。(一部変則的な部分があります。)

6) 学習者が書いた英文エッセイのうち最初の201ファイルについては、文単位で英語母語話者による添削文が付与されています。
英文が間違いもしくは不自然だと思われる場合は、できるだけ構文・単語を変えずに自然な英文に書き換えてもらいました。
添削作業は二人の英語母語話者が行いましたが、個々の英文エッセイはそれぞれ一人の英語母語話者が添削しています。
JPN001からJPN100とJPN154からJPN201は、40歳前後の米国人女性(英語論文添削経験約2年)
JPN101からJPN153は、30歳前後の米国人男性(英語教師経験約5年)

7) 比較分析するために、英語母語話者によって書かれた英文エッセイを集めた母語話者コーパス(NICE-NS)があります。
ただし、各エッセイは、「一つのテーマについて、1時間で、辞書などの参考書を使用しないで書く」という点では学習者コーパスデータと執筆条件は同じですが、コーパス全体でみると、一人の個人が複数のテーマで複数の英文エッセイを執筆しているものがあります。母語話者コーパスのデータについては、本コーパス企画時にテーマを11にきめ、その11のテーマについて、学習者が英文エッセイをどのテーマで書いてきてももれなく比較ができるように、という意図で11のテーマのすべてについてエッセイを書いてもらった人が17名ありました。

8) NICE2.2のパッケージには、NiceReadMe(本ファイル)、ChangeLog(各バージョンの変更点の記録)、Learner_Profile_List、Learner_Profile_List_ReadMe、Native_Profile_List、Native_Profile_List_ReadMe、NoteThat(注意書き)の7つの関連文書ファイル、および以下の5種類のデータの入ったフォルダーが含まれています。

サブコーパス名 説明
NICE-NNS   (学習者コーパス。CHAT形式に概ね準拠。342ファイル)
NICE-NS    (母語話者コーパス。学習者データと比較のため。210ファイル)

NICE-PLAIN  (学習者と母語話者エッセイの本文テキストのみのデータ)
NICE-PARSED  (学習者と母語話者エッセイに品詞タグづけをしたデータ)

NICE-ALS   (学習者エッセイに誤用分析情報を付けたデータ。15ファイル)

[ファイル形式]
(1) フォーマット: 概ねCHAT形式に準拠(一文一行)
(2) 文字コード: Shift_JIS
(3) 改行コード: CR+LF (Windows)

9) サブコーパスの構成(データの由来の説明)
・学習者データ
JPN001からJPN201 当初の科研プロジェクトで収集。
JPN202からJPN209 英語コーパス学会第29回大会での研究発表「英語学習者コーパスにおける作文テーマの影響」のために追加収集。
JPN210からJPN342 その後、別の研究のためにトピックをmoneyとschool educationに限って追加収集。これらのうち以下の13ファイルを除く120ファイルは言語発達指標の安定性を検証するため、60人が2週間以内の異なる日に、2つのトピックで英文エッセイを書いたものである。(つまり、同一人物が二つの英文エッセイを書いている。)
 13の除外ファイル(JPN以降の数字のみ):
 216,217,218,223,224,225,304から310の7つ
・母語話者データ
NS001からNS200  当初の科研プロジェクトで収集。
NS201からNS210  その後、別のの研究のためにschool educationに限って追加収集。

10) 品詞タグづけデータについて
TreeTaggerを使い学習者データと母語話者データに品詞タグをつけたデータです。
ただし、機械的につけたものであり、その正確さは保証されていません。
また、学習者データのうちJPN001からJPN209については、そこまでのデータを使った研究のためTreeTaggerがIN(前置詞もしくは従属接続詞)とつけたタグのうち、従属接続詞については、手作業で確認し新たに設けたCJというタグに付け替えてあります。JPN210からJPN342については、その後に収集されたため、TreeTaggerによる品詞タグづけはしてありますが、手作業による従属接続詞CJへのタグの付け替え作業は行われていません。この点、タグ付けに不統一があることをご注意ください。
TreeTaggerのつけたタグTO(不定詞を導くtoと前置詞のto)について、同様にJPN001からJPN209についてはすべてINに置き換え(不定詞を導くtoも品詞は前置詞とみなす)を行いましたが、これもそれ以降のファイルについては、置き換えは行われていません。

NICEに関する注意点の説明とお詫び

NICE 2.2.2は、NICE 2.2の改訂版として公開されます。
NICE 2.2の公開の時点で、エッセイを書いた人物に関する執筆者識別記号(ParticipantID)を全てのデータにつけました。

学習者コーパスNICEについて、以下の注意点を説明させていただきます。

1)同一人物が複数の英文エッセイを書いている点について

学習者データについては、後から特定の研究の目的のために(同じ人が二つのテーマで書いた場合に、テーマの違いによりエッセイの言語的特徴にどのような影響が出るか等)追加で、以前書いたことがある人にさらにもう一つのテーマで書いてもらったり、一人の人に二つのテーマで書いてもらったエッセイがあります。NICE 2.2の段階で、342のエッセイを241人が書いています。90名が複数(2から4件)のエッセイを書いています。

母語話者データについては、一人に一テーマについてだけ書いてもらったものが20人分ありますが、一人の人に11のテーマすべてについて書いてもらったものが17人分あります(そのうち一人は同じテーマで二つのエッセイを書いています)。母語話者データについては、本コーパス企画時にテーマを11にきめ、その11のテーマについて、学習者が英文エッセイをどのテーマで書いてきてももれなく比較ができるように、というのがその意図でした。現在は、210ファイルがNICE-NSに含まれています。1名が12ファイル、16名が11ファイル、1名が2ファイル、そして20名が1ファイルの英文エッセイを書いています。

同一人物が書いたエッセイを個々の独立したデータとみなして分析することも可能ですが、分析によっては、特定の個人が書いたエッセイにデータが偏る場合や、一人から1データのサンプルのみを取るべき場合もありますので、データを使用する際には、執筆者識別記号(ParticipantID)によく注意してご利用ください。

2)データ収集の条件について

従来の学習者コーパスが、執筆条件を統一せずに書かれたエッセイを集めてデータ化したのに対し、NICE は、先にエッセイの執筆条件を決めてエッセイを書いてもらい、それをデータとして集めて作成したという点に従来との違いがあると思いますが、「条件を決めてエッセイを書いてもらった」ということを「統制した」と表現しました。 統制した条件は、一時間で、辞書など参考書なしで、11のテーマのいずれかについての英文エッセイを書く、ということです。しかし、データ収集過程において、以下の点で収集方法が統一されていませんでした。

・監督者の立会いの有無 (ない場合は、メールなどで執筆を依頼)
・いわゆる英文エッセイは500語程度であるということの説明の有無
・テーマの選択の自由の有無
・一人が複数のエッセイを書くかどうか

また、比較のための母語話者データについては、一時間で、辞書など参考書なしで、11のテーマのいずれかについての英文エッセイを書く、という点では、学習者と同じ条件でしたが、収集過程においては、多くの場合はメールなどで執筆を依頼し、監督者の立会いがなく、書かれました。「統制した」という表現が誤解を招くものであったこと、収集過程におけるデータ収集の条件の相違に関する説明が不十分であったことをお詫びいたします。

3)これまでのNICEを使った研究について

これまで行ってきたNICEを使った研究においても、上記のような点に配慮を欠いた研究を行ってしまったものがあります。すでに研究結果として発表してしまったものは、取り返しがつきませんが、内容をよく読んでいただき、上記の点に配慮が欠けた研究がありましたら「他山の石」としてくださいますよう、お願いいたします。なにか、お気づきの点がありましたらお知らせいただければ幸いです。研究上、間違いをおかさないように、データの取扱いに十分ご注意ください。

なお、こうしたNICEの持つ「問題点」について、これまで十分な配慮がたりず、利用者の方々にお知らせできなかったこと、また、ご迷惑をおかけしたことについて、心よりお詫び申し上げます。

NICEの利用にあたって

本コーパスの使用にあたっては、内容をご確認の上、ご自身の判断と責任の下でご使用ください。本コーパスに含まれているかもしれない予期せぬ誤りや不具合については、いかなる責任も負いかねます。もし誤りや不具合を発見された場合、また、不明な点などありましたら、sugiura@nagoya-u.jpまでご連絡ください。誠意をもって最善を尽くして改善に努めますが、必ずしもそれをお約束することはできません。

以上の点をご理解の上、以下のリンクよりNICEをダウンロードし、ご利用ください。ダウンロードファイルに含まれる関連文書には、必ず目を通してから、ご利用ください。

これまですでにNICEをダウンロードしてくださった方も、上記の注意すべき点に関する情報と説明の含まれたNICE 2.2.2をお使いくださるようお願いします。

NICE 2.2.2 download

ダウンロードに必要なユーザ名とパスワードは以下の通りです:

ユーザ名 Yes

パスワード I will

(パスワードのIとwillの間には半角スペースが一つあります)