カミムラ ケイスケ 上村 圭介 外国語学部 日本語学科 教授 |
■ 標題 コーパスから抽出した用例に含まれるノイズへの対応 |
■ 概要 本稿では現代日本語書き言葉均衡コーパス(BCCWJ)から抽出した順接接続詞の用例に対する全件チェックの結果をもとに、抽出ノイズが分析結果に及ぼす影響を検討した。対象接続詞別に抽出結果の適合率と再現率を明らかにし、接続詞によっては形態素情報を利用した抽出条件では見逃してしまう用例が多数含まれることが分かった。さらに、接続詞別の出現頻度は抽出ノイズの前後で同等性が棄却されること、および対応分析の次元得点を利用したクラスター解析の結果に異同が生じることを確認した。本稿の分析から、コーパスから得られる用例については、その適否についての精査が必要であることが改めて示されたほか、大規模であるとしてもコーパスは有限であり、全数チェックによるデータ精査の結果をコーパスの改善に結び付けることが必要であると結論付けた。 上村圭介; 髙野愛子 共著 語学教育研究論叢 大東文化大学語学教育研究所 (35),239-256頁 2018/02 |
Copyright(C) 2011 Daito Bunka University, All rights reserved. |