日本語のストップワーズ

量的テキスト分析では、文法的な要素である機能語を前処理で削除することが一般的で、英語などのヨーロッパ言語にはSnowballで定義されたリストが広く使われています。しかし、Snowballは日本語などのアジア言語を含まないため、ヨーロッパ言語とアジア言語での比較分析を行う場合に適切なリストがありませんでした。 この問題を解決するために、Snowballの英語のリストを拡張および翻訳し、ヨーロッパ言語とアジア言語の両方に適用できるMarimoという新しいストップワーズのコレクションを作成しました。このコレクションは、現時点では、英語、ドイツ語、日本語、アラビア語、ヘブライ語だけを含んでいますが、これから言語を増やしていく予定です。 Marimoの特徴は、ストップワーズが種類ごとに階層化されていることです。これは、語の役割を特定することで翻訳を容易にする、そして、余分な語を容易に排除できるようにするためです。例えば、reportingやtime、numberなどのカテゴリーは新聞記事の分析のために追加したものですが、別の種類の文書では必要がないでしょう。 日本語の文書には、一文字のひらがなから構成されるトークンが大量に含まれますが、それらは正規表現で容易に削除できるため、リストには含めず、メンテナンスを容易にしてあります。 MarimoのYAMLファイルはquantedaパッケージのdictionary()で容易にRに読み込めます。さらに、これらのリストをstopwordsパッケージを通じて利用できるようにする予定です。

日本語の量的テキスト分析

より多くの日本人の研究者に量的テキスト分析について関心を持ってもらうために、『日本語の量的分析』という論文をニューヨーク大学のエイミー・カタリナックと一緒に書きました。これまでのところ、Twitterで多くの方からポジティブな反応を頂いています。 本稿は、欧米の政治学者の間で近年人気を集めている量的テキスト分析(quantitative text analysis)と呼ばれる手法の日本語における利用について論ずる。まず、量的テキスト分析が登場した背景を述べたうえで、欧米の政治学においてどのように利用されているかを説明する。次に、読者が量的テキスト分析を研究で利用できるように、日本語の分析において注意すべき点に言及しながら、作業の流れを具体的に説明する。最後に、欧米で利用されている統計分析モデルを紹介した上で、それらが日本語の文書の分析にも利用できることを研究事例を用いて示す。本稿は、近年の技術的および方法論な発展によって、日本語の量的テキスト分析が十分に可能になったことを主張するが、この手法が日本の政治学において広く普及するためには、データの整備など制度的な問題に対処していく必要性があることにも触れる。

早稲田大学で多言語テキスト分析法について発表

早稲田大学の政治学研究科セミナーにて、『バイリンガル分析へのデータ駆動アプローチ:30年間の日英新聞における米国外交政策の表象』と題するプレゼンテーションを行いました。当プレゼンテーションは、アメリカの政治・外交について研究プロジェクトにおいて、異なる言語(英語と日本語)の文書に対して同一の量的テキスト分析手法を適用する方法に関するものです。本セミナーで発表した手法の一部は、5月22日の15時から行われる日本語の量的テキスト分析に関するワークショップでより具体的に説明します。

Begin typing your search term above and press enter to search. Press ESC to cancel.

Back To Top