量的テキスト分析では、文法的な要素である機能語を前処理で削除することが一般的で、英語などのヨーロッパ言語にはSnowballで定義されたリストが広く使われています。しかし、Snowballは日本語などのアジア言語を含まないため、ヨーロッパ言語とアジア言語での比較分析を行う場合に適切なリストがありませんでした。
この問題を解決するために、Snowballの英語のリストを拡張および翻訳し、ヨーロッパ言語とアジア言語の両方に適用できるMarimoという新しいストップワーズのコレクションを作成しました。このコレクションは、現時点では、英語、ドイツ語、日本語、アラビア語、ヘブライ語だけを含んでいますが、これから言語を増やしていく予定です。
Marimoの特徴は、ストップワーズが種類ごとに階層化されていることです。これは、語の役割を特定することで翻訳を容易にする、そして、余分な語を容易に排除できるようにするためです。例えば、reporting
やtime
、number
などのカテゴリーは新聞記事の分析のために追加したものですが、別の種類の文書では必要がないでしょう。
日本語の文書には、一文字のひらがなから構成されるトークンが大量に含まれますが、それらは正規表現で容易に削除できるため、リストには含めず、メンテナンスを容易にしてあります。
MarimoのYAMLファイルはquantedaパッケージのdictionary()
で容易にRに読み込めます。さらに、これらのリストをstopwordsパッケージを通じて利用できるようにする予定です。