単語埋め込みによる柔軟な日本語文書の感情分析

先日、Latent Semantic Scaling: A Semisupervised Text Analysis Technique for New Domains and Languagesと題する僕の論文がCommunication Methods and Measuresに掲載されました。当論文では、単語埋め込み(word embedding)を用いることで、すぐに利用できるキーワード辞書などが少ない日本語においても、英語と同様に量的テキスト分析を行えることを示しました。 当論文では、LSSという手法を用いて、新聞の記事から政治に関する語を抽出し、それらを感情に関する種語との距離によって重みづけしています。肯定的な語は「絶好、美麗、秀逸、卓越、優雅、絶賛、善良」は、否定的な語「粗悪、醜悪、稚拙、非礼、貧相、酷評、悪徳」となっています。重みづけの結果は、図にあるように、「絶好、人類、民主化、安定、立国」などが肯定的な語、「私利私欲、暴力団、脱税事件、不透明、流用」などが否定的な語となり、直感的に納得できる結果になっています。これら感情によっての重みづけされた語を用いて、文書を重みづけると適当な感情辞書が無くても、政治的な感情分析ができます。 LSSを使うと、重みづけされる語を変えることで、政治以外のさまざまな主題における感情分析を行えます。さらに、種語を変えることで脅威認識や精神状態などのより特定化された尺度における分析を行うことできます。この論文での日本語文書の処理と分析は、quantedaとLSXというRパッケージだけを使っていて簡単なので、ぜひとも試してみてください。分析を再現するRスクリプトは、Harvard Dataverseからダウンロードできます。

Quanteda and semisupervised models

I and my co-developers received the 2020 Statistical Software Award from the Society for Political Methodology for quanteda‘s contribution to research. The package has established the reputation as user-friendly and highly-efficient R package for quantitative text analysis in the political scientist community. I also know that there are many users of the package in other […]

Improved tokenization of hashtags in Asian languages

Quanteda can tokenize Asian texts thanks to the ICU library’s boundary detection mechanism, but it causes problems when we analyze social media posts that contain hashtags in Chinese or Japanese. For example, a hashtag “#英国首相仍在ICU但未使用呼吸机#” in a post about the British prime minister is completely destroyed by current quanteda’s tokenizer. Altough we can correct tokenization […]

New paper on Latent Semantic Scaling

I developed Latent Semantic Scaling (LSS) to perform sentiment analysis of news articles about the Ukraine crisis in my PhD project in London. LSS only requires a small set of polarity words, called “seed words”, to perform large-scale document scaling about a specific subject, becasue it automatically identify synonyms of seed words by latent semantic […]

日本語のストップワーズ

量的テキスト分析では、文法的な要素である機能語を前処理で削除することが一般的で、英語などのヨーロッパ言語にはSnowballで定義されたリストが広く使われています。しかし、Snowballは日本語などのアジア言語を含まないため、ヨーロッパ言語とアジア言語での比較分析を行う場合に適切なリストがありませんでした。 この問題を解決するために、Snowballの英語のリストを拡張および翻訳し、ヨーロッパ言語とアジア言語の両方に適用できるMarimoという新しいストップワーズのコレクションを作成しました。このコレクションは、現時点では、英語、ドイツ語、日本語、アラビア語、ヘブライ語だけを含んでいますが、これから言語を増やしていく予定です。 Marimoの特徴は、ストップワーズが種類ごとに階層化されていることです。これは、語の役割を特定することで翻訳を容易にする、そして、余分な語を容易に排除できるようにするためです。例えば、reportingやtime、numberなどのカテゴリーは新聞記事の分析のために追加したものですが、別の種類の文書では必要がないでしょう。 日本語の文書には、一文字のひらがなから構成されるトークンが大量に含まれますが、それらは正規表現で容易に削除できるため、リストには含めず、メンテナンスを容易にしてあります。 MarimoのYAMLファイルはquantedaパッケージのdictionary()で容易にRに読み込めます。さらに、これらのリストをstopwordsパッケージを通じて利用できるようにする予定です。

New research paper on how to choose seed words for semi-supervised models

I have been developing and applying semi-supervised models, such as seeded-LDA, Newsmap and LSS, for classification and document scaling aiming to broader the scope of quantitative text analysis in recent years. These models are very cost efficient because they only require a small set of “seed words” to learn categories or dimensions of interest. However, […]

Begin typing your search term above and press enter to search. Press ESC to cancel.

Back To Top