6月11日の「メディア研究における量的テキスト分析の動向」と題した日本メディア学会の研究会に討論者として参加させてもらいました。于海春さんの中国のメディア統制に関する重要な研究を、討論を通じてテキスト分析の観点からより広い文脈に位置付けるように試みたつもりです。60人以上の方がオンラインで出席してくれたようでとても有意義なものでした。内容の要約は発表に用いたスライドを見てください。また、質疑応答の際に約束したように種語の選別の仕方についてのページも作成したので活用してください。
Measuring emotional distress during COVID through words and emojis on Twitter
My co-authored article on public mental health has appeared recently in the Journal of Medical Internet Research. In this study, we combined survey research and social media analysis to infer Japanese people’s mental health during the COVID pandemic. The methodological novelty of this study is that (1) we collected individual characteristics (age, gender, occupation, income […]
多言語テキスト分析研究会の立ち上げ
量的テキスト分析に関する知識の普及と人的な交流のため、2023年に多言語量的テキスト分析研究会(Multi-lingual Text Analysis Research Group)を立ち上げました。本研究会は(1)大学院生に量的テキスト分析についての学習機会を提供する、(2)量的テキスト分析の実践者の間での学問を超えたつながりを形成する、(3)アジア言語のテキストの量的分析の手法を発展させる、ことを目的としています。 本研究会では、社会科学(政治学、社会学、地域研究)の大学院生や若手の研究者を中心を中心に、同年3月から勉強会を定期的に開催しています。勉強会では、計画中または進行中の研究についての方法論的なアドバイス、量的テキスト分析についての実践的なチュートリアルなどを行っています。 勉強会への参加に関心がある方は、Google Groupを通して日時と場所をお知らせするので、僕にメールで連絡をしてください。基本的にオフラインでの集まりですが、なるべく日本各地で開催したいと思っています。
MeCabのトークンをQuantedaに読み込む二つの方法
量的テキスト分析では、文を語に分割するトークン化という処理が不可欠です。日本語は英語のように語が空白で区別されていないけれど、ICUに含まれる単語辞書を使うと日本語の文を簡単にトークン化できます。さらに、MeCabなどの形態素解ツールを使うと、文のトークン化だけではなく、品詞の特定までできます。 僕自身は品詞を区別するような分析をしないので、これまでちゃんと説明したことはなかったけど、QuantedaでMecabの出力を簡単に取り込むことができます。ここの例では、CRANでも公開されているRcppMeCab使って、語と品詞名がスラッシュで区切られたトークン(方法1)、または、語のみのトークン(方法2)を読み込みます。 方法1 この方法では、RcppMeCabのpos()が出力するlistをas.tokens()でtokensオブジェクトに変換し、文書名をコピーします。これさえできてしまえば、tokens_select()で語や品詞を選び、通常の操作でdfmオブジェクトを作成できます。 方法2 この方法では、RcppMeCabのpos()が出力するdata.frameの中で品詞を選択した後に、オブジェクトのクラス名を改ざんして、as.tokens()を適用します。クラス名を改ざんするのは、この関数がSpacyrの出力にしか正式対応していないものの、RcppMeCabの出力の形式が、それとまったく同じだからです。 でも、as.tokens()が行っているのは、data.frameをリストに変換するだけのことなので、split()を使っても同じことができます。この方法であれば、RMeCabなどの他の形式にも適用できるはずです。 もし、量的テキスト分析でMeCabを使う人が多いのであれば、利便性を高めるためにQuantedaに変更を加えることもできるので、下のコメント欄にその旨を書いてください。
保守政権下での安全保障問題に関する新聞報道と首相支持率
先月、Discursive diversion: Manipulation of nuclear threats by the conservative leaders in Japan and Israelと題する論文が公表されました。この研究は日本学術振興会に支援され2019年に始まった日本とイスラエルの研究者による共同プロジェクトで、両国のリベラルと保守派の新聞を2009から2018年に渡って比較し、法案成立や総選挙の前に、新聞記事が北朝鮮またはイランの核兵器の脅威をどの程度強調したかを分析しました。この期間を通して、日本(安倍政権)とイスラエル(ネタニエフ政権)の両国では保守政権が続いていました。 新聞記事の内容分析では、Latent Semantic Scalingという準教師あり機械学習のアルゴリズムを用いており、[危険, 敵意, 壊滅, 危害, 衝突, 攻撃]を脅威について、[対話, 支持, 機会, 交渉, 成功, 貿易]を安全についての種語として選びました。ヘブライ語の記事の分析でも、同様な種語を選んでいます。一番目の図は、種語との意味的な距離によって、コーパス内の語がどのように重みづけされたかを示しており、差し迫った武力行使を意味する語が正の値を得て、核兵器が開発途上であることを意味する語が負の値を得ていることがわかると思います。 当研究では、日本の安全保障制度改革に注目し、特定秘密保護法(L1)、集団的自衛権容認(L2)、安全保障関連法(L3)、テロ等準備罪(L4)の成立に至る60日間にリベラルと保守派の新聞が、北朝鮮の脅威を強調する度合いがどの程度変化したかを統計的に分析しました。3番目の図では、安全保障関連法案(L3)の時だけ、読売が朝日より脅威を強調したことが示されています。イスラエルでは、ネタニエフが苦戦した2015年の総選挙の前に、保守派の新聞がイランの脅威を強調していたことが示されました。 当研究での統計分析の結果は、以前から指摘されていた安倍政権と保守系メディアの近しい関係を明示するものであり、LSSを用いた新聞の量的テキスト分析が政治コミュニケーションの分野において有効であることを証明したと考えています。イスラエルでは、実際に保守系新聞のオーナーとネタニエフの癒着が明らかになり、両者が有罪になっています。 さらに、本研究では新聞の内容分析と並行して心理学的な実験を両国で行い、脅威を強調されている新聞記事を読んだ場合、強調されていない記事を読んだ場合と比べて、指導者の支持率が有意に高まることが示されました。この実験は、Could Leaders Deflect from Political Scandals? Cross-National Experiments on Diversionary Action in Israel and Japanという論文として発表されています。 当研究での発見を総合すると、武力紛争下で指導者の支持率が高まる、旗の下の集結現象(rally-around-the-flag phenomena)が必ずしも、実際の武力行使を伴わずとも、マスメディアを操作するだけで発生し、保守的な政治家が自身の政治的な利益のために、安全保障上の脅威を強調しがちであると言えるでしょう。
日本経済学会での量的テキスト分析チュートリアル
先日の日本経済学会の春季大会で量的テキスト分析のチュートリアルをやらせてもらいました。座長である川田恵介さんが提供してくれた鳥取県のハローワークの求人票の分析を題材として、日本語の文書の前処理、頻度分析や共起分析、辞書分析、機械学習の使い方を説明しました。今回は、共起分析を用いた日本語のトークン化および準教師ありトッピクモデル(Seeded-LDA)によって分析の結果を大幅に改善できる点を強調しました。興味がある方は、講義に用いたスライドとファイルを見てください。
Preprint on nuclear threats using LSS
I have been leading a project with Elad Segev (Tel Aviv University) and Atsushi Tago (Waseda University) on implications of security threats for domestic politics. We have completed a content analysis of newspapers and a simultaneous survey experiment in both Japan and Israel since the beginning of the project in 2019. One of the goals […]
単語埋め込みによる柔軟な日本語文書の感情分析
先日、Latent Semantic Scaling: A Semisupervised Text Analysis Technique for New Domains and Languagesと題する僕の論文がCommunication Methods and Measuresに掲載されました。当論文では、単語埋め込み(word embedding)を用いることで、すぐに利用できるキーワード辞書などが少ない日本語においても、英語と同様に量的テキスト分析を行えることを示しました。 当論文では、LSSという手法を用いて、新聞の記事から政治に関する語を抽出し、それらを感情に関する種語との距離によって重みづけしています。肯定的な語は「絶好、美麗、秀逸、卓越、優雅、絶賛、善良」は、否定的な語「粗悪、醜悪、稚拙、非礼、貧相、酷評、悪徳」となっています。重みづけの結果は、図にあるように、「絶好、人類、民主化、安定、立国」などが肯定的な語、「私利私欲、暴力団、脱税事件、不透明、流用」などが否定的な語となり、直感的に納得できる結果になっています。これら感情によっての重みづけされた語を用いて、文書を重みづけると適当な感情辞書が無くても、政治的な感情分析ができます。 LSSを使うと、重みづけされる語を変えることで、政治以外のさまざまな主題における感情分析を行えます。さらに、種語を変えることで脅威認識や精神状態などのより特定化された尺度における分析を行うことできます。この論文での日本語文書の処理と分析は、quantedaとLSXというRパッケージだけを使っていて簡単なので、ぜひとも試してみてください。分析を再現するRスクリプトは、Harvard Dataverseからダウンロードできます。
Improved tokenization of hashtags in Asian languages
Quanteda can tokenize Asian texts thanks to the ICU library’s boundary detection mechanism, but it causes problems when we analyze social media posts that contain hashtags in Chinese or Japanese. For example, a hashtag “#英国首相仍在ICU但未使用呼吸机#” in a post about the British prime minister is completely destroyed by current quanteda’s tokenizer. Altough we can correct tokenization […]
日本語のストップワーズ
量的テキスト分析では、文法的な要素である機能語を前処理で削除することが一般的で、英語などのヨーロッパ言語にはSnowballで定義されたリストが広く使われています。しかし、Snowballは日本語などのアジア言語を含まないため、ヨーロッパ言語とアジア言語での比較分析を行う場合に適切なリストがありませんでした。 この問題を解決するために、Snowballの英語のリストを拡張および翻訳し、ヨーロッパ言語とアジア言語の両方に適用できるMarimoという新しいストップワーズのコレクションを作成しました。このコレクションは、現時点では、英語、ドイツ語、日本語、アラビア語、ヘブライ語だけを含んでいますが、これから言語を増やしていく予定です。 Marimoの特徴は、ストップワーズが種類ごとに階層化されていることです。これは、語の役割を特定することで翻訳を容易にする、そして、余分な語を容易に排除できるようにするためです。例えば、reportingやtime、numberなどのカテゴリーは新聞記事の分析のために追加したものですが、別の種類の文書では必要がないでしょう。 日本語の文書には、一文字のひらがなから構成されるトークンが大量に含まれますが、それらは正規表現で容易に削除できるため、リストには含めず、メンテナンスを容易にしてあります。 MarimoのYAMLファイルはquantedaパッケージのdictionary()で容易にRに読み込めます。さらに、これらのリストをstopwordsパッケージを通じて利用できるようにする予定です。