日本メディア学会の研究会での討論

6月11日の「メディア研究における量的テキスト分析の動向」と題した日本メディア学会の研究会に討論者として参加させてもらいました。于海春さんの中国のメディア統制に関する重要な研究を、討論を通じてテキスト分析の観点からより広い文脈に位置付けるように試みたつもりです。60人以上の方がオンラインで出席してくれたようでとても有意義なものでした。内容の要約は発表に用いたスライドを見てください。また、質疑応答の際に約束したように種語の選別の仕方についてのページも作成したので活用してください。

New papers on distributed LDA for sentence-level topic classification

I have been studying and developing an LDA algorithm for classification of sentences since 2022. Sentence-level topic classification allows us to analyze association between topics and other properties such as sentiments within documents. Also, sentence-level analysis has become more common in text analysis in general thanks to highly capable transformer models in recent years. My […]

Measuring emotional distress during COVID through words and emojis on Twitter

My co-authored article on public mental health has appeared recently in the Journal of Medical Internet Research. In this study, we combined survey research and social media analysis to infer Japanese people’s mental health during the COVID pandemic. The methodological novelty of this study is that (1) we collected individual characteristics (age, gender, occupation, income […]

多言語テキスト分析研究会の立ち上げ

量的テキスト分析に関する知識の普及と人的な交流のため、2023年に多言語量的テキスト分析研究会(Multi-lingual Text Analysis Research Group)を立ち上げました。本研究会は(1)大学院生に量的テキスト分析についての学習機会を提供する、(2)量的テキスト分析の実践者の間での学問を超えたつながりを形成する、(3)アジア言語のテキストの量的分析の手法を発展させる、ことを目的としています。 本研究会では、社会科学(政治学、社会学、地域研究)の大学院生や若手の研究者を中心を中心に、同年3月から勉強会を定期的に開催しています。勉強会では、計画中または進行中の研究についての方法論的なアドバイス、量的テキスト分析についての実践的なチュートリアルなどを行っています。 勉強会への参加に関心がある方は、Google Groupを通して日時と場所をお知らせするので、僕にメールで連絡をしてください。基本的にオフラインでの集まりですが、なるべく日本各地で開催したいと思っています。

Encyclopedia entries on text analysis from fresh perspectives

The Elgar Encyclopedia of Technology and Politics was published earlier this month. Andrea Ceron, the editor, compiled entries by many young political scientists to make the volume full of fresh perspectives. I have contributed to it by writing an entry on “text as data” (preprint) with an emphasis on the “string-of-words” approach that would improve […]

MeCabのトークンをQuantedaに読み込む二つの方法

量的テキスト分析では、文を語に分割するトークン化という処理が不可欠です。日本語は英語のように語が空白で区別されていないけれど、ICUに含まれる単語辞書を使うと日本語の文を簡単にトークン化できます。さらに、MeCabなどの形態素解ツールを使うと、文のトークン化だけではなく、品詞の特定までできます。 僕自身は品詞を区別するような分析をしないので、これまでちゃんと説明したことはなかったけど、QuantedaでMecabの出力を簡単に取り込むことができます。ここの例では、CRANでも公開されているRcppMeCab使って、語と品詞名がスラッシュで区切られたトークン(方法1)、または、語のみのトークン(方法2)を読み込みます。 方法1 この方法では、RcppMeCabのpos()が出力するlistをas.tokens()でtokensオブジェクトに変換し、文書名をコピーします。これさえできてしまえば、tokens_select()で語や品詞を選び、通常の操作でdfmオブジェクトを作成できます。 方法2 この方法では、RcppMeCabのpos()が出力するdata.frameの中で品詞を選択した後に、オブジェクトのクラス名を改ざんして、as.tokens()を適用します。クラス名を改ざんするのは、この関数がSpacyrの出力にしか正式対応していないものの、RcppMeCabの出力の形式が、それとまったく同じだからです。 でも、as.tokens()が行っているのは、data.frameをリストに変換するだけのことなので、split()を使っても同じことができます。この方法であれば、RMeCabなどの他の形式にも適用できるはずです。 もし、量的テキスト分析でMeCabを使う人が多いのであれば、利便性を高めるためにQuantedaに変更を加えることもできるので、下のコメント欄にその旨を書いてください。

Begin typing your search term above and press enter to search. Press ESC to cancel.

Back To Top