According to a news report, the European Union is stepping up its effort to prevent disinformation from spreading in collaboration with fact-checking organization in its member countries. They fear that foreign actors such as the Russian government to influence the EU parliament election later this month by spreading eurosceptic or anti-immigrant content. Since 2017, I […]
日本語の量的テキスト分析用の辞書
量的テキスト分析ではキーワード辞書が使われることが多いけれど、日本語では社会科学的な分析に用いられるものがほとんどなく、それが研究や教育における障害となっているように思います。でも最近、約15,000語が以下の23分野に分けられている日経シソーラスの存在を知人から教えてもらいました。 [1] “一般・共通” “経済・産業” “経営・企業” [4] “農林水産” “食品” “繊維・木材・紙パ” [7] “資源・エネルギー” “金属・土石” “化学” [10] “機械・器具・設備” “電子電機” “情報・通信” [13] “建設” “流通・サービス・家庭用品” “環境・公害” [16] “科学技術・文化” “自然界” “国際” [19] “政治” “地方” “労働・教育・医療” [22] “社会・家庭” “地域” 少なくとも新聞記事の分析では使えそうなので、語を集めてYAMLフォーマットにまとめてみました。単語版は、ウェブサイトに掲載されているままですが、複単語版はquantedaのtokens()で分かち書きをすることで、辞書分析や複単語の結合に使いやすくなっています。 日経シソーラス(単語版) 日経シソーラス(複単語版) このシソーラスを使う一番簡単な方法は、quantedaで dict <- dictionary(file = “nikkei-thesaurus_multiword.yml”) tokens_lookup(toks, dict) tokens_compound(toks, dict) のようにすることです。詳しい辞書の使い方については、Quanteda Tutorialsを参照してください。また、朝日新聞の『聞蔵』や読売新聞の『ヨミダス』から記事をダウンロードする場合は、newspapersを使うと簡単にテキストをRに読み込めます。
French and Chinese seed dictionaries are added to Newsmap
newsmap is a dictionary-based semi-supervised model for geographical document classification. The core of the package is not the machine learning algorithm but multi-lingual seed dictionaries created by me and other contributors in English, German, French, Spanish, Japanese, Russian, Chinese. We recently added Chinese (traditional and simplified) and French dictionaries, and submitted the package to CRAN. […]
Measuring America’s historical threat perception
Last year, I wrote that the NYT API is a great source of historical anlaysis. Since then I have been working in a project with my colleagues at the LSE to create a historical index for America’s perceived threat. The project is coming to fruition, so I presented the latest results at the Waseda Data […]
POLTEXT is coming to Tokyo
I am organizing the POLTEXT symposium in Tokyo on 14-15 September, 2019. I have participated in the conference in 2016 (Croatia) as a presenter and in 2018 (Hungary) as a tutorial instructor, and learnt a lot from other participants. This is the time for me to offer such an opportunity people from inside and outside […]
Computing document similarity in large corpus
Since early this year, I was asked by many people how to compute document (or feature) similarity in large corpus. They said their functions stops because the lack of space in RAM: Error in .local(x, y, …) : Cholmod error ‘problem too large’ at file ../Core/cholmod_sparse.c, line 92 This happened in our textstat_simil(margn = “documents”) […]
日本語の量的テキスト分析
より多くの日本人の研究者に量的テキスト分析について関心を持ってもらうために、『日本語の量的分析』という論文をニューヨーク大学のエイミー・カタリナックと一緒に書きました。これまでのところ、Twitterで多くの方からポジティブな反応を頂いています。 本稿は、欧米の政治学者の間で近年人気を集めている量的テキスト分析(quantitative text analysis)と呼ばれる手法の日本語における利用について論ずる。まず、量的テキスト分析が登場した背景を述べたうえで、欧米の政治学においてどのように利用されているかを説明する。次に、読者が量的テキスト分析を研究で利用できるように、日本語の分析において注意すべき点に言及しながら、作業の流れを具体的に説明する。最後に、欧米で利用されている統計分析モデルを紹介した上で、それらが日本語の文書の分析にも利用できることを研究事例を用いて示す。本稿は、近年の技術的および方法論な発展によって、日本語の量的テキスト分析が十分に可能になったことを主張するが、この手法が日本の政治学において広く普及するためには、データの整備など制度的な問題に対処していく必要性があることにも触れる。
Newsmap is available on CRAN
I am happy to announce that our R package for semi-supervised document classification, newsmap is available on CRAN. This package is simple in terms of algorithms but comes with well-maintained geographical seed dictionaries in English, German, Spanish, Russian and Japanese. This package was created originally for geographical classification of news articles, but it can also […]
Presentation at ECPR Hamburg
I have presented my latest study on Sputnik News at ECPR Hamburg. This study shows that Russia is using conspiracy theory in Sputnik News articles to promote anti-establishment sentiment in the United State and Britain. The paper and slides are available.
Presentation at R user meeting in Tokyo
I have presented Quantitative Analysis of Textual Data with R at a TokyoR event on 15th July hosted by Yahoo Japan. This was a great opportunity for me to reach out broad Japanese R users and tell them how easy it is to analyze Asian texts using quanteda. It was also really nice to meet […]
