学習院大学 東洋文化研究所The Research Institute for Oriental Cultures

研究プロジェクト

東日本震災に対するタイランド国民のSNSでの反応比較

成果紹介ビデオ

日本語

 

English

 

ไทย

 

ビデオの主な内容

分析の手順

  1. Data crawling:データ収集
  2. Language processing:言語処理
  3. Topic extraction:トピックの抽出
  4. Time Series topic transition detection:トピックの変化を時系列で分析する
  5. Visualization:可視化

 

Data crawling:データ収集

タイのwww. pantip.com、www. sanook.com、www. kapook.comおよび日本の価格.comの掲示板、NPO法人(SAVE IWATE)のBlogのログから書き込み情報を取得する。タイのソーシャルメディアからは三ヶ月間2001件のメッセージを取得した。

 

Language processing:言語処理

形態素解析ソフトを用いて単語の分割・品詞判別などの言語処理を行う。タイ語は声調を用いる言語(tonal language)であるため、曖昧さの問題があり、言語処理は極めて難しい。言語処理にはタイ語形態素解析ソフトSwath(Smart Word Analysis for THai) および日本語形態素解析ソフトMeCab(和布蕪)を用いた。

 

Topic extraction:トピックの抽出

単語と単語の間のつながりを分析し、そのクラスターからその書き込みのトピックを決める。
・トピックの抽出の方法

形態素解析の結果に対してRIDF残差逆文書頻度 ( IDFは単語重要性を判定するための指標であり、その単語が出現する文書数が少ないほど、その単語が出現する文書にとっては有用であることを示す。 RIDFはそれにポアッソン分布による誤差の推定を加味したもの)の値によって単語の重要性を決める。

([ ]内にRIDF値が記されている。数値が高いほど重要性が高い。)

 

LSA(潜在的意味解析Latent Semantic Analysis:単語の集合体からトピックを解析する作業)、LDA(潜在的ディリクレ配分法Latent Dirichlet Allocation:潜在的意味解析をディリクレ配分(事象の生起確率の分布)によって補正する方法)によってトピックを抽出する。

 

日本とタイの結果の比較

タイ語の書き込みについてはトピックをT1原発事故、T2被災者援助、T3巨大地震文類し、日本の掲示板の書き込みのトピックをK1地震の被害、 K2電力問題、K3被災者援助、K4産業の問題に分類し、被災者のブログのトピックをB1援助物資の必要性、B2仕事/仮設住宅の必要性に分類した。

 

Time Series topic transition detection:トピックの変化を時系列で分析する。

一日ごとの各トピック数をカウントし、時系列に並べる。

 

Visualization:可視化

グラフ等によって結果を見やすくする。

 

 


ページの先頭へ