NLPの流れ

 
 
 
単語分割

・Ngram
 
 
前処理

・正規化:同じ意味の単語が別々に集計されないようにする
 
・HTMLタグ
ストップワード:頻出キーワード、①やⅰ、です、私など
・数字
・顔文字
 
・化学式:C6H5OHなど
・数学や物理の公式
・URL
・商品コードや型番
 
 
 
単語のベクトル表現

 
・one-hot ベクトル
・Word Embeddings:Word2Vec, fastText, GloVe
 
 
 
 
文書のベクトル表現

 
<文書のベクトル化>
・Doc2Vec
 
 
<トピック分析>
形態素解析済みの文書を自動的に分類し、指定したトピック数に分割する
 
・LDA(Latent Dirichlet Allocation)
→・文書群を与えると、指定したトピック群に話題を分割してくれる
 ・いくつに分割したらいいかがわかりにくい
 
DTM(Dynamic Topic Model)
→・LDAを拡張し,SNS上の一定期間の話題を解析する場合のように,新しいニュースが飛び込んできて話題が遷移する時に使うモデル
 
・HDP(Hierarchical Dirichlet Process)
→・LDAを拡張し,文書をいくつのトピックに分割すればいいか