NLPの流れ
単語分割
・Ngram
前処理
・正規化:同じ意味の単語が別々に集計されないようにする
・HTMLタグ
・ストップワード:頻出キーワード、①やⅰ、です、私など
・数字
・顔文字
・化学式:C6H5OHなど
・数学や物理の公式
・URL
・商品コードや型番
単語のベクトル表現
・one-hot ベクトル
・Word Embeddings:Word2Vec, fastText, GloVe
文書のベクトル表現
<文書のベクトル化>
・Doc2Vec
<トピック分析>
:形態素解析済みの文書を自動的に分類し、指定したトピック数に分割する
・LDA(Latent Dirichlet Allocation)
→・文書群を与えると、指定したトピック群に話題を分割してくれる
・いくつに分割したらいいかがわかりにくい
・DTM(Dynamic Topic Model)
→・LDAを拡張し,SNS上の一定期間の話題を解析する場合のように,新しいニュースが飛び込んできて話題が遷移する時に使うモデル
・HDP(Hierarchical Dirichlet Process)
→・LDAを拡張し,文書をいくつのトピックに分割すればいいか