NLPの流れ - dgakio’s blog

単語分割

・Ngram

前処理

・正規化：同じ意味の単語が別々に集計されないようにする

・HTMLタグ

・ストップワード：頻出キーワード、①やⅰ、です、私など

・数字

・顔文字

・化学式：C6H5OHなど

・数学や物理の公式

・URL

・商品コードや型番

単語のベクトル表現

・one-hot ベクトル

・Word Embeddings：Word2Vec, fastText, GloVe

文書のベクトル表現

＜文書のベクトル化＞

・Doc2Vec

＜トピック分析＞

：形態素解析済みの文書を自動的に分類し、指定したトピック数に分割する

・LDA(Latent Dirichlet Allocation)

→・文書群を与えると、指定したトピック群に話題を分割してくれる

　・いくつに分割したらいいかがわかりにくい

・DTM(Dynamic Topic Model)

→・LDAを拡張し，SNS上の一定期間の話題を解析する場合のように，新しいニュースが飛び込んできて話題が遷移する時に使うモデル

・HDP(Hierarchical Dirichlet Process)

→・LDAを拡張し，文書をいくつのトピックに分割すればいいか