pythonでは、自然言語処理を行うのに便利なライブラリが数多く用意されています。
その中でも有名なNLPライブラリとして、Scikit-Learn,NLTK,Gensim,spaCy,NetworkX,Yellowbrickなどがあります。
Scikit-Learn
- SciPyの拡張で、機械学習のライブラリ
- C言語ベースで速度が早い
- 小,中規模のデータセットを処理するのにできしている
- 商用利用も可能
- 単一インターフェースで、回帰、クラス化、クラスタ化、次元削減など機能がある
- ハイパーパラメータのチューニング機能もある
NLTK
- Natural Language Tool Kitの略
- NLPを学ぶための教育ツール
- コーパス、構文、文法、言語処理あるゴリ済み、トレーニング済みのモデルなどが入っていてすぐに使い始められる
Gensim
- テキストの意味モデル
- 文章の類似を求める
- トピックモデリング
- word2vecなどのライブラリを含んでいる
spaCy
- 製品レベルの言語処理を行える、簡単に使えるAPIを提供している
- 特にディープラーニング用のテキストや、大規模のテキスト処理にフォーカスしている
NetworkX
- 総合的な言語グラフ分析のパッケージ
- 文章の意味構造を理解するのに助けとなる
Yellowbrick
- 機械学習のワークフローを処理や、分析の可視化ツール
- Scikit-Learnの拡張
- 直感的で分かりやすい可視化をしてくれる
こちらもおススメ