Python Mecab〜日本語を分解してみよう〜

イントロダクション

Javaの基本がわかったら今度は何か作ってみたいのが人情。。。今回は日本語を品詞分解してくれるライブラリ「Mecab」があったのでそれを使用する方法→開発環境のセットアップ方法を記載します。

Mecab本体のダウンロード

本家のホームページ

<手段1>:ブラウザにURLの部分に「https://drive.google.com/uc?export=download&id=0B4y35FiV1wh7cENtOXlicTFaRUE」を入力してEnterキーを押下するとダウンロードできます。(tar.gz)ファイルなのでそれを解凍します。

展開したら下の様にコマンドを叩いてインストールします。(Mac & Linux)

    • 一般的なフリーソフトウェアと同じ手順でインストールできます。
       % tar zxfv mecab-X.X.tar.gz
       % cd mecab-X.X
       % ./configure 
       % make
       % make check
       % su
       # make install
      

辞書のインストール

% tar zxfv mecab-ipadic-2.7.0-XXXX.tar.gz
% mecab-ipadic-2.7.0-XXXX
% ./configure
% make
% su
# make install

Pythonから使える様にする

ダウンロードして展開したフォルダの直下に「README」ファイルがあるのでそれを開きます。自分のところにあったのは下の様に書いてありました。

MeCab python module

$Id: README,v 1.1.1.1 2005/12/03 14:18:50 taku-ku Exp $;

1. Installation

  % python setup.py build
  % su
  # python setup.py install
  
  You can change the install directory with the --prefix option. For example:

  % python setup.py install --prefix=/tmp/pybuild/foobar
  
2. How to use?

   see 'test.py' as a sample program.

このファイルがあるディレクトリ(フォルダ)と同じ場所に「setup.py」があるのでそれを叩けばオッケ!ターミナルを開いてこのディレクトリに移動します。ターミナルの細かい使用方法に関してはこちら

python setup.py

これで完了です。

ちょっと動かして見る。「python」コマンドでpythonコマンドの入力モードに入ります。ここでコードを作成して実行できます。

$python
>>> import MeCab
>>> m = MeCab.Tagger("-Ochasen")
>>> print m.parse("大好評!ハンコック KMMEESS")
大	ダイ	大	接頭詞-名詞接続		
好評	コウヒョウ	好評	名詞-一般		
!	!	!	名詞-サ変接続		
ハンコック	ハンコック	ハンコック	名詞-一般		
KMMEESS	KMMEESS	KMMEESS	名詞-固有名詞-組織		
EOS

とりあえずこんな感じでした。