.syntaxhighlighter {   overflow-y: hidden !important; } .syntaxhighlighter table {   margin-bottom: 1em !important; }

2011年5月21日土曜日

mecabをインストール

今日はアドレス帳を大量につくるべく過去の携帯電話帳のデータを整理し約300人分のデータがある程度整理できた。

但し今まで姓名を分離して使用していなかったため、区切り文字なしの文字列で繋がってしまっている。「山田太郎」のように、、
これをなんとか姓名に分離し、あわよくばフリガナもふってもらいたい。

MeCabというOSSを知っている人は少ないと思う。形態素解析や辞書による単語解析が行える。
これを利用して人名の姓ぐらいはIPAの辞書で解析できそうだったのでインストールすることに、、ちなみにシェルプログラムを作るのは面倒くさすぎるので、mecab-pythonの環境も整えpythonでコードを書くことにした。

  1. MeCabのインストール
    http://mecab.sourceforge.net/#download
    からmecab-0.98.tar.gzとIPA辞書をダウンロード

    tar zxf mecab-0.98.tar.gz
    cd mecab-0.98
    ./configure --with-charset=utf-8
    make
    sudo make install
  2. IPA辞書のインストール
    IPA辞書の解凍
    ./configure --with-charset=utf-8
    make
    sudo make install
  3. mecab-pythonダウンロード
    解凍
    python setup.py install
動作テスト

$ echo "山田太郎" | mecab
山田 名詞,固有名詞,人名,姓,*,*,山田,ヤマダ,ヤマダ
太郎 名詞,固有名詞,人名,名,*,*,太郎,タロウ,タロー
EOS

$ python mecab-python/test.py
省略

Oh yeah!!完璧
あとはpythonでゴニョゴニョすればアドレス帳の完成だiPhoneのアドレス帳にもフィードバックしよっと

写真も100人ぐらいはあるので一括で登録できるようにする方法がある。
vcard作ってbase64のデータを埋め込んでやると写真が表示される。イケそうだ。
今度暇なときにやる

0 件のコメント:

コメントを投稿