但し今まで姓名を分離して使用していなかったため、区切り文字なしの文字列で繋がってしまっている。「山田太郎」のように、、
これをなんとか姓名に分離し、あわよくばフリガナもふってもらいたい。
MeCabというOSSを知っている人は少ないと思う。形態素解析や辞書による単語解析が行える。
これを利用して人名の姓ぐらいはIPAの辞書で解析できそうだったのでインストールすることに、、ちなみにシェルプログラムを作るのは面倒くさすぎるので、mecab-pythonの環境も整えpythonでコードを書くことにした。
- MeCabのインストール
http://mecab.sourceforge.net/#download
からmecab-0.98.tar.gzとIPA辞書をダウンロードtar zxf mecab-0.98.tar.gz
cd mecab-0.98
./configure --with-charset=utf-8
make
sudo make install - IPA辞書のインストール
IPA辞書の解凍./configure --with-charset=utf-8
make
sudo make install - mecab-pythonダウンロード
解凍python setup.py install
動作テスト
$ echo "山田太郎" | mecab
山田 名詞,固有名詞,人名,姓,*,*,山田,ヤマダ,ヤマダ
太郎 名詞,固有名詞,人名,名,*,*,太郎,タロウ,タロー
EOS
$ python mecab-python/test.py
省略
Oh yeah!!完璧
あとはpythonでゴニョゴニョすればアドレス帳の完成だiPhoneのアドレス帳にもフィードバックしよっと
写真も100人ぐらいはあるので一括で登録できるようにする方法がある。
vcard作ってbase64のデータを埋め込んでやると写真が表示される。イケそうだ。
今度暇なときにやる
0 件のコメント:
コメントを投稿