読者です 読者をやめる 読者になる 読者になる

ボールを蹴りたいシステムエンジニア

ボール蹴りが大好きなシステムエンジニア、ボールを蹴る時間確保の為に時間がある時には勉強する。

mecabにmecab-ipadic-neologd辞書を追加する

環境

CentOS6

mecab-ipadic-neologdとは?

mecab標準のシステム辞書の拡張の為の新語辞書。
辞書は月に数回更新されており定期的に新語が追加されている。
※ipadicは2007年を最後に更新が止まっている

更新された辞書を反映する為には都度以下の作業(mecab-ipadic-NEologdのダウンロードと辞書変換)が必要になると思われる。

mecabのインストールはこちらから
toriaezu-engineer.hatenablog.com

手順

mecab-ipadic-NEologdをダウンロードする

git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git

解凍する。
解凍後のCSVファイル名はmecab-ipadic-NEologdの最終更新日みたい。

xz -dkv mecab-ipadic-neologd/seed/mecab-user-dict-seed.*.csv.xz

mecab-ipadic-neologd/seed/mecab-user-dict-seed.20160915.csv.xz (1/1)
  100.0 %                33.6 MiB / 422.0 MiB = 0.080    89 MiB/s         0:04

mecab用辞書に変換する。
ファイル名の日付は適宜変更する事

/usr/local/libexec/mecab/mecab-dict-index -d /usr/local/lib/mecab/dic/ipadic -u mecab-user-dict-seed.20160915.dic -f utf-8 -t utf-8 mecab-ipadic-neologd/seed/mecab-user-dict-seed.20160915.csv 

辞書を移動
※別に移動しなくても後述の設定で辞書パスを指定すれば大丈夫です

cp -p ./mecab-user-dict-seed.20160915.dic /usr/local/lib/mecab/dic/   

MeCabの設定ファイルにユーザー辞書を設定する。

vi /usr/local/etc/mecabrc

ユーザー辞書追記

userdic = /usr/local/lib/mecab/dic/mecab-user-dict-seed.20160915.dic

辞書が反映されている事を確認

追加前

[root@localhost src]# echo "なのはちゃんかわいい" | mecab

な      助動詞,*,*,*,特殊・ダ,体言接続,だ,ナ,ナ
の      名詞,非自立,一般,*,*,*,の,ノ,ノ
は      助詞,係助詞,*,*,*,*,は,ハ,ワ
ちゃん  名詞,一般,*,*,*,*,ちゃん,チャン,チャン
かわいい        形容詞,自立,*,*,形容詞・イ段,基本形,かわいい,カワイイ,カワイイ
EOS

追加語

[root@localhost src]# echo "なのはちゃんかわいい" | mecab

なのは  名詞,固有名詞,人名,一般,*,*,なのは,ナノハ,ナノハ
ちゃん  名詞,接尾,人名,*,*,*,ちゃん,チャン,チャン
かわいい        形容詞,自立,*,*,形容詞・イ段,基本形,かわいい,カワイイ,カワイイ
EOS

設定ファイルに追記しなくてもmecabのオプションでユーザー辞書の指定が可能

echo "なのはちゃんかわいい" | mecab -u /usr/local/lib/mecab/dic/mecab-user-dict-seed.20160915.dic
なのは  名詞,固有名詞,人名,一般,*,*,なのは,ナノハ,ナノハ
ちゃん  名詞,接尾,人名,*,*,*,ちゃん,チャン,チャン
かわいい        形容詞,自立,*,*,形容詞・イ段,基本形,かわいい,カワイイ,カワイイ
EOS