mecabにmecab-ipadic-neologd辞書を追加する
環境
CentOS6
mecab-ipadic-neologdとは?
mecab標準のシステム辞書の拡張の為の新語辞書。
辞書は月に数回更新されており定期的に新語が追加されている。
※ipadicは2007年を最後に更新が止まっている
更新された辞書を反映する為には都度以下の作業(mecab-ipadic-NEologdのダウンロードと辞書変換)が必要になると思われる。
mecabのインストールはこちらから
toriaezu-engineer.hatenablog.com
手順
mecab-ipadic-NEologdをダウンロードする
git clone --depth 1 https://github.com/neologd/mecab-ipadic-neologd.git
解凍する。
解凍後のCSVファイル名はmecab-ipadic-NEologdの最終更新日みたい。
xz -dkv mecab-ipadic-neologd/seed/mecab-user-dict-seed.*.csv.xz mecab-ipadic-neologd/seed/mecab-user-dict-seed.20160915.csv.xz (1/1) 100.0 % 33.6 MiB / 422.0 MiB = 0.080 89 MiB/s 0:04
mecab用辞書に変換する。
ファイル名の日付は適宜変更する事
/usr/local/libexec/mecab/mecab-dict-index -d /usr/local/lib/mecab/dic/ipadic -u mecab-user-dict-seed.20160915.dic -f utf-8 -t utf-8 mecab-ipadic-neologd/seed/mecab-user-dict-seed.20160915.csv
辞書を移動
※別に移動しなくても後述の設定で辞書パスを指定すれば大丈夫です
cp -p ./mecab-user-dict-seed.20160915.dic /usr/local/lib/mecab/dic/
vi /usr/local/etc/mecabrc
ユーザー辞書追記
userdic = /usr/local/lib/mecab/dic/mecab-user-dict-seed.20160915.dic
辞書が反映されている事を確認
追加前
[root@localhost src]# echo "なのはちゃんかわいい" | mecab な 助動詞,*,*,*,特殊・ダ,体言接続,だ,ナ,ナ の 名詞,非自立,一般,*,*,*,の,ノ,ノ は 助詞,係助詞,*,*,*,*,は,ハ,ワ ちゃん 名詞,一般,*,*,*,*,ちゃん,チャン,チャン かわいい 形容詞,自立,*,*,形容詞・イ段,基本形,かわいい,カワイイ,カワイイ EOS
追加語
[root@localhost src]# echo "なのはちゃんかわいい" | mecab なのは 名詞,固有名詞,人名,一般,*,*,なのは,ナノハ,ナノハ ちゃん 名詞,接尾,人名,*,*,*,ちゃん,チャン,チャン かわいい 形容詞,自立,*,*,形容詞・イ段,基本形,かわいい,カワイイ,カワイイ EOS
設定ファイルに追記しなくてもmecabのオプションでユーザー辞書の指定が可能
echo "なのはちゃんかわいい" | mecab -u /usr/local/lib/mecab/dic/mecab-user-dict-seed.20160915.dic なのは 名詞,固有名詞,人名,一般,*,*,なのは,ナノハ,ナノハ ちゃん 名詞,接尾,人名,*,*,*,ちゃん,チャン,チャン かわいい 形容詞,自立,*,*,形容詞・イ段,基本形,かわいい,カワイイ,カワイイ EOS