cannaの辞書を賢くするぜ
ちょっと更新@2004/12/08
ちょっと更新@2004/06/14
ちょっと更新@2003/07/07
む、Cannaの公式ページからリンクが張られていたんですね。もうちょっと
頑張って書き足していきます。
[改装予定] 近々、色々更新しつつ書きたしたいと思っています (07/15/2004)
PC-UNIXの世界はそれなりに幸せになってきました。カナ漢字変換も商用の賢
いソフトが購入できるようになり、それなりに環境整備が進んでいると思いま
す。「UNIXのカナ漢字変換はぼろい」ということが昔から言われていましたが、
現在では商用のWnn6とかVJEとかを購入すればそれなりに賢いカナ漢字変
換環境を手に入れられます。
しかし私はcanna使い。ということで、
「せっかくだから、俺はcannaを賢くするぜ」
などとコンバット越前的叫びをあげつつ、
Cannaを賢くしてみたいと思います。
最新cannaを入れてますか?
cannaは元もとNECで開発されていたものですが、開発元での開発が停止し、
開発は有志に引き継がれています。cannaの開発はsourceforge.jp上で行なわれて
おり、現在のcannaの公式サイトは、
canna.sourceforge.jp
です。2003年7月現在の最新版は3.6p3です。
FreeBSDではportsから、NetBSDではpkgsrcからインストールできます。
さて、古い内容は↓です。
<ここから>
私はBSD/OS(2000年末現在 ^_^; 今はNetBSD)使いです。portsに頼って自分が
使っているソフトのバージョンも知らないような軟弱者(これが多いんだ、最
近)のことは相手にしません。手でインストールしましょう。というわけで、
cannaの最新バージョンについてです。
cannaの最新版は3.5b2です。本家のページから入手できます。
また、以下のページでは、cannaに対するpatchを紹介しています。
FreeBSDのportsのCannaはいまだに3.2.2であることを考えると、自力でインス
トールする価値はありますね。
うそ。
なんてことをいっているうち
に、FreeBSDもportsもNetBSDのpkgsrcも3.5b2になりました。良いことです。
ただしFreeBSDについてはpackageで転がっているのは3.2.2のままなので注意して
ください。portsをいれると3.5b2になります。
</ここまで>
辞書入れてますか?
辞書を鍛えればcannaもそれなりに賢くなる、という気がするので、
辞書はばんばん入れてみようと思います。
拡張版辞書
かんな辞書(拡張版)
のページで、13万語の辞書が公開されています。かなり賢くなります。
この辞書については、FreeBSDのportsになっています。japanese/cannadicがそれで、
これをmake installしてdics.dirを書き変えて、
.cannaの辞書の項目に"gcanna", "gcannaf"を追加すれば
使えるようになります。
skkの辞書
skk
の名詞辞書(
GPL
にもとづいて配布され、改変、再配布が可能)
を変換して使うと、名詞や特にcannaが弱い4文字熟語が圧到的
に強力になります。ただし、上記の拡張辞書と一緒に使うと全体の辞書の項目が大
きくなりすぎるのか、正しく変換できない言葉が出てきて困ります。そこ
で、skkの名詞辞書のうち、2文字以上でかつ拡張版かんな辞書を重複していな
い単語だけを抜きだした辞書を作成してみました(シェイプアップ版)。
シェイプアップ版でも9万語ほどの名詞が登録されています。
とりあえずテキスト版辞書を用意したので、必要ならmkbindicしてください。
(最終更新日:2004年12月8日)
mkbindicすると、*.cbdと*.cldができ上がります。これを登録するためには、
例えばdics.dirに次のように書きます。
gskk.cbd(gskk.mwd) -gskk---
gskk.cld(gskk.mwd) -gskk---
もちろん、各自の~/.cannaの(use-dictionary..)の中に"gskk"
を追加するようにしてください。
辞書を追加したら、cannaserverを再起動し、M-x canna-reset(Muleやemcwsの場合。
yc.elの場合は立ち上げ直し)を実行してください。
上記の拡張辞書もこのskk辞書も共通しているのですが、辞書を作成した直後では
頻度情報がとち狂っています。難しい単語の方が最初にでてくるのではないかと
思われるくらい。しばらくガリガリ使って、頻度情報を学習させてください。
なお、上記の名詞辞書は、オリジナルのSKKのライセンスである
GPL
に従い、改変と再配布が可能です。
i-dic(Idol Dictionally)
i-dicのダウンロードは
こちら
から。
インストールするためには、tar.gzをダウンロードして、make cannaを実行するだけ
です。idic.tというテキスト形式の辞書が出来ます。バイナリ形式に変換したい
場合はmkbindic idic.tを実行してください。idic.cbd, idic.cldというファイルが
出来ますので、この二つを${CANNAPREFIX}/dict/canna/canna/にコピーし、
dics.dirに以下の二行を追加してください。
idic.cbd(idic.mwd) -idic---
idic.cld(idic.mwd) -idic---
s-dic(Sailormoon Dictionally)
2ch用語辞書
Omaemona 2ch/Linux (DQN)の中で、2ch用語を集めた
辞書
を作っています。テキスト形式の辞書なので、mkbindicしてdics.dirに
書き加えて使いましょう。
canna関係リンク集
Masahiko KIMOTO <kimoto@ohnolab.org>
Last modified: Wed Dec 8 22:21:29 JST 2004