cannaの辞書を賢くするぜ

ちょっと更新@2004/12/08
ちょっと更新@2004/06/14
ちょっと更新@2003/07/07
む、Cannaの公式ページからリンクが張られていたんですね。もうちょっと 頑張って書き足していきます。

[改装予定] 近々、色々更新しつつ書きたしたいと思っています (07/15/2004)

PC-UNIXの世界はそれなりに幸せになってきました。カナ漢字変換も商用の賢 いソフトが購入できるようになり、それなりに環境整備が進んでいると思いま す。「UNIXのカナ漢字変換はぼろい」ということが昔から言われていましたが、 現在では商用のWnn6とかVJEとかを購入すればそれなりに賢いカナ漢字変 換環境を手に入れられます。

しかし私はcanna使い。ということで、
「せっかくだから、俺はcannaを賢くするぜ」
などとコンバット越前的叫びをあげつつ、 Cannaを賢くしてみたいと思います。


最新cannaを入れてますか?

cannaは元もとNECで開発されていたものですが、開発元での開発が停止し、 開発は有志に引き継がれています。cannaの開発はsourceforge.jp上で行なわれて おり、現在のcannaの公式サイトは、
canna.sourceforge.jp
です。2003年7月現在の最新版は3.6p3です。
FreeBSDではportsから、NetBSDではpkgsrcからインストールできます。

さて、古い内容は↓です。

<ここから>
私はBSD/OS(2000年末現在 ^_^; 今はNetBSD)使いです。portsに頼って自分が 使っているソフトのバージョンも知らないような軟弱者(これが多いんだ、最 近)のことは相手にしません。手でインストールしましょう。というわけで、 cannaの最新バージョンについてです。

cannaの最新版は3.5b2です。本家のページから入手できます。

また、以下のページでは、cannaに対するpatchを紹介しています。 FreeBSDのportsのCannaはいまだに3.2.2であることを考えると、自力でインス トールする価値はありますね。
うそ。
なんてことをいっているうち に、FreeBSDもportsもNetBSDのpkgsrcも3.5b2になりました。良いことです。 ただしFreeBSDについてはpackageで転がっているのは3.2.2のままなので注意して ください。portsをいれると3.5b2になります。
</ここまで>

辞書入れてますか?

辞書を鍛えればcannaもそれなりに賢くなる、という気がするので、 辞書はばんばん入れてみようと思います。

拡張版辞書

かんな辞書(拡張版) のページで、13万語の辞書が公開されています。かなり賢くなります。
この辞書については、FreeBSDのportsになっています。japanese/cannadicがそれで、 これをmake installしてdics.dirを書き変えて、 .cannaの辞書の項目に"gcanna", "gcannaf"を追加すれば 使えるようになります。

skkの辞書

skk の名詞辞書( GPL にもとづいて配布され、改変、再配布が可能) を変換して使うと、名詞や特にcannaが弱い4文字熟語が圧到的 に強力になります。ただし、上記の拡張辞書と一緒に使うと全体の辞書の項目が大 きくなりすぎるのか、正しく変換できない言葉が出てきて困ります。そこ で、skkの名詞辞書のうち、2文字以上でかつ拡張版かんな辞書を重複していな い単語だけを抜きだした辞書を作成してみました(シェイプアップ版)。 シェイプアップ版でも9万語ほどの名詞が登録されています。
とりあえずテキスト版辞書を用意したので、必要ならmkbindicしてください。
(最終更新日:2004年12月8日)
mkbindicすると、*.cbdと*.cldができ上がります。これを登録するためには、 例えばdics.dirに次のように書きます。
gskk.cbd(gskk.mwd)                -gskk---
gskk.cld(gskk.mwd)                -gskk---

もちろん、各自の~/.cannaの(use-dictionary..)の中に"gskk" を追加するようにしてください。
辞書を追加したら、cannaserverを再起動し、M-x canna-reset(Muleやemcwsの場合。 yc.elの場合は立ち上げ直し)を実行してください。

上記の拡張辞書もこのskk辞書も共通しているのですが、辞書を作成した直後では 頻度情報がとち狂っています。難しい単語の方が最初にでてくるのではないかと 思われるくらい。しばらくガリガリ使って、頻度情報を学習させてください。

なお、上記の名詞辞書は、オリジナルのSKKのライセンスである GPL に従い、改変と再配布が可能です。


i-dic(Idol Dictionally)

i-dicのダウンロードは こちら から。
インストールするためには、tar.gzをダウンロードして、make cannaを実行するだけ です。idic.tというテキスト形式の辞書が出来ます。バイナリ形式に変換したい 場合はmkbindic idic.tを実行してください。idic.cbd, idic.cldというファイルが 出来ますので、この二つを${CANNAPREFIX}/dict/canna/canna/にコピーし、 dics.dirに以下の二行を追加してください。
idic.cbd(idic.mwd)        -idic---
idic.cld(idic.mwd)       -idic---

s-dic(Sailormoon Dictionally)


2ch用語辞書

Omaemona 2ch/Linux (DQN)の中で、2ch用語を集めた 辞書 を作っています。テキスト形式の辞書なので、mkbindicしてdics.dirに 書き加えて使いましょう。

canna関係リンク集


Masahiko KIMOTO <kimoto@ohnolab.org>
Last modified: Wed Dec 8 22:21:29 JST 2004