talk about rss feed #9
Wednesday, January 18, 2012 6:31:03 PM
dic.stkの代替に動詞も入れた。133014 行。あと最後に接尾語が残っているのでもうちょっと増える。
賢くなったのかというと、多少は漢字が読める子になっているのだけどまだまだだなあ。17 日は阪神大震災のあった日なのでニュースの記事によく「鎮魂」の字が現れたのだが、とりあえず「ちんたましい」とは読まなくなった。
日本語の読みではなく、edic や cmudict、metaphone、つまり英単語のカタカナ化辞書の話に戻るのだけど、edic が微妙だ。もともと和英辞書なのをひっくり返してるためなのだが、ときどき「ん?」となるものがある。
ひっくり返すロジックは、
・日本語の単語がカタカナ(おそらく外来語)だけで構成
・英語の説明が 1 単語だけで完結
の行を抜き出して英単語 -> カタカナの形に構成しなおすというものだ。
でも日本語でカタカナって外来語だけとは限らないんだー。
なので、edic 由来のカタカナ化辞書で fool を引くと「アホ」と返ってきたり、mother を引くと「オモニ」と帰ってきたりする。
うーん。
変換時に、変換候補として
・edict 由来の辞書
・cmudict 由来の辞書
・metaphone 由来の動的変換
の順で存在するカタカナを返しているわけだけど、各辞書由来のカタカナと動的変換したカタカナのlevenshtein distanceを取り、動的変換結果に近いほうを返したほうがいいのか?
でも php 組み込みの levenshtein() はマルチバイト文字にたぶん対応してないから、また車輪の再発明しないといけない。
賢くなったのかというと、多少は漢字が読める子になっているのだけどまだまだだなあ。17 日は阪神大震災のあった日なのでニュースの記事によく「鎮魂」の字が現れたのだが、とりあえず「ちんたましい」とは読まなくなった。
日本語の読みではなく、edic や cmudict、metaphone、つまり英単語のカタカナ化辞書の話に戻るのだけど、edic が微妙だ。もともと和英辞書なのをひっくり返してるためなのだが、ときどき「ん?」となるものがある。
ひっくり返すロジックは、
・日本語の単語がカタカナ(おそらく外来語)だけで構成
・英語の説明が 1 単語だけで完結
の行を抜き出して英単語 -> カタカナの形に構成しなおすというものだ。
でも日本語でカタカナって外来語だけとは限らないんだー。
なので、edic 由来のカタカナ化辞書で fool を引くと「アホ」と返ってきたり、mother を引くと「オモニ」と帰ってきたりする。
うーん。
変換時に、変換候補として
・edict 由来の辞書
・cmudict 由来の辞書
・metaphone 由来の動的変換
の順で存在するカタカナを返しているわけだけど、各辞書由来のカタカナと動的変換したカタカナのlevenshtein distanceを取り、動的変換結果に近いほうを返したほうがいいのか?
でも php 組み込みの levenshtein() はマルチバイト文字にたぶん対応してないから、また車輪の再発明しないといけない。


