読者です 読者をやめる 読者になる 読者になる

形態素解析結果のグラフをスッキリさせてみた

こんなつぶやきを見つけた.

形態素解析で前後になんかあるときと無いときで解析結果が変わるというのは割とよくある話で, 直感的には統一してて欲しいところ何だけど,コストの絶妙な関係で選ばれるノードが変わっちゃうことがあるんですよね.

グラフ書いてみれば分かるんだけど・・・ とグラフ書いてみるとこんなことに.

f:id:ikawaha:20160227163506p:plain

ごちゃごちゃでどうなってるのがぜんぜん分からん(グラフがでかすぎて貼れなかった).

これ,カタカナあると未知語処理が起動して1文字,2文字,3文字… と辞書にないノードを追加しちゃうからなんですよね.

未知語ノードはいっぱい作られるけど,結局は使われなかったりするので,best パスに選ばれなかったらグラフを表示するときには除外するようにしました.

f:id:ikawaha:20160227164039p:plain

めっちゃスッキリ!

f:id:ikawaha:20160227164225p:plain

文脈あるときと比べると何が違いかよく分かりますね! ってよく考えたら web アプリでグラフ書くときタイムアウトしてた処理がこれで軽減できるかも!

ということで,Herokuアプリ の方にも反映させてみました.