読者です 読者をやめる 読者になる 読者になる

形態素解析器 kagome を Google App Engine で動かす

概要 kagome を GAE で動かしたいってのをチラホラ耳にしてたのですが,先日ついに issue が投げられたので対応してみました. 正確には UniDic をあきらめて IPADic だけ対応してる kagome.ipadic で動かせることを確認しました. 何が問題なのか? golang …

それはたぶんあなたの欲しかった名詞ではない

概要 形態素解析してテキストの中から名詞っぽいところだけを抜き出したい.ってのはよくある話だと思うのですが,単純にやるといろいろ混じってます. ( '-`).oO( そもそも抜き出してるのは名詞の形態素であって,名詞句じゃないもんな・・・. 名詞を抜き…

kagomeでNeologdを無理矢理つかう

概要 サポートしてるわけでもないし,テストしてるわけでもないんだけど,Hackしてくれるひとがいるみたいだからメモ.なにかあったらフィードバックしてくれるとうれしいです. 個人的な考えですけど,今時点でneologdをサポートするのはちょっと躊躇してま…

細かすぎて伝わらない「形態素解析器 kagome のメモリ周りの話」を pprof で調べる

はじめに きっかけは形態素解析器 kagome にいただいた Issue です. github.com 端的に言うと, 入力文字列に対して,前から1文字ずつずらしながら辞書引きを繰り返して,可能性のある形態素をすべて洗い出すんですが,その際に辞書を CommonPrefixSearch …

golang で形態素解析を並列実行させて Word Count する

はじめに kagome は goroutine セーフに作ってあるんですが,あんまり並列実行的なサンプルとか書いてないなと思って並列実行でテキストに出てくる名詞を引っこ抜いて数えるサンプルを作りました. あと,昨日 suzuken =san が 形態素解析をした後の品詞が取…

形態素解析結果のグラフをスッキリさせてみた

mecabって「フォード・モーター」を「フォード ・ モーター」(3token)にしたり「フォード・モーター」(1token)にしたりするのねこれは文依存なのか?? 文字(フォードとか)依存なのか??— はせがわ (@shunhase12) 2016年2月25日 こんなつぶやきを見つけた. …

kagome で UniDic を使えるようにするまでの紆余曲折

相変わらずコツコツ作ってる Pure golang な形態素解析器 kagome ですが,これまで IPA 辞書しか使えなかったんですけど,UniDic も使えるようになりました. バイナリサイズは若干大きくなりますが,辞書内包にしているので,「使ってる辞書何だったけ?案…

heroku に pure golang な形態素解析サーバをあげてみた

はじめに とりあえずやってみたという内容です.heroku 使うのも初めてなので,用語とか理解とかが違うところもあるかもしれませんが,作業ログがなにかの役に立てば幸いです.ツッコミあればお願いします! 前準備 heroku のアカウントをつくっておく必要が…

golang で勝手にさだベントカレンダー

はじめに これは,さだまさし x IT Advent Calendar 2015 - Qiita の17日目の記事ではありません. とても盛り上がってたので,golang で何かして投稿しようと思ったら,すでに埋まってしまっていました orz. そんなわけで勝手に「さだベントカレンダー」で…

形態素解析器 kagome のリファクタリングをしました

github.com pure golang な辞書内包型形態素解析器 kagome のリファクタリングをしました. v1.0.0 タグを振ってリリースしてあります 4月あたりからコツコツやってはいたんですが,なかなか時間が取れなくてすっかり夏も終わってしまいました. 今回のテー…