nlp

形態素解析器 Sudachi の辞書が手に入ったので Go で遊んでみた

はじめに Sudachi はワークスアプリケーションズが絶賛開発中の形態素解析器で,Java で書かれています. 今一番新しい注目すべき形態素解析器で,次のような機能が特徴としてあげられています. 複数の分割単位の併用 必要に応じて切り替え 形態素解析と固…

それはたぶんあなたの欲しかった名詞ではない

概要 形態素解析してテキストの中から名詞っぽいところだけを抜き出したい.ってのはよくある話だと思うのですが,単純にやるといろいろ混じってます. ( '-`).oO( そもそも抜き出してるのは名詞の形態素であって,名詞句じゃないもんな・・・. 名詞を抜き…

golang で形態素解析を並列実行させて Word Count する

はじめに kagome は goroutine セーフに作ってあるんですが,あんまり並列実行的なサンプルとか書いてないなと思って並列実行でテキストに出てくる名詞を引っこ抜いて数えるサンプルを作りました. あと,昨日 suzuken =san が 形態素解析をした後の品詞が取…

形態素解析結果のグラフをスッキリさせてみた

mecabって「フォード・モーター」を「フォード ・ モーター」(3token)にしたり「フォード・モーター」(1token)にしたりするのねこれは文依存なのか?? 文字(フォードとか)依存なのか??— はせがわ (@shunhase12) 2016年2月25日 こんなつぶやきを見つけた. …

golang で neologd の正規化処理を書いてみた(けどダメだった)

TL;DR neologd を使う前にしておいた方がいい入力の前処理があります. 今回はこれを golang でささっと書いてみようと思ってはまって投げ出した話です. neologd の wiki を参考に必要とされている正規化処理を順に見ていきます. Regexp.ja · neologd/meca…

kagome で UniDic を使えるようにするまでの紆余曲折

相変わらずコツコツ作ってる Pure golang な形態素解析器 kagome ですが,これまで IPA 辞書しか使えなかったんですけど,UniDic も使えるようになりました. バイナリサイズは若干大きくなりますが,辞書内包にしているので,「使ってる辞書何だったけ?案…

golang で勝手にさだベントカレンダー

はじめに これは,さだまさし x IT Advent Calendar 2015 - Qiita の17日目の記事ではありません. とても盛り上がってたので,golang で何かして投稿しようと思ったら,すでに埋まってしまっていました orz. そんなわけで勝手に「さだベントカレンダー」で…

golangで bufio.Scanner を使うだけで日本語の文を1文ずつそれとなく切り出す

日本語のテキストから文ぽいところを抜き出すためのプログラムを作りました. いつも1行ずつ文字列を切り出すときに bufio.Scanner を使っていると思いますが, Scanner は区切りの方法をいろいろ変えることが出来る(標準でもスペースで切り分けられた単語…

TinySegmenter.jl の高速化手法を追っかけてみた

今日の元ネタはこちらです. chezou.hatenablog.com 他言語との比較が行われているわけですが,Julia 版はアルゴリズムの作りが他とだいぶ変わってしまっているので, そのまま比較するのはどうかなと思うわけですが,でも,Julia が書けるわけでもないので…

形態素解析器 kagome のリファクタリングをしました

github.com pure golang な辞書内包型形態素解析器 kagome のリファクタリングをしました. v1.0.0 タグを振ってリリースしてあります 4月あたりからコツコツやってはいたんですが,なかなか時間が取れなくてすっかり夏も終わってしまいました. 今回のテー…