ひらがなの状態遷移図

次にやりたいことで、日本語の文章を全部ひらがなで書いたときに文字の間でどのような状態遷移がみられるか、といったデータがほしくなった。

形態素解析を行うようなツールとしてMeCabやらなんやらが見つかったけど今回はそこまでのものはいらないので、独自にテキストから目的のデータをとってこれるようなツールを作る。

目的は

テキストデータ→ひらがなAからすべてのひらがなそれぞれへの遷移確率


とりあえずできたもの。
あくまでテストのものなので使ったテキストは宮沢賢治の"あけがた"
青空文庫から拝借
全部のひらがなについてグラフを出力しようとすると"out of memory"でgraphvizが落ちる&画像サイズがとんでもないことになるのでこれはテキストの先頭から重複しない13文字についての状態遷移。