日本語の読みやすさの評価式について

日本語の読みやすさ
日本語テキストの難易度を測る

日本語の読みやすさ

上記の記事のコメントを見ていたらtextlintなるものがフリーで存在して、その中に日本語の読みやすさという指標を表示するものがあった。その日本語の読みやすさの計算式についてのリンクが貼ってあり、興味があったので読んでみた。

doksyo-tek.hatenablog.com

そもそも日本語の読みやすさを数学の式で表そうとはなんと面白いことか。統計の知識がないので主成分分析と言われてもよくわからないのが悔しい。もっと勉強しておけばよかった…。それはともかく肝心の式を引用させていただき、脇に（）付けで注釈すると

RS =　（偏差値。高いほど高評価）
-0.12 * 1s　（文の平均の長さ（文字数））
-1.37 * 1a　（アルファベット連の平均の長さ（文字数））
+7.4 * 1h　（ひらがな連の平均の長さ（文字数））
-23.18 * 1c（漢字連の平均の長さ（文字数））
-5.4 * 1k　（カタカナ連の平均の長さ（文字数））
-4.67 * cp　（句点（。）あたりの読点（、）の数）
+115.79　　（？）

連とは同一文字種の続き。つまりは…墾田永年私財法だと7文字という感じだろうか。どうでもいいが日本人が長い漢字連と言われてパッと思いつく率No.1かもしれない。

さて式を眺めてみると結構面白い。長いアルファベットをガンガン使う文章は長い文章に比べて6倍くらい読みにくいのかもしれない。漢字の長さが極端に長いものを大量に使うと大幅に読みやすさが激減する。読点が多いとそれだけ文章構造が複雑であることを示すため読みやすさが減る。

もちろん完璧という数式ってわけでもないし、そこから無理やり文章論をひねり出してもまったく意味はないけれどあくまで傾向として見るだけでもなかなか面白いように思う。この式からは読みやすい文章にするコツは、漢字やカタカナの間に挟まっているひらがなが長いほど読みやすくなるということかもしれない。

ただ、論文では最後に不自然にスコアを上げようとひらがなをいっぱい駆使したものはやっぱり読みづらいからうまく検知できるように式を改良できるといいね、みたいな感じで締められている。