文章データ抽出と単語頻度解析 - tabris2012の不定期日記

　今回処理を行う生データは大量のタブ区切りの表なので、まずはここから今回関連解析を行う日本語文章を取り出すパーサを作成しました。
　HTMLから取り出す訳ではないので、ファイルを一行ずつ読込み、タブをトークンにしてsplitを行い、特定の座標のものだけを保存用のArrayにpushするように書きました。特に問題なく回収できました。
　次にこのデータを前回も使用したmecabモジュールに投げて、単語の頻度解析を行おうとしました。今回は文章量が膨大なので牧場のサーバで動かそうと思い、使用するソースを移動しました。
　その後実行してみましたが、正規表現を使う部分でASCIIとUTF-8は比較できないとエラーが出てしまいました。どうやらサーバのRubyでは日本語の扱いが異なるようで、とりあえず該当箇所にforce_encoding("utf-8")としてエラーを回避できました。
　他には#coding:utf-8としたりすることでエラーを回避できるようでしたが上手く行きませんでした。原因を探しつつ頻度解析をサーバで行わせようと思っています。