年収格差を検索できるWebサービスを作った

年収格差トップ500企業の一覧

f:id:rochefort:20171204000516p:plain 

動機

社員と役員の年収格差が大きいトップ500社 | 賃金・生涯給料ランキング | 東洋経済オンライン | 経済ニュースの新基準 をみていたのですが、なんと一覧が画像なんですよね。
えー、そりゃないわーと思って、OCRでテキスト抽出し、JSON化して勢いでWebサービス化しました。
みんな検索したいよね。
 
どうやら東洋経済さんは、ちょくちょく面白そうなデータ分析の結果を画像で公開するということをやっているようです。
HTMLで公開して欲しいな。買いたい人は買うだろうし。
 

OCR

知らない人も多いかと思うのですが、Google Docに画像かませるとテキスト抽出してくれます。
細かいやり方は書きませんが、今回は「社名」部分と「数値」部分に分けて抽出すると効率よく取り出せました。
社名部分は80%ぐらい、数値部分は95%ぐらいの精度ぐらいだった気がします。数値部分は最後の「取締役、執行役の合計(人)」だけ取り出せなかったのでここだけ手打ちです。おそらく間違ってる箇所があるかと思いますのでご指摘いただければ修正します。
 
ちなみに日本後は以下の文字がよく間違っていました。まぁ、この辺りはフォントにもよるかと思います。

美、癸

 

アプリ部分

当初Railsで作っていましたが、とりあえずJSON表示するだけなら、フロントエンドのJSでええやんと思い立ち、Vue.js + Bulma (CSS Framework) で作成しました。
 
あと、テーブルは njleonzhang/vue-data-tables というライブラリを利用しました。
ほとんどコード書かずに設定だけでテーブルの検索、ソート、Paginationが実装できます。
かなり独特な作りなのと、中国での利用者が多いようでググると中国語というのが辛い、CSSが当てにくい、Bulmaと干渉するなどで色々大変でした。ということでスマホの最適化などは未実施。
便利は便利なんだけどなぁ。

 

余談

業種で検索できるようにしたりとか、株価表示させたりとか、利益・売上、従業員数なども表示したら面白そう。
気が向いたら改修していくかも。
ここら辺のデータが欲しければ、東洋経済さんのデータを買うとすぐに分析できたりするんでしょうね。