法人データベースに緯度経度を登録するバッチ処理は、いよいよ山口県が終わろうとしています。あと四国、九州・沖縄ですからこの土日でおわるのではないか。終わってほしい。
さて、一方、路線と駅のデータの正規化の方がなかなかの作業量ではある。
まず、駅がどの都道府県に含まれるかを正すために、緯度経度から都道府県のポリゴン緯度経度データとの照合を行ったのだが、そもそも先に取得していた駅の緯度経度に誤りがあったり、都道府県のポリゴンが簡易データすぎて精度が低かったりと、さまざまな紆余曲折をへて、Wikipeadia APIで取得できるとこはそれに任せ、それでも取れないことろは、あれやこれやのバッチ処理を書いて対応した。
googleでは、検索結果のスクレイピングを許さないので、そこはちゃんとAPIでお金を払って取得してくださいということなので、さあ今こそ知恵をつかって知恵比べだ。
Wikipediadで、○○駅で存在する場合と、そもそも同じ名前で複数の都道府県に存在する駅の場合には、〇〇駅_(都道府県名)というページ名になる。
さらには、住所がそもそも単純なテキストではなくて、都道府県や市区町村ページへのリンクのタグだったりもするのである。
さらに、まあ書き出すときりがないが、すべてが同じタグ構成やページ構成になっているわけでもなく、駅名(鉄道会社)だったりするので、これはこれで、一筋縄ではいかない。
ということで、もう地道に駅の修正画面を作りましたよ。
これは、路線一覧
路線は597あります。これは国土地理院から提供のデータです。もちろん商用利用可です。
これは、駅一覧。ここに表示しているのは、内房線の駅。駅の順番は緯度経度をもとにAIが並べてくれたのだが、これがものすごく違っていて、並び替えるのどうしようとおもったけど、一覧でドラッグアンドドロップで並び替えができるようにしましたので、これは楽しみながらやれます。
さて、駅データはいつ完成するのでしょうか。まあ、こちらはゆっくりとじっくりとやっていきます。