路線データと駅データの話

2025年05月30日

法人データベースに緯度経度を登録するバッチ処理は、いよいよ山口県が終わろうとしています。あと四国、九州・沖縄ですからこの土日でおわるのではないか。終わってほしい。

さて、一方、路線と駅のデータの正規化の方がなかなかの作業量ではある。

まず、駅がどの都道府県に含まれるかを正すために、緯度経度から都道府県のポリゴン緯度経度データとの照合を行ったのだが、そもそも先に取得していた駅の緯度経度に誤りがあったり、都道府県のポリゴンが簡易データすぎて精度が低かったりと、さまざまな紆余曲折をへて、Wikipeadia APIで取得できるとこはそれに任せ、それでも取れないことろは、あれやこれやのバッチ処理を書いて対応した。

googleでは、検索結果のスクレイピングを許さないので、そこはちゃんとAPIでお金を払って取得してくださいということなので、さあ今こそ知恵をつかって知恵比べだ。

Wikipediadで、○○駅で存在する場合と、そもそも同じ名前で複数の都道府県に存在する駅の場合には、〇〇駅_(都道府県名)というページ名になる。

さらには、住所がそもそも単純なテキストではなくて、都道府県や市区町村ページへのリンクのタグだったりもするのである。

さらに、まあ書き出すときりがないが、すべてが同じタグ構成やページ構成になっているわけでもなく、駅名(鉄道会社)だったりするので、これはこれで、一筋縄ではいかない。

ということで、もう地道に駅の修正画面を作りましたよ。

これは、路線一覧

路線は597あります。これは国土地理院から提供のデータです。もちろん商用利用可です。

これは、駅一覧。ここに表示しているのは、内房線の駅。駅の順番は緯度経度をもとにAIが並べてくれたのだが、これがものすごく違っていて、並び替えるのどうしようとおもったけど、一覧でドラッグアンドドロップで並び替えができるようにしましたので、これは楽しみながらやれます。

さて、駅データはいつ完成するのでしょうか。まあ、こちらはゆっくりとじっくりとやっていきます。

最新のお知らせ

No Image
2025年11月27日
プログラミングにおけるAIの優位性と人間のだめなところ

プログラミングにおけるAIの優位性と人間のだめなところを...

thumb
2025年11月25日
JAZZを聴きながら

https://open.spotify.com/intl-ja/track/2UiXRej8Fdcc04DFL60...

thumb
2025年11月25日
GTSFエディタの開発

GTSFというのは、弾き語りをするときの楽譜を生成するためのテ...

thumb
2025年11月23日
人生史をヒヤリングするAIアプリケーション

手帳學プロジェクトの中で、人生史を作成する。本来は、現...

thumb
2025年11月22日
ギターコード(和音)の構成音とベース音

コード表を、ルート音とコードの種類、そして、ベース音を...

thumb
2025年11月17日
気をつけろ!AIを利用したシステム開発

AIを利用した開発をしていると、一番の気になるところはAPI...

No Image
2025年11月15日
GTSF:(Guitar Tab and Song Format)弾き語り用楽譜生成テキストフォーマット

GTSF(Guitar Tab and Song text Format)とは、ギターで弾き語...

thumb
2025年11月14日
プロトタイプ(試作)とPoC(概念実証)

プロトタイプ(Prototype)とは、「完成前に作る試作モデル...

thumb
2025年11月14日
見える化による安心感~最先端な要件定義

要件定義ってそんな簡単ではないです。 まずは見える化...

thumb
2025年11月14日
コミュニケーション

人間関係やチームでのコミュニケーション方法(伝え方・傾...