路線データと駅データの話

2025年05月30日

法人データベースに緯度経度を登録するバッチ処理は、いよいよ山口県が終わろうとしています。あと四国、九州・沖縄ですからこの土日でおわるのではないか。終わってほしい。

さて、一方、路線と駅のデータの正規化の方がなかなかの作業量ではある。

まず、駅がどの都道府県に含まれるかを正すために、緯度経度から都道府県のポリゴン緯度経度データとの照合を行ったのだが、そもそも先に取得していた駅の緯度経度に誤りがあったり、都道府県のポリゴンが簡易データすぎて精度が低かったりと、さまざまな紆余曲折をへて、Wikipeadia APIで取得できるとこはそれに任せ、それでも取れないことろは、あれやこれやのバッチ処理を書いて対応した。

googleでは、検索結果のスクレイピングを許さないので、そこはちゃんとAPIでお金を払って取得してくださいということなので、さあ今こそ知恵をつかって知恵比べだ。

Wikipediadで、○○駅で存在する場合と、そもそも同じ名前で複数の都道府県に存在する駅の場合には、〇〇駅_(都道府県名)というページ名になる。

さらには、住所がそもそも単純なテキストではなくて、都道府県や市区町村ページへのリンクのタグだったりもするのである。

さらに、まあ書き出すときりがないが、すべてが同じタグ構成やページ構成になっているわけでもなく、駅名(鉄道会社)だったりするので、これはこれで、一筋縄ではいかない。

ということで、もう地道に駅の修正画面を作りましたよ。

これは、路線一覧

路線は597あります。これは国土地理院から提供のデータです。もちろん商用利用可です。

これは、駅一覧。ここに表示しているのは、内房線の駅。駅の順番は緯度経度をもとにAIが並べてくれたのだが、これがものすごく違っていて、並び替えるのどうしようとおもったけど、一覧でドラッグアンドドロップで並び替えができるようにしましたので、これは楽しみながらやれます。

さて、駅データはいつ完成するのでしょうか。まあ、こちらはゆっくりとじっくりとやっていきます。

最新のお知らせ

thumb
2026年1月4日
PostgreSQL+pgvector ベクトル検索テスト(Cosine距離 + AI要約)

類似検索(ベクトル)対応:pgvector このpgvectorの記事を...

thumb
2026年1月4日
AIの仕組みについて

Geminiの仕組みにGeminiに聞いてみる。その中身を紐解いていき...

thumb
2025年12月26日
AIの基本をおさらい

1. いま言われる「AI」は何を指しているか 最近話題のAI...

thumb
2025年12月19日
SUNOで生成した楽曲を公開

https://iplusone.co.jp/suno-songs 12/1から開始し...

No Image
2025年12月18日
曲を作るという世界のパラダイムシフト

ギターを弾くとコード進行とかメロディラインとか、フレーズと...

thumb
2025年12月2日
WEBアプリケーションを取り巻く開発環境、開発言語について考える

WEBアプリケーションを取り巻く「開発環境」と「開発言語」につ...

thumb
2025年12月2日
最高なAIのアプリ SUNO

今一番エキサイティングなAIアプリは、このSUNOだろう。音...

No Image
2025年12月2日
事業計画を作るAIチャットを作成する

「事業計画を作るAIチャット」を本気で“実用レベル”に落とし込...

No Image
2025年11月30日
Spotifyのリンクを埋め込みできるようになりました。

https://open.spotify.com/intl-ja/track/2UYBoHQfheo5OtnjRd9...

thumb
2025年11月29日
スピードと量 深みと質の担保

さあ、もうスピードと量についてはAIにお任せして、人間は...