路線データと駅データの話

2025年05月30日

法人データベースに緯度経度を登録するバッチ処理は、いよいよ山口県が終わろうとしています。あと四国、九州・沖縄ですからこの土日でおわるのではないか。終わってほしい。

さて、一方、路線と駅のデータの正規化の方がなかなかの作業量ではある。

まず、駅がどの都道府県に含まれるかを正すために、緯度経度から都道府県のポリゴン緯度経度データとの照合を行ったのだが、そもそも先に取得していた駅の緯度経度に誤りがあったり、都道府県のポリゴンが簡易データすぎて精度が低かったりと、さまざまな紆余曲折をへて、Wikipeadia APIで取得できるとこはそれに任せ、それでも取れないことろは、あれやこれやのバッチ処理を書いて対応した。

googleでは、検索結果のスクレイピングを許さないので、そこはちゃんとAPIでお金を払って取得してくださいということなので、さあ今こそ知恵をつかって知恵比べだ。

Wikipediadで、○○駅で存在する場合と、そもそも同じ名前で複数の都道府県に存在する駅の場合には、〇〇駅_(都道府県名)というページ名になる。

さらには、住所がそもそも単純なテキストではなくて、都道府県や市区町村ページへのリンクのタグだったりもするのである。

さらに、まあ書き出すときりがないが、すべてが同じタグ構成やページ構成になっているわけでもなく、駅名(鉄道会社)だったりするので、これはこれで、一筋縄ではいかない。

ということで、もう地道に駅の修正画面を作りましたよ。

これは、路線一覧

路線は597あります。これは国土地理院から提供のデータです。もちろん商用利用可です。

これは、駅一覧。ここに表示しているのは、内房線の駅。駅の順番は緯度経度をもとにAIが並べてくれたのだが、これがものすごく違っていて、並び替えるのどうしようとおもったけど、一覧でドラッグアンドドロップで並び替えができるようにしましたので、これは楽しみながらやれます。

さて、駅データはいつ完成するのでしょうか。まあ、こちらはゆっくりとじっくりとやっていきます。

最新のお知らせ

No Image
2026年5月10日
【LLMの真実】モデルの知性を決める「データ準備」の裏側:エンジニアが教える5つの衝撃的なインサイト

大規模言語モデル(LLM)の進化を語る際、世論は「パラメー...

thumb
2026年5月10日
AIモデルデプロイメントにおけるモデル形式および量子化手法の選定要領書

AIモデル 1. 量子化技術の戦略的定義と推論効率のメカニ...

thumb
2026年5月9日
OWASP AI Exchange: The Comprehensive AI Security Framework

OWASP AI Exchange:包括的なAIセキュリティフレームワーク=「...

thumb
2026年5月7日
Llama 4のScoutとMaverick、Behemothの違いは何ですか?

Llama 4の3つのバリアント(Scout、Maverick、Behemoth)は、そ...

thumb
2026年5月7日
The 2026 AI Frontier: Models, Markets, and Global Governance

2026年における人工知能(AI)の進化と産業への影響を多角的に...

thumb
2026年5月7日
2026年のデータエンジニアリングにおける主要な5つのトレンドとは?

2026年のデータエンジニアリングにおける主要な5つのトレンドは...

No Image
2026年5月6日
2026年:次世代AIエージェントのためのコンテキスト管理プラットフォーム導入戦略ロードマップ

1. 2026年におけるコンテキスト管理の戦略的転換 2026年...

thumb
2026年5月5日
The Django Web Framework: History and Best Practices

PythonベースのウェブフレームワークであるDjango(ジャンゴ)...

thumb
2026年5月4日
次世代WebDAW「製品ロードマップ策定書」:MVPからプロフェッショナル・ツールへの段階的進化

1. エグゼクティブ・サマリー:戦略的展望とAI-DDDの役割...

thumb
2026年5月3日
Goツールチェーン活用教本 〜ツールが作るプロフェッショナルの作法〜

1. はじめに:Goが「ツール」...