午前4時、ひっそりとした時間にはじめること

2025年05月30日

私のRyzenマシンの空調ファンがうねりをあげている。空冷式であり、かつでかいファンが4つもついている。CPU温度が50度近くを保っているので、冷却効果がなければもっと高いのであろう。いつからかCPUはコア数をあげることであげるようになってきた。さらにCPUだけでなく、グラフィックを担うGPUの高性能化、高速化がゲームや映像を中心とした世界を牽引している。

ゴールデンウイーク中からはじめた法人データ550万件に対しての緯度経度付与のバッチは、いよいよ西へ。いま広島県を処理しています。

膨大な量のデータに対して、処理を行うためには、いくつか考えなければならないことがある。

まず、1度に取り扱う処理対象件数。まさか550万件のループとかできるメモリ量があるマシンで処理できればそれでもよいが、処理始まるまでにどんだけ無駄時間かかるのか。現実的には、サーバ側で処理する場合のメモリ量をどれだけ確保して実行するのかというところでもある。

今どきは自分のマシンは64GBメモリであるが、この処理を行うサーバ側のメモリは4GBです。

そのうえ、PHP+Laravelのバッチとしてつくられていて、制限として512MBというリミッターをつけてあったので、このバッチをを実行する時には、オプションでより大きなメモリ量をプロセスが使いますよと要求するようにしている。そのサイズは3倍の1.5GB。

対象を抽出して処理をするときには、すでに処理したものは対象外にしたうえで、1度の処理件数は10万件としている。さらにそれをチャンクで分割している。

オプションで、都道府県も指定できるようになっているので、バッチが終了したときには、次の実行は、その終了している都道府県を再度実行することで、開始までの時間短縮を見込んでいる。また、これはその都道府県の処理残りがないことも判定できる。

緯度経度がふられていないものを対象に処理するので、あたまから再度やると、毎回ふられていない法人に対して、緯度経度が取得できないとなる。ここは、処理しないようにというTODO。

これとは、別に、鉄道路線の駅に対しての都道府県判定と緯度経度をふるというバッチも動いている。この話は、また別な機会に。

なんなんだ。バッチ屋か。

最新のお知らせ

thumb
2026年2月26日
なぜDDDは「オニオン」や「クリーン」とセットで語られるのか?現場で役立つ5つの本質的教訓

1. はじめに:私たちはなぜ「DDD難民」になってしまうのか...

thumb
2026年2月26日
UNIXとC言語の誕生

1969年に、デニスリッチーはケン・トンプソンと共に、ベル研究...

No Image
2026年2月25日
2026 AI企業のこれからを予測してみよう

2026年、AI企業は「技術の凄さ」を競う段階から、「社会のイン...

thumb
2026年2月24日
DeepSeek、Moonshot AI、MiniMaxの3社が偽アカウント2.4万超を作って、Claude1600万回以上不正使用

いや、本当にえぐいニュースですよね。巨額の資金と時間を...

thumb
2026年2月24日
プログラミング・パラダイムシフト

プログラム、プログラミングという世界は10年に1度くらいでパラ...

thumb
2026年2月23日
ヨハン・セバスチャン・バッハ の世界

ヨハン・セバスチャン・バッハ の世界 SUNOでクラシカル...

thumb
2026年2月17日
【SaaS全滅】時価総額160兆円が消失したSaaSapocalypseの全貌と市場構造の激変

SaaSapocalypse サース・アポカプリス さーす・あぽかぷりす...

No Image
2026年2月13日
ダーツについて調べてまとめてみました

久しぶりに知っている営業から電話があったので、キーワードを...

thumb
2026年2月12日
AIエージェントの「USB-C」:Model Context Protocol(MCP)が変える未来

AI活用の新標準:MCP解説 1. イントロダクション:...

thumb
2026年2月11日
2026年版:ローカルコンテナの中に、自分だけのAI環境を構築したい

ローカルコンテナ(Docker)を使って自分だけのAI環境を構...