リンク切れ検出プログラムを作る ― 2023/01/25 22:16:26
私のホームページは意味もなく増え続けていて、内部どうしのリンクでさえ切れている箇所が相当数あった。今までどこがどのように切れているのかわからなかったが、まず wget を利用してある程度のリンク切れを検出することができた。かなりの数はわかったのだが、それでもなお多数リンク切れはあるようだ。リンク切れを検出するプログラムは世の中に多く出回っているはずで、実際多数見つかったのだが、どうも私の求めている要求とは違う。仕方がないので、自分で作ってみた。大昔の私なら C や C++ で、一昔前の私なら Ruby や Perl で作ったはずだろうが、今の私は Python を使っている。Ruby には申し訳ないが、たまたま最近の本でウェブクローラを Python で作る本を見てそのプログラムを参考にしたので、Python で作るのが一番楽だと判断した次第だ。なんとか形になって多数内部のリンク切れを検出して、やっとこさ直した。これで長年もやもやしていた懸案が一つ解決した。
コメント
_ はしだ ― 2023/01/27 11:35:25
_ まるやま ― 2023/01/27 22:18:04
_ はしだ ― 2023/01/28 22:25:21
_ まるやま ― 2023/01/30 19:06:34
コメントをどうぞ
※メールアドレスとURLの入力は必須ではありません。 入力されたメールアドレスは記事に反映されず、ブログの管理者のみが参照できます。
トラックバック
このエントリのトラックバックURL: http://marinkyo.asablo.jp/blog/2023/01/25/9558201/tb
自宅パソコンのFIrefoxからだと、ペネロペのページだけが何故か文字化け状態で表示されます。「表示」→「テキストエンコーディングを修復」とすると綺麗になります。