リンク切れ検出プログラムを作る2023/01/25 22:16:26

私のホームページは意味もなく増え続けていて、内部どうしのリンクでさえ切れている箇所が相当数あった。今までどこがどのように切れているのかわからなかったが、まず wget を利用してある程度のリンク切れを検出することができた。かなりの数はわかったのだが、それでもなお多数リンク切れはあるようだ。リンク切れを検出するプログラムは世の中に多く出回っているはずで、実際多数見つかったのだが、どうも私の求めている要求とは違う。仕方がないので、自分で作ってみた。大昔の私なら C や C++ で、一昔前の私なら Ruby や Perl で作ったはずだろうが、今の私は Python を使っている。Ruby には申し訳ないが、たまたま最近の本でウェブクローラを Python で作る本を見てそのプログラムを参考にしたので、Python で作るのが一番楽だと判断した次第だ。なんとか形になって多数内部のリンク切れを検出して、やっとこさ直した。これで長年もやもやしていた懸案が一つ解決した。

コメント

_ はしだ ― 2023/01/27 11:35:25

それでは修復次いでということで、文字化け頁をお知らせします。
自宅パソコンのFIrefoxからだと、ペネロペのページだけが何故か文字化け状態で表示されます。「表示」→「テキストエンコーディングを修復」とすると綺麗になります。

_ まるやま ― 2023/01/27 22:18:04

ご指摘ありがとうございます。盛大に文字化けしていて失礼しました。今しがた直したので以降は普通に表示されるはずです。ほかのページもあるかもしれません。探してみます。

_ はしだ ― 2023/01/28 22:25:21

ありがとうございます。ペネロペのページもすぐに普通に出るようになったのを確認できました。他でおかしかった頁というのは記憶にはありません。

_ まるやま ― 2023/01/30 19:06:34

あれから調べて、文字化けの可能性があったページが4つほどありました。ペネロペのページもそうでしたが、HTML で文字コードの指定をすべきところ、指定がされていませんでした。それらの文字コード指定のないページもすべて文字コードを指定したので大丈夫なはずです。

コメントをどうぞ

※メールアドレスとURLの入力は必須ではありません。 入力されたメールアドレスは記事に反映されず、ブログの管理者のみが参照できます。

名前:
メールアドレス:
URL:
コメント:

トラックバック

このエントリのトラックバックURL: http://marinkyo.asablo.jp/blog/2023/01/25/9558201/tb