Python

サイト内のURL・タイトル一覧を取得するツール

管理人
管理人
サイト内のURL・タイトルを収集してDB化するために作成しました。

DB化することで、記事素材収集、サイト運営時に便利です。

実現したいこと

・サイトマップページ作成(PS Auto Sitemap

※ 自分の運営しているサイトの場合、上のプラグインでサイトマップ化させておくと便利です。

—-<プログラムで実行>—-

① サイトのページ(URL)にアクセス

② URL・タイトルをスクレイピング

③ URL・タイトルを出力

——————————–

・googleスプレッドシートにコピー&ペースト

プログラム実行前後

プログラム実行前
 

  • 個別記事にURLリンク付け(青字)
  • リンク先のタイトルは不明
プログラム実行後

  • 選手名、記事URLがエクセル・スプレットシートで表示

開発環境

開発言語 Python
バージョン 3.8.10
動作OS windows10

開発コード

#ライブラリー
from urllib.request import urlopen
from bs4 import BeautifulSoup

# URLにアクセス
def getLinks(articleUrl):
    html = urlopen("サイトマップのURLを記入")
    bsObj = BeautifulSoup(html, "html.parser")
    return bsObj.find("ul", {"id": "sitemap_list"}).findAll("a")

# 取得した情報を表示
links = getLinks("")
for link in links:
    print(link)

ハマりそうなポイント

一番最初にライブラリーを入れておく

pip install BeautifulSoup 

pipコマンドでライブラリーを入れておきましょう

代替ツール

単純にサイト内のURL・タイトル一覧を取得するだけなら、以下のツールが一番楽です。

※管理人は、システム間で自動連携しやすいようにPythonで書いています。

① SEOボックスにアクセス(クリックで移動)

 

②URLを入力して、[送信]

③ スプレッドシート(もしくはEXCEL)に貼り付けて、加工

【サービス紹介】

当サイトで共有しているツールが、自分のPC環境で動作しない。ツールをアレンジしたいなどの相談・依頼があれば、有償サービスを出品しています。

※ 多忙のため、現在依頼を停止しています。

COMMENT

メールアドレスが公開されることはありません。 が付いている欄は必須項目です