管理人
サイト内のURL・タイトルを収集してDB化するために作成しました。
DB化することで、記事素材収集、サイト運営時に便利です。
実現したいこと
・サイトマップページ作成(PS Auto Sitemap)
※ 自分の運営しているサイトの場合、上のプラグインでサイトマップ化させておくと便利です。
—-<プログラムで実行>—-
① サイトのページ(URL)にアクセス
② URL・タイトルをスクレイピング
③ URL・タイトルを出力
——————————–
・googleスプレッドシートにコピー&ペースト
プログラム実行前後
プログラム実行前 |
---|
|
プログラム実行後 |
---|
|
開発環境
開発言語 | Python |
---|---|
バージョン | 3.8.10 |
動作OS | windows10 |
開発コード
#ライブラリー from urllib.request import urlopen from bs4 import BeautifulSoup # URLにアクセス def getLinks(articleUrl): html = urlopen("サイトマップのURLを記入") bsObj = BeautifulSoup(html, "html.parser") return bsObj.find("ul", {"id": "sitemap_list"}).findAll("a") # 取得した情報を表示 links = getLinks("") for link in links: print(link)
ハマりそうなポイント
一番最初にライブラリーを入れておく
pip install BeautifulSoup
pipコマンドでライブラリーを入れておきましょう
代替ツール
単純にサイト内のURL・タイトル一覧を取得するだけなら、以下のツールが一番楽です。
※管理人は、システム間で自動連携しやすいようにPythonで書いています。
① SEOボックスにアクセス(クリックで移動)
②URLを入力して、[送信]
③ スプレッドシート(もしくはEXCEL)に貼り付けて、加工
当サイトで共有しているツールが、自分のPC環境で動作しない。ツールをアレンジしたいなどの相談・依頼があれば、有償サービスを出品しています。
※ 多忙のため、現在依頼を停止しています。