43号線を西へ東へ

フリーランスの備忘録、アウトプットの実験場

はてなブログはAIの自動取得ができないRobots.txt設定になっている

このブログはプロモーションリンクを含むときがあります


いつのまにか、自分のブログのAI要約が出来なくなっていました。書いた文章をAIに要約させることは自分の文章の客観視になって、結構使い勝手良かったので残念です。

久しぶりに自分の書いた記事をChatGPTに読ませてみて発覚しました。

自分のブログを客観視するために、ChatGPTに要約をお願いする

私:https://driveon43.com/entry/2023/08/24/064615
このブログを300字でまとめて

GTP-4o:申し訳ありませんが、指定されたブログ記事(https://driveon43.com/entry/2023/08/24/064615)の内容を直接確認できないため、300字での要約を行うことができません。

一体いつ頃から仕様が変更されたのか、ChatGPTに聞いてみました。

AIによるブログのレビューは有用である

昔、AIに要約が有用であるという記事を書いたことがあります。

自分の書いたブログのSEO対策や内容に応じた画像を作成するGPTs(専用チャットBot)を作成したことがあります。去年はけっこう活躍しました。

ChatGPTの回答(GPT-4o使用、検索モードon)

ChatGPTに聞いてみた

ChatGPTがウェブ上のブログ記事を直接参照できなくなった主な理由は、OpenAIが2023年8月に新たに導入したウェブクローラー「GPTBot」にあります。このクローラーの登場以降、多くのウェブサイトが自サイトのコンテンツをAIの学習データとして使用されることを防ぐため、robots.txtファイルを更新し、GPTBotのアクセスを制限または拒否する動きが広まりました。


GPTBotの導入とブロックの広がり

これらの動きにより、ChatGPTがリアルタイムでウェブ上の情報を取得する能力が制限され、特にブログ記事などのコンテンツへのアクセスが困難になりました。

はてなブログrobots.txtの変更時期

はてなブログがGPTBotをブロックする設定をrobots.txtに追加した正確な時期は公表されていませんが、GPTBotの導入と他の主要サイトの対応を踏まえると、2023年8月中旬から9月頃にかけて変更された可能性が高いと考えられます。

はてなブログではユーザーがrobots.txtを直接編集することはできませんが、プラットフォーム全体での設定変更により、GPTBotのアクセスが制限されたと推測されます。

ChatGPTによるまとめ:現状ではChatGPTははてなブログを参照できない

  • GPTBotの導入:2023年8月7日
  • 主要サイトのブロック開始:2023年8月中旬〜9月
  • はてなブログの対応時期(推定):2023年8月中旬〜9月

このような背景から、ChatGPTがブログ記事を直接参照することが難しくなったと考えられます。


以上がChatGPTの回答になります。

独自ドメインで運用している、いないに関わらず、すべてのはてなブログはAIからのアクセスは禁止しており、AIは律儀にそのルールを守っているということです。

Robots.txtとは?

Robots.txtとは、検索エンジンクローラー(自動でWebページを収集するロボット)に対して、「このサイトのどの部分をクロール(アクセス・収集)していいか/ダメか」を指示するためのルールを書いたものです。

弊ブログの場合、下記のURLで読むことができます。

https://driveon43.com/robots.txt

Robots.txtの全文を表示します

User-agent: *
Sitemap: https://driveon43.com/sitemap_index.xml
Disallow: /api/
Disallow: /draft/
Disallow: /preview

User-agent: Mediapartners-Google
Disallow: /draft/
Disallow: /preview

User-agent: GPTBot
Disallow: /

User-agent: Google-Extended
Disallow: /

User-agent: Applebot-Extended
Disallow: /

User-agent: anthropic-ai
Disallow: /

User-agent: ClaudeBot
Disallow: /

User-agent: cohere-ai
Disallow: /

User-agent: PerplexityBot
Disallow: /

User-agent: Perplexity-ai
Disallow: /

User-agent: ChatGPT-User
Disallow: /

User-agent: OAI-SearchBot
Disallow: /

User-agent: CCBot
Disallow: /

User-agent: meta-externalagent
Disallow: 

対象クローラー 許可/禁止 内容
すべて(User-agent: *) 一部禁止 /api/, /draft/, /previewは禁止
Googleアドセンス (mediapartners-google) 一部禁止 /draft/, /previewは禁止
GPTBot (OpenAI) 全面禁止 サイト全体クロール禁止
Google-Extended 全面禁止 AI学習目的のクロール禁止
Applebot-Extended 全面禁止 AI学習目的のクロール禁止
ClaudeBot (Anthropic) 全面禁止 サイト全体クロール禁止
cohere-ai 全面禁止 サイト全体クロール禁止
PerplexityBot / Perplexity-ai 全面禁止 サイト全体クロール禁止
ChatGPT-User 全面禁止 サイト全体クロール禁止
OAI-SearchBot 全面禁止 サイト全体クロール禁止
CCBot 全面禁止 サイト全体クロール禁止
meta-externalagent 全面禁止 サイト全体クロール禁止

2024年8月の出来事なのになぜ今話題にしている?

私事ですが、振り返っておきます。

やっつけ仕事的ブログ更新モードでAI活用をしていなかった

なぜこれまで気付かなかったのか、振り返ってみると2024年の8月半ばからブログから少し離れていた期間がありました。

その間は、取り急ぎ記事を書くけど、やっつけ仕事的な更新をつづけていました。以前のようにAIによるレビューはしなかったのがその理由っぽい。

去年と今年の更新頻度

今年初めから徐々に落ち着きを取り戻しつつある。

2025年1月から少しずつペースを取り戻し、4月から2024年上半期のペースに戻しつつありました。前のブログ執筆フローを思い出していったので、ようやく使えないことに気付きました。

今月(2025年4月)になって更新頻度も増やすことができ、10万アクセス達成したというわけです。

driveon43.com

個人情報等を守るための仕組みなんでしょうね

今回のRobots.txtによるAIクロール締め出しは、はてなブログ公式の発表を見つけられていないのですが、おそらく個人情報や著作権を守るのが目的なのだろうと、勝手に考えています。日記ブログなどだと個人の情報がバンバン学習されそうです。

ユーザーを守るために仕方が無い措置だと思っています。

とはいえ、客観的なレビューが欲しい

以前使っていた、自分のブログ記事の要約はけっこう便利でした。誤字脱字を見つけてくれたり、遠回しに言いすぎて自分では伝えたい内容が伝わってない可能性があることが分かったり。

URLを貼り付けるだけでできたことが、今では、要約が欲しければブログ記事全文を貼り付けてくださいと言われます。

ただ、解決策もあります。

NotionによるWEBクリッピングと要約機能を使う

過去に記事にしていました。

  1. NotionのWEBクリッピング機能でブログ記事を取り込む
  2. データベースのプロパティにAI要約を入れる

driveon43.com

クリップさえしてしまえば、自動的にAI要約が完成するので、非常に便利です。難点はNotion AIは有料ということでしょうか。

Safariのリーダー表示をつかう

iPhoneまたはmacOSWebブラウザSafariにはリーダー機能があります。タイトル下の要約ボタンを押せば、記事が要約されます。以前メール画面で見たApple Intelligence機能ですね。

driveon43.com

最後に

自分が書いたはずの数ヶ月前の記事は、細かい内容までは忘れてしまっています。特に、どこまで言及して書いたかすっかり忘れている場合など、要約機能は便利です。

また、はてなブログでは、独自ドメインのあるなしにかかわらずRobots.txtは自動的に作られていて、AIクローラーは排除されています。

しかし、AI自身がはてなブログのテキストを取得することはできませんが、取得したテキストなら要約することは可能でした。

はてなブログ内の同じテーマのブログ

Notion AIによる要約機能を使ってまとめさせていただきました。

翻訳中

生成AIが多くのメディアサイトでrobots.txtによってアクセスを制限されており、これにより最新情報を参照できず、古い情報に基づく誤った回答が増える可能性がある。情報提供者が損をしない持続可能な情報流通の仕組みが必要とされている。

生成AIがはてなブログを直接読むことができないことを確認し、ChatGPT、Claude、Geminiの反応を比較。ブログ内容が必要な人に届くことを重視し、生成AIがブログを読める設定の希望を表明。Obsidianとのタスク管理サービス連携についても言及されています。