いつのまにか、自分のブログのAI要約が出来なくなっていました。書いた文章をAIに要約させることは自分の文章の客観視になって、結構使い勝手良かったので残念です。
久しぶりに自分の書いた記事をChatGPTに読ませてみて発覚しました。
私:https://driveon43.com/entry/2023/08/24/064615
このブログを300字でまとめてGTP-4o:申し訳ありませんが、指定されたブログ記事(https://driveon43.com/entry/2023/08/24/064615)の内容を直接確認できないため、300字での要約を行うことができません。
一体いつ頃から仕様が変更されたのか、ChatGPTに聞いてみました。
- AIによるブログのレビューは有用である
- ChatGPTの回答(GPT-4o使用、検索モードon)
- Robots.txtとは?
- 2024年8月の出来事なのになぜ今話題にしている?
- とはいえ、客観的なレビューが欲しい
- 最後に
- はてなブログ内の同じテーマのブログ
AIによるブログのレビューは有用である
昔、AIに要約が有用であるという記事を書いたことがあります。
自分の書いたブログのSEO対策や内容に応じた画像を作成するGPTs(専用チャットBot)を作成したことがあります。去年はけっこう活躍しました。
ChatGPTの回答(GPT-4o使用、検索モードon)
ChatGPTがウェブ上のブログ記事を直接参照できなくなった主な理由は、OpenAIが2023年8月に新たに導入したウェブクローラー「GPTBot」にあります。このクローラーの登場以降、多くのウェブサイトが自サイトのコンテンツをAIの学習データとして使用されることを防ぐため、robots.txtファイルを更新し、GPTBotのアクセスを制限または拒否する動きが広まりました。
GPTBotの導入とブロックの広がり
2023年8月7日:OpenAIはGPTBotを公開し、ウェブサイト管理者がrobots.txtファイルを使用してGPTBotのアクセスを制御できる方法を提供しました。
2023年8月17日:ニューヨーク・タイムズがGPTBotのアクセスを拒否する設定をrobots.txtに追加しました。
2023年9月末:上位1,000のウェブサイトのうち約26%がGPTBotをブロックしていると報告されました。 (26% of the top 100 websites are now blocking GPTBot)
これらの動きにより、ChatGPTがリアルタイムでウェブ上の情報を取得する能力が制限され、特にブログ記事などのコンテンツへのアクセスが困難になりました。
はてなブログのrobots.txtの変更時期
はてなブログがGPTBotをブロックする設定をrobots.txtに追加した正確な時期は公表されていませんが、GPTBotの導入と他の主要サイトの対応を踏まえると、2023年8月中旬から9月頃にかけて変更された可能性が高いと考えられます。
はてなブログではユーザーがrobots.txtを直接編集することはできませんが、プラットフォーム全体での設定変更により、GPTBotのアクセスが制限されたと推測されます。
ChatGPTによるまとめ:現状ではChatGPTははてなブログを参照できない
- GPTBotの導入:2023年8月7日
- 主要サイトのブロック開始:2023年8月中旬〜9月
- はてなブログの対応時期(推定):2023年8月中旬〜9月
このような背景から、ChatGPTがブログ記事を直接参照することが難しくなったと考えられます。
以上がChatGPTの回答になります。
独自ドメインで運用している、いないに関わらず、すべてのはてなブログはAIからのアクセスは禁止しており、AIは律儀にそのルールを守っているということです。
Robots.txtとは?
Robots.txtとは、検索エンジンやクローラー(自動でWebページを収集するロボット)に対して、「このサイトのどの部分をクロール(アクセス・収集)していいか/ダメか」を指示するためのルールを書いたものです。
弊ブログの場合、下記のURLで読むことができます。
https://driveon43.com/robots.txt
Robots.txtの全文を表示します
User-agent: * Sitemap: https://driveon43.com/sitemap_index.xml Disallow: /api/ Disallow: /draft/ Disallow: /preview User-agent: Mediapartners-Google Disallow: /draft/ Disallow: /preview User-agent: GPTBot Disallow: / User-agent: Google-Extended Disallow: / User-agent: Applebot-Extended Disallow: / User-agent: anthropic-ai Disallow: / User-agent: ClaudeBot Disallow: / User-agent: cohere-ai Disallow: / User-agent: PerplexityBot Disallow: / User-agent: Perplexity-ai Disallow: / User-agent: ChatGPT-User Disallow: / User-agent: OAI-SearchBot Disallow: / User-agent: CCBot Disallow: / User-agent: meta-externalagent Disallow:
対象クローラー | 許可/禁止 | 内容 |
---|---|---|
すべて(User-agent: *) | 一部禁止 | /api/, /draft/, /previewは禁止 |
Googleアドセンス (mediapartners-google) | 一部禁止 | /draft/, /previewは禁止 |
GPTBot (OpenAI) | 全面禁止 | サイト全体クロール禁止 |
Google-Extended | 全面禁止 | AI学習目的のクロール禁止 |
Applebot-Extended | 全面禁止 | AI学習目的のクロール禁止 |
ClaudeBot (Anthropic) | 全面禁止 | サイト全体クロール禁止 |
cohere-ai | 全面禁止 | サイト全体クロール禁止 |
PerplexityBot / Perplexity-ai | 全面禁止 | サイト全体クロール禁止 |
ChatGPT-User | 全面禁止 | サイト全体クロール禁止 |
OAI-SearchBot | 全面禁止 | サイト全体クロール禁止 |
CCBot | 全面禁止 | サイト全体クロール禁止 |
meta-externalagent | 全面禁止 | サイト全体クロール禁止 |
2024年8月の出来事なのになぜ今話題にしている?
私事ですが、振り返っておきます。
やっつけ仕事的ブログ更新モードでAI活用をしていなかった
なぜこれまで気付かなかったのか、振り返ってみると2024年の8月半ばからブログから少し離れていた期間がありました。
その間は、取り急ぎ記事を書くけど、やっつけ仕事的な更新をつづけていました。以前のようにAIによるレビューはしなかったのがその理由っぽい。
今年初めから徐々に落ち着きを取り戻しつつある。
2025年1月から少しずつペースを取り戻し、4月から2024年上半期のペースに戻しつつありました。前のブログ執筆フローを思い出していったので、ようやく使えないことに気付きました。
今月(2025年4月)になって更新頻度も増やすことができ、10万アクセス達成したというわけです。
個人情報等を守るための仕組みなんでしょうね
今回のRobots.txtによるAIクロール締め出しは、はてなブログ公式の発表を見つけられていないのですが、おそらく個人情報や著作権を守るのが目的なのだろうと、勝手に考えています。日記ブログなどだと個人の情報がバンバン学習されそうです。
ユーザーを守るために仕方が無い措置だと思っています。
とはいえ、客観的なレビューが欲しい
以前使っていた、自分のブログ記事の要約はけっこう便利でした。誤字脱字を見つけてくれたり、遠回しに言いすぎて自分では伝えたい内容が伝わってない可能性があることが分かったり。
URLを貼り付けるだけでできたことが、今では、要約が欲しければブログ記事全文を貼り付けてくださいと言われます。
ただ、解決策もあります。
NotionによるWEBクリッピングと要約機能を使う
過去に記事にしていました。
- NotionのWEBクリッピング機能でブログ記事を取り込む
- データベースのプロパティにAI要約を入れる
クリップさえしてしまえば、自動的にAI要約が完成するので、非常に便利です。難点はNotion AIは有料ということでしょうか。
Safariのリーダー表示をつかう
iPhoneまたはmacOSのWebブラウザSafariにはリーダー機能があります。タイトル下の要約ボタンを押せば、記事が要約されます。以前メール画面で見たApple Intelligence機能ですね。
最後に
自分が書いたはずの数ヶ月前の記事は、細かい内容までは忘れてしまっています。特に、どこまで言及して書いたかすっかり忘れている場合など、要約機能は便利です。
また、はてなブログでは、独自ドメインのあるなしにかかわらずRobots.txtは自動的に作られていて、AIクローラーは排除されています。
しかし、AI自身がはてなブログのテキストを取得することはできませんが、取得したテキストなら要約することは可能でした。
はてなブログ内の同じテーマのブログ
Notion AIによる要約機能を使ってまとめさせていただきました。
翻訳中
生成AIが多くのメディアサイトでrobots.txtによってアクセスを制限されており、これにより最新情報を参照できず、古い情報に基づく誤った回答が増える可能性がある。情報提供者が損をしない持続可能な情報流通の仕組みが必要とされている。
生成AIがはてなブログを直接読むことができないことを確認し、ChatGPT、Claude、Geminiの反応を比較。ブログ内容が必要な人に届くことを重視し、生成AIがブログを読める設定の希望を表明。Obsidianとのタスク管理サービス連携についても言及されています。