Fess で note のクローリングができなくなった

Hitoshi Arakawa | 2024/01/23 Tue 04:00

Fess(Docker で立てたもの)で note の記事をクローリングしようとしたら、できなくなっていた。

以前はできていたのに note 側がクローリング対策をしたんだろうか。

こういうときは、クローラーの設定画面で Config Parameters 欄に以下を記入すればいいはずだが、これでもクローリングができなかった。

crawler.ignore.robots.txt=true
crawler.ignore.robots.tags=true

コンテナ内に入って設定ファイルを変更することもしてみた。

(1)docker の compose ディレクトリへ移動する。

(2)以下のコマンドでコンテナに入る。

$ sudo docker exec -it $(sudo docker ps -a -q --filter name=fess01 ) bash

(3)テキストエディタがないので nano をインストール。

# apt update
# apt install nano

(4)/etc/fess/fess_config.properties を編集する。

# nano /etc/fess/fess_config.properties

変更前:

crawler.ignore.robots.txt=false
crawler.ignore.robots.tags=false

変更後:

crawler.ignore.robots.txt=true
crawler.ignore.robots.tags=true

(5)コンテナを抜ける。

# exit

これでもくクローリングはうまくいかなかった。コンテナを再起動しても設定が消えてしまったので意味がなかった。

note で記事一覧ページを作ってそこをクローリングさせてもダメだった。

参考:
Fess 用に note の記事一覧ページを作った|荒川仁志
https://note.com/hitoshiarakawa/n/ncc86c7f02f09

Hugo のサイト上に記事一覧ページを作ってみたが、それもダメだった。

note 投稿一覧
https://hitoshiarakawa.com/note-posts/

note は検索で自分のユーザー名を含めて検索すれば自分の投稿のみを検索できる。Fess が使えないなら、全文検索をしたいときはこの方法でいこう。

参考:
Ubuntu に Docker の Fess をインストールする|荒川仁志
https://note.com/hitoshiarakawa/n/n749da063908d

Fessでrobots.txtなどを参照する設定 | 今日のひとこと
https://www.chazine.com/archives/3983

fess docker を動かす設定 - それマグで!
https://takuya-1st.hatenablog.jp/entry/2022/10/05/000000

Amazon.co.jp: 検索システム 実務者のための開発改善ガイドブック : 打田智子・古澤智裕・大谷 純・加藤 遼・鈴木翔吾・河野晋策 共著: 本
https://amzn.to/47Gultb