Fess(Docker で立てたもの)で note の記事をクローリングしようとしたら、できなくなっていた。
以前はできていたのに note 側がクローリング対策をしたんだろうか。
こういうときは、クローラーの設定画面で Config Parameters 欄に以下を記入すればいいはずだが、これでもクローリングができなかった。
crawler.ignore.robots.txt=true
crawler.ignore.robots.tags=true
コンテナ内に入って設定ファイルを変更することもしてみた。
(1)docker の compose ディレクトリへ移動する。
(2)以下のコマンドでコンテナに入る。
$ sudo docker exec -it $(sudo docker ps -a -q --filter name=fess01 ) bash
(3)テキストエディタがないので nano をインストール。
# apt update
# apt install nano
(4)/etc/fess/fess_config.properties を編集する。
# nano /etc/fess/fess_config.properties
変更前:
crawler.ignore.robots.txt=false
crawler.ignore.robots.tags=false
変更後:
crawler.ignore.robots.txt=true
crawler.ignore.robots.tags=true
(5)コンテナを抜ける。
# exit
これでもくクローリングはうまくいかなかった。コンテナを再起動しても設定が消えてしまったので意味がなかった。
note で記事一覧ページを作ってそこをクローリングさせてもダメだった。
参考:
Fess 用に note の記事一覧ページを作った|荒川仁志
https://note.com/hitoshiarakawa/n/ncc86c7f02f09
Hugo のサイト上に記事一覧ページを作ってみたが、それもダメだった。
note 投稿一覧
https://hitoshiarakawa.com/note-posts/
*
note は検索で自分のユーザー名を含めて検索すれば自分の投稿のみを検索できる。Fess が使えないなら、全文検索をしたいときはこの方法でいこう。
参考:
Ubuntu に Docker の Fess をインストールする|荒川仁志
https://note.com/hitoshiarakawa/n/n749da063908d
Fessでrobots.txtなどを参照する設定 | 今日のひとこと
https://www.chazine.com/archives/3983
fess docker を動かす設定 - それマグで!
https://takuya-1st.hatenablog.jp/entry/2022/10/05/000000
*
Amazon.co.jp: 検索システム 実務者のための開発改善ガイドブック : 打田智子・古澤智裕・大谷 純・加藤 遼・鈴木翔吾・河野晋策 共著: 本
https://amzn.to/47Gultb