How to configure external links autocrawl / autofollow

d47081 · 4 April 2023 09:31

I wish to scan Yggdrasil local net

for this subject, I want to enter some ‘seed’ website there and wait from crawler it go to follow all the links,
it works, but only on this ‘seed’ page.

Where I can configure following children external links, to continue intranet crawling (using web portal mode)

p.s. I do filter my IP local net diapason by regex on initial crawling task by using this solution

Sviatoslav · 4 April 2023 14:23

Я не уверен в ответе, поскольку надежной информации нигде нет, но мне кажется, что так не получится.

Есть функция Autocrawler, но она не работает. По крайней мере, мне не удалось заставить ее работать хоть как-нибудь.

Попробуйте в Advanced Crawler использовать поле “Unlimited crawl depth for URLs matching with”.
Но у меня использование этой опции приводило в конце концов к переполнению очередей и исчерпанию всей памяти.
Может быть, у Вас будет лучше, это зависит от количества вашего ресурса.

У меня создалось впечатление, что YaCy вообще не приспособлена для хождения в неограниченное пространство. Она идет параллельно по всем ссылкам, которые находит, и это требует больших затрат ресурсов.

Для последовательного индексирования мне пришлось самостоятельно написать дополнительную утилиту, автоматически запускающую краулер последовательно.