for this subject, I want to enter some ‘seed’ website there and wait from crawler it go to follow all the links,
it works, but only on this ‘seed’ page.
Where I can configure following children external links, to continue intranet crawling (using web portal mode)
p.s. I do filter my IP local net diapason by regex on initial crawling task by using this solution
Я не уверен в ответе, поскольку надежной информации нигде нет, но мне кажется, что так не получится.
Есть функция Autocrawler, но она не работает. По крайней мере, мне не удалось заставить ее работать хоть как-нибудь.
Попробуйте в Advanced Crawler использовать поле “Unlimited crawl depth for URLs matching with”.
Но у меня использование этой опции приводило в конце концов к переполнению очередей и исчерпанию всей памяти.
Может быть, у Вас будет лучше, это зависит от количества вашего ресурса.
У меня создалось впечатление, что YaCy вообще не приспособлена для хождения в неограниченное пространство. Она идет параллельно по всем ссылкам, которые находит, и это требует больших затрат ресурсов.
Для последовательного индексирования мне пришлось самостоятельно написать дополнительную утилиту, автоматически запускающую краулер последовательно.