Я поставил YaCy на удаленном виртуальном сервере со следующими параметрами:
Процессор: 1 ядро, 1GHz
память: 1Gb
диск: 32Gb
Для Яси было выделено:
RAM: 870Mb, минимум: 40Mb
диск D: 26Mb
Версия Яси: 1.924/10079
Целевая задача: длительное индексирование русскозычной части Интернета (а не отдельных избранных сайтов).
Я взял стартовым адресом один из рейтингов Рунета, страницы которого содержали около 4 тыс ссылок на различные сайты.
Я запустил краулер в режиме “Expert Crawl”, установив “Unlimited crawl depth for URLs matching with” для доменов ru и su (было написано корректное регулярное выражение).
По моим предположениям, краулер должен был отправиться в длительное блуждание по всему Рунету. Однако, похоже он пошел параллельно по всем ссылкам, которые нашел на стартовом сайте. Это было видно через “Index Browser”.
Очень скоро он исчерпал всю выделенную память и остановился.
Я экспериментировал около 3 месяцев, и ни разу краулер не проработал самостоятельно более суток. Требовался ручной сброс переполнения памяти, иногда очистка индекса, иногда полный рестарт.
Сообщите пожалуйста, каковы должны быть настройки для выше указанных условий, чтобы краулер продолжал работать пусть медленно, но автономно и стабильно, не требуя постоянного ручного вмешательства?