I need to scan only pages from the regex white list I need to index, but can’t find these settings.
It is web portal mode enabled.
Tried to apply my regular expression in the file
source/net/yacy/crawler/data/CrawlProfile.java
public static String siteFilter
but it still crawl domains out of condition.
How to apply properly my regex mask?
Thanks
Menu " Advanced Crawler", field “Use filter”
(Menu " Target Analysis", " Regex Test")
1 Like
Thank you, have no eyes )
that’s it
Обратите внимание, что сервис “Regex Test”, который я упомянул, хотя и полезен для наладки, но имеет глюки: он может застревать и начать показывать всё время только несовпадение (или совпадение).
По-видимому, какие-то выражения могут приводить к возникновению внутренних ошибок в нём.
Если Вы заметили такое неправильное поведение, надо перезагрузить страницу.
1 Like