Hi Sebastian
Alle meine Yacy Instanzen sind out-of-the box Installationen mit embedded solr. Manche auf Win 2008 Server, bald aber alle nur noch auf freebsd. Mühsam war die Updaterei bis ich rausfand, dass ich immer erst die 9000 stable Version installieren muss und dann erst die Github druberklatschen kann.
Anfangs plante ich, je Land (.de, .ch etc) einen eigenen Index im Robinson Modus aufzubauen, um die Indices “sauber” zu halten (> 500 Einträge auf der Blacklist). Aber da war dann das Problem: Was machen, wenn keine Ergebnisse gefunden werden… Habe dann bemerkt, dass Ergebnisse aus dem lokalen Index jeweils bevorzugt werden, d.h. die Geschwindigkeit spielt eine Rolle. Habe dann alle Instanzen auf P2P umgestellt, v.a. auch wg. Redundanz und Skalierbarkeit. Nicht zuletzt, um das Netzwerk zu unterstützen. Welcher Index jeweils antwortet sehe ich an bestimmten “Testsuchbegriffen”, da ich meinen Content inzwischen sehr gut kenne. Ich sammle seit Jahren Starturls und Portale 
wenn ich z.B.: nach “Impressum” suche, sehe ich an der Anzahl Treffer, welcher Index antwortet. Das ändert zwar geringfügig nach mehreren Suchen, aber nicht von 100 auf 700000, wie zu erwarten wäre.
Komisch ist auch die Anzahl Dokument je Index, welche heftige Sprünge / Unstetigkeiten auf und ab hat.
Ich frage mich, was mit dem Content passiert. Der Index wird ja im Netz verteilt, aber was passiert mit den Starturls, wenn eine Maschine ausfällt?
Starturls sind eine Wissenschaft für sich. Ich habe mir ein paar 100 Mio. Domainnamen besorgt. Um herauszufinden, welche überhaupt “live” sind ist ausgiebiges Preprocessing erforderlich, wenn man nicht bei PPM < 10 jahrelang zuschauen will 
Ich dachte, ich kann dann per solr Export explizit content von einem auf den anderen Index übertragen, aber das geht wohl nicht so einfach. Am Ende ist es schneller, nur die Domains / Urls zu exportieren und auf der Zielmaschine neu zu crawlen. Schön wäre, wenn ich den “Verteilvorgang” (Redundanz) innerhalb meiner Indices explizit anstossen könnte.
Zum Frontend: Die Susper App ist sehr hübsch (von ein paar hart codierten URLs’ mal abgesehen ;-)) aber löst nicht das Problem mit der Beschränkung auf nur einen Index.
Wesentlich bessere Ergebnisse habe ich inzwischen mit einer searx Installation, in die ich meine Yacy Maschinen neben den G und Bings dieser Welt nutze.
Was mir noch fehlt / woran ich arbeite ist eine vernünftige Starturl Verwaltung, aus der ich explizit einzelne Selektionen fahren kann.
Mit so einem Setup habe ich schon “schnell übers Wochenende” den EU Jobmarkt oder B2B Companies samt Produkten gecrawlt.
Bischen mühsam ist es, die gecrawlten Daten aus dem solr rauszuholen, so z.B. eine Anfrage nach “Zeig mir die neu gecrawlten je Suchbegriff oder crawl Durchgang”.
Im Moment sehe ich nur ein flat Export gemäss “älter als x Sekunden” und Aufbereiten Extern / sequenziell.
BG
Markus