Ich möchte Live-A / B-Tests und Side-by-Side-Tests durchführen, um zu verstehen, wie sich Änderungen auf die Suchqualität auswirken. Ich werde Variablen wie Boost-Wert und Fuzzy-Abfragen testen.
Welche anderen Metriken werden verwendet, um festzustellen, ob Benutzer A gegen B bevorzugen? Hier sind 2 Metriken, die ich online gefunden habe ...
In Google Analytics ist "% Search Exits" eine Metrik, mit der Sie arbeiten können messen Sie die Qualität Ihrer Site-Suchergebnisse
Eine weitere Möglichkeit, die Suchqualität zu messen, besteht darin, die Anzahl von Suche Ergebnisseiten die Besucher sieht.
Die Suchqualität ist etwas nicht leicht messbares. Um Relevanz zu messen, müssen Sie einige Dinge haben:
Ein Wettbewerber zur Messung der Relevanz. Für Ihren Fall wird die andere Instanz Ihrer Suchmaschine die Konkurrenten für einander sein. Ich meine, bei einer Suchmaschine-Instanz würde der Basisalgorithmus ausgeführt werden, bei der anderen mit Fuzzy-Aktivierung, bei einer anderen mit Fuzzy- und Boosting-Funktion und so weiter.
Sie müssen die Ergebnisse manuell bewerten. Sie können Ihre Kollegen bitten, Query / URL-Paare für beliebte Abfragen zu bewerten und dann für die Lücken (dh das nicht bewertete Query / URL-Paar können Sie eine dynamische Rangfolgefunktion verwenden, indem Sie den "Learning to Rank" -Algorithmus verwenden Ссылка . Seien Sie nicht überrascht, aber das stimmt (lesen Sie unten ein Beispiel von Google / Bing).
Google und Bing sind Konkurrenten im horizontalen Suchmarkt. Diese Suchmaschinen setzen auf der ganzen Welt manuelle Richter ein und investieren Millionen in sie, um ihre Ergebnisse für Anfragen zu bewerten. So werden für jede Abfrage / URL-Paare in der Regel Top 3 oder Top 5 Ergebnisse bewertet. Basierend auf diesen Bewertungen können sie eine Metrik wie NDCG (Normalized Discounted Cumulative Gain) verwenden, die eine der besten und eine der beliebtesten Metrik ist.
Discounted Cumulative Gain (DCG) ist ein Maß für die Effektivität eines Web Search Engine & gt; -Algorithmus oder ähnlicher Anwendungen, die häufig beim Informationsabruf verwendet werden. Mit einer abgestuften & gt; Relevanzskala von Dokumenten in einer Suchmaschinenergebnismenge misst DCG die Nützlichkeit, & gt; oder den Gewinn eines Dokuments basierend auf seiner Position in der Ergebnisliste. Der Gewinn wird vom oberen Ende der Ergebnisliste bis zum unteren Ende akkumuliert, wobei der Gewinn jedes Ergebnisses auf & gt; niedrigere Ränge diskontiert wird.
Wikipedia erklärt NDCG großartig. Es ist ein kurzer Artikel, bitte gehen Sie das durch.
Wie Sie erwähnt haben, können Sie auch Klickrate / Daten haben, in denen Sie eine Art Weisheit des Crowd-Algorithmus haben und die Relevanz darauf basierend anpassen. Es ist ein sehr guter Ausweg, aber es zieht Spamming an. Es muss also mit einem Metrik wie NDCG / MAP usw. gekoppelt werden, um Ihr Relevanzproblem zu lösen.
Ich kann mehr Details dazu liefern, wenn Sie noch mehr darüber wissen müssen, wie das Ganze in Ihrer Fallstudie funktioniert.