arXiv:2509.03764v2 Announce Type: replace-cross 
Abstract: Relevance evaluation plays a crucial role in personalized search systems to ensure that search results align with a user's queries and intent. While human annotation is the traditional method for relevance evaluation, its high cost and long turnaround time limit its scalability. In this work, we present our approach at Pinterest Search to automate relevance evaluation for online experiments using fine-tuned LLMs. We rigorously validate the alignment between LLM-generated judgments and human annotations, demonstrating that LLMs can provide reliable relevance measurement for experiments while greatly improving the evaluation efficiency. Leveraging LLM-based labeling further unlocks the opportunities to expand the query set, optimize sampling design, and efficiently assess a wider range of search experiences at scale. This approach leads to higher-quality relevance metrics and significantly reduces the Minimum Detectable Effect (MDE) in online experiment measurements.

قدمت Pinterest نظامًا آليًا لتقييم الملاءمة باستخدام نماذج اللغة الكبيرة (LLMs) لتحسين كفاءة تقييم نتائج البحث. تعالج هذه الطريقة قيود أساليب التقييم التقليدية التي تعتمد على التوضيحات البشرية، والتي تكون مكلفة وتستغرق وقتًا طويلاً. تُظهر عملية التحقق من توافق الأحكام التي أنشأتها LLM مع التوضيحات البشرية أن LLMs يمكن أن توفر قياسًا موثوقًا للملاءمة، مما يؤدي إلى تحسين المقاييس وتقليل الحد الأدنى من التأثير القابل للاكتشاف في التجارب عبر الإنترنت.

Pinterest ha introducido un sistema automatizado de evaluación de relevancia utilizando modelos de lenguaje de gran tamaño (LLM) para mejorar la eficiencia de las evaluaciones de resultados de búsqueda. Este enfoque aborda las limitaciones de los métodos tradicionales de anotación humana, que son costosos y lentos. La validación de los juicios generados por LLM en comparación con las anotaciones humanas muestra que los LLM pueden medir la relevancia de manera confiable, lo que lleva a métricas mejoradas y a una reducción del Efecto Mínimo Detectable en experimentos en línea.

Pinterest a introduit un système d'évaluation de la pertinence automatisé utilisant des modèles de langage de grande taille (LLM) pour améliorer l'efficacité des évaluations des résultats de recherche. Cette approche répond aux limites des méthodes traditionnelles d'annotation humaine, coûteuses et chronophages. La validation des jugements générés par les LLM par rapport aux annotations humaines montre que les LLM peuvent mesurer la pertinence de manière fiable, conduisant à de meilleures métriques et à une réduction de l'effet détectable minimum dans les expériences en ligne.

Pinterest has introduced an automated relevance evaluation system using fine-tuned large language models (LLMs) to enhance the efficiency of search result assessments. This approach addresses the limitations of traditional human annotation methods, which are costly and time-consuming. The validation of LLM-generated judgments against human annotations shows that LLMs can reliably measure relevance, leading to improved metrics and reduced Minimum Detectable Effect in online experiments.

LLM-based Relevance Assessment for Web-Scale Search Evaluation at Pinterest

Was this article worth reading? Share it

Ready to build your own newsroom?