arXiv:2512.09874v1 Announce Type: new 
Abstract: Correctly parsing mathematical formulas from PDFs is critical for training large language models and building scientific knowledge bases from academic literature, yet existing benchmarks either exclude formulas entirely or lack semantically-aware evaluation metrics. We introduce a novel benchmarking framework centered on synthetically generated PDFs with precise LaTeX ground truth, enabling systematic control over layout, formulas, and content characteristics. A key methodological contribution is pioneering LLM-as-a-judge for semantic formula assessment, combined with a robust two-stage matching pipeline that handles parser output inconsistencies. Through human validation on 250 formula pairs (750 ratings from 30 evaluators), we demonstrate that LLM-based evaluation achieves substantially higher correlation with human judgment (Pearson r=0.78) compared to CDM (r=0.34) and text similarity (r~0). Evaluating 20+ contemporary PDF parsers (including specialized OCR models, vision-language models, and rule-based approaches) across 100 synthetic documents with 2,000+ formulas reveals significant performance disparities. Our findings provide crucial insights for practitioners selecting parsers for downstream applications and establish a robust, scalable methodology that enables reproducible evaluation of PDF formula extraction quality. Code and benchmark data: https://github.com/phorn1/pdf-parse-bench

تم تقديم إطار تقييم جديد لتقييم محللات الوثائق في استخراج الصيغ الرياضية من ملفات PDF، مما يعالج قيود المعايير الحالية التي غالبًا ما تتجاهل الصيغ أو تفتقر إلى مقاييس واعية دلاليًا. يستخدم هذا الإطار ملفات PDF تم إنشاؤها بشكل اصطناعي مع حقيقة LaTeX دقيقة، مما يسهل التحكم المنهجي في التخطيط وخصائص المحتوى.

Se ha introducido un nuevo marco de evaluación para documentar los parseadores en la extracción de fórmulas matemáticas de PDFs, abordando las limitaciones de los benchmarks existentes que a menudo pasan por alto las fórmulas o carecen de métricas semánticamente conscientes. Este marco utiliza PDFs generados sintéticamente con una verdad de base LaTeX precisa, facilitando el control sistemático sobre el diseño y las características del contenido.

Un nouveau cadre d'évaluation a été introduit pour évaluer les parseurs de documents sur l'extraction de formules mathématiques à partir de PDF, répondant aux limites des benchmarks existants qui négligent souvent les formules ou manquent de métriques sémantiquement conscientes. Ce cadre utilise des PDF générés synthétiquement avec une vérité de base LaTeX précise, facilitant le contrôle systématique sur la mise en page et les caractéristiques du contenu.

A new benchmarking framework has been introduced for evaluating document parsers on mathematical formula extraction from PDFs, addressing the limitations of existing benchmarks that often overlook formulas or lack semantically-aware metrics. This framework utilizes synthetically generated PDFs with accurate LaTeX ground truth, facilitating systematic control over layout and content characteristics.

Benchmarking Document Parsers on Mathematical Formula Extraction from PDFs

Was this article worth reading? Share it

Airparser

LucidQuery AI

BankPDF

Supametas.AI

MathEditor

DocsParse

Ready to build your own newsroom?