מדד השכנוע המשפטי
Israeli Law Persuasion Index
Cross-Benchmark Comparison

איך מדד שכנוע משפטי מתייחס למדדים הבינלאומיים

שאלה לגיטימית: האם הציון 33/100 במדד שכנוע משפטי ניתן להשוואה ל-90.2 ש-Claude קיבל ב-Harvey BigLaw Bench, או ל-87.4% של Gemini ב-LegalBench? התשובה הקצרה: חלקית. תקציר ארוך:

השוואה אפשרית ✓
  • שיעור הזיות — אחוז זהה למדידה (Harvey 0.2-1.9%)
  • אחוז ציטוטים מאומתים — מטריקה אוניברסלית
  • קיום אלמנטים פרוצדורליים — checklist binary
  • איכות שפתית — סגנון/טון/פורמט פנימי לתחום
השוואה לא ישירה ✗
  • ציון מצרפי — 33/100 ≠ 90.2/100 (סקאלות שונות)
  • תוכן משפטי — common law vs civil law
  • פורמט ציטוט — Bluebook vs ע"א 1234/56
  • דרישות פרוצדורליות — F.R.C.P. vs תקסד"א

מיפוי מבני

שני הממדים העליונים שלנו ("Answer Quality" ו-"Source Reliability") נבנו במכוון לחפיפה ישירה עם Harvey BigLaw Bench. כך אפשר להציג מספר אחד שתואם.

ממד מדד שכנוע משפטי Harvey BigLaw Bench Stanford LegalBench Magesh 2024 Vals VLAIR
A · אינטגריטיות ציטוטים (22) Source Reliability Rule-Recall + Rule-Application (חלקי) groundedness — מיפוי 1:1 Citation accuracy (תת-מטריקה)
B · עמידה בתקנות (18) Motion format compliance Document structure
C · סגנון משפטי (12) Tone/length holistic Style classification (חלקי) Writing quality
D · איכות טיעון (16) Issue ID + Argument structure Issue-Spotting + Rule-Application — חפיפה ישירה correctness Reasoning quality
E · התאמה לערכאה (12) לא נבדק
F · אסטרטגיה (12) Deal/litigation strategy Redlining (חלקי)
G · בטיחות / הזיות (8 + cap) Hallucination rate (sentences) Unauthorized-practice checks correctness × groundedness — בסיס חסר

מטריקות ניתנות להשוואה ישירה

מטריקות המנורמלות לאחוזים מאפשרות השוואה צולבת. הנה המספרים שלנו ליד הספרות הציבוריות מ-Harvey ו-Magesh:

מערכת סיכון הזיה (מדד שכנוע משפטי) Harvey BigLaw (sentences) Magesh 2024 (Westlaw/Lexis/GPT-4)
Claude Opus 100.0% מהפסיקה (1/1) 0.7% (תוצאת Harvey ב-claude) 17% – 43% בכלים מסחריים שנבחנו (Magesh)
GPT 100.0% מהפסיקה (7/7) 1.3% (תוצאת Harvey ב-ChatGPT) 17% – 43% בכלים מסחריים שנבחנו (Magesh)
Gemini 1.9% (תוצאת Harvey ב-Gemini) 17% – 43% בכלים מסחריים שנבחנו (Magesh)
ייחוד · Track 3

ציר שאין לו מקבילה בשום מדד בינלאומי

Harvey, LegalBench, Magesh ו-VLAIR מודדים קיום ציטוטים ואיכות-תשובה. אף אחד מהם אינו מודד את ציר עיגון ברשת הידע (Track 3) — סטטיסטיקה פורנזית פר-ערכאה, רשת תחולת-דינים, וטקטיקות מנצחות מול ערכאה ספציפית. זה דורש קורפוס פסיקה מלא בעברית עם מיליוני נתונים מקושרים — ייחוד מבני של מדד שכנוע משפטי.

ממד Track 3 Harvey LegalBench Magesh VLAIR מדד שכנוע משפטי
סטטיסטיקה פורנזית פר-ערכאה (שיעור הצלחת טענה)
כיול-פורום לעוצמת טיעון
תמיכת-חוק + גרסה בתוקף
טקטיקות מנצחות מול ערכאה ספציפית

מה אפשר להסיק מהשוואה

  1. אימות הציטוטים כבר רץ מול הקורפוס האמיתי — לא proxy. בדיקת הקיום נעשית מול אינדקס של ~71 אלף פסקי דין מצוטטים, ובדיקת התמיכה מול ~20–40 אלף פסקי דין שטקסטם המלא במאגר. ההזיות שמוצגות בלוח הן הזיות אמת (פסקי דין שאינם קיימים), לא חוסר-התאמה ל-ground-truth של משימה.
  2. שיעורי ההזיה ב-LLM גולמי גבוהים מ-Magesh ו-Harvey כאחד בתחומים נישתיים (מסים, בנייה) — כי שם המודל ממציא פסיקה ספציפית שאינו מכיר. בתחומים מוכרים הוא מדייק. זה מאשש את ממצא Magesh על תלות-תחום.
  3. אין השוואת "ציון יחיד" ל-Harvey. אנו מדווחים מדדים גולמיים נפרדים (אחוז ביסוס, שלמות אסטרטגית), לא ציון מצרפי אחד. אשכולות D/F (איכות-טיעון, אסטרטגי) דורשים מודל-בוחן (LLM-as-judge) שטרם הופעל — ולכן הציון האוטומטי הוא תת-קבוצה. ההשוואה ההוגנת היא אחוז מהמקסימום הזמין, והפער מ-Harvey משקף הבדל מתודולוגי + התאמה לעברית.

מה עוד חסר אצלנו (Phase 3 roadmap)

עודכן 2026-06-16: ① אימות-מנוע Phase 1 משולב כעת בדף התוצאות. ② הסקורר Track 3 (עיגון ברשת הידע — ערכאות × דינים × פסיקה) פעיל — ר' מתודולוגיה. ③ ציון הלוח הוא תת-קבוצה אוטומטית הוגנת (A,B,C,E_forum,G ≈ 60/100); D/F דורשים מודל-בוחן (Phase 3).