איך מדד שכנוע משפטי מתייחס למדדים הבינלאומיים
שאלה לגיטימית: האם הציון 33/100 במדד שכנוע משפטי ניתן להשוואה ל-90.2 ש-Claude קיבל ב-Harvey BigLaw Bench, או ל-87.4% של Gemini ב-LegalBench? התשובה הקצרה: חלקית. תקציר ארוך:
- שיעור הזיות — אחוז זהה למדידה (Harvey 0.2-1.9%)
- אחוז ציטוטים מאומתים — מטריקה אוניברסלית
- קיום אלמנטים פרוצדורליים — checklist binary
- איכות שפתית — סגנון/טון/פורמט פנימי לתחום
- ציון מצרפי — 33/100 ≠ 90.2/100 (סקאלות שונות)
- תוכן משפטי — common law vs civil law
- פורמט ציטוט — Bluebook vs
ע"א 1234/56 - דרישות פרוצדורליות — F.R.C.P. vs תקסד"א
מיפוי מבני
שני הממדים העליונים שלנו ("Answer Quality" ו-"Source Reliability") נבנו במכוון לחפיפה ישירה עם Harvey BigLaw Bench. כך אפשר להציג מספר אחד שתואם.
| ממד מדד שכנוע משפטי | Harvey BigLaw Bench | Stanford LegalBench | Magesh 2024 | Vals VLAIR |
|---|---|---|---|---|
| A · אינטגריטיות ציטוטים (22) | Source Reliability | Rule-Recall + Rule-Application (חלקי) | groundedness — מיפוי 1:1 | Citation accuracy (תת-מטריקה) |
| B · עמידה בתקנות (18) | Motion format compliance | — | — | Document structure |
| C · סגנון משפטי (12) | Tone/length holistic | Style classification (חלקי) | — | Writing quality |
| D · איכות טיעון (16) | Issue ID + Argument structure | Issue-Spotting + Rule-Application — חפיפה ישירה | correctness | Reasoning quality |
| E · התאמה לערכאה (12) | לא נבדק | — | — | — |
| F · אסטרטגיה (12) | Deal/litigation strategy | — | — | Redlining (חלקי) |
| G · בטיחות / הזיות (8 + cap) | Hallucination rate (sentences) | Unauthorized-practice checks | correctness × groundedness — בסיס | חסר |
מטריקות ניתנות להשוואה ישירה
מטריקות המנורמלות לאחוזים מאפשרות השוואה צולבת. הנה המספרים שלנו ליד הספרות הציבוריות מ-Harvey ו-Magesh:
| מערכת | סיכון הזיה (מדד שכנוע משפטי) | Harvey BigLaw (sentences) | Magesh 2024 (Westlaw/Lexis/GPT-4) |
|---|---|---|---|
| Claude Opus | 100.0% מהפסיקה (1/1) | 0.7% (תוצאת Harvey ב-claude) | 17% – 43% בכלים מסחריים שנבחנו (Magesh) |
| GPT | 100.0% מהפסיקה (7/7) | 1.3% (תוצאת Harvey ב-ChatGPT) | 17% – 43% בכלים מסחריים שנבחנו (Magesh) |
| Gemini | — | 1.9% (תוצאת Harvey ב-Gemini) | 17% – 43% בכלים מסחריים שנבחנו (Magesh) |
ציר שאין לו מקבילה בשום מדד בינלאומי
Harvey, LegalBench, Magesh ו-VLAIR מודדים קיום ציטוטים ואיכות-תשובה. אף אחד מהם אינו מודד את ציר עיגון ברשת הידע (Track 3) — סטטיסטיקה פורנזית פר-ערכאה, רשת תחולת-דינים, וטקטיקות מנצחות מול ערכאה ספציפית. זה דורש קורפוס פסיקה מלא בעברית עם מיליוני נתונים מקושרים — ייחוד מבני של מדד שכנוע משפטי.
| ממד Track 3 | Harvey | LegalBench | Magesh | VLAIR | מדד שכנוע משפטי |
|---|---|---|---|---|---|
| סטטיסטיקה פורנזית פר-ערכאה (שיעור הצלחת טענה) | ✗ | ✗ | ✗ | ✗ | ✓ |
| כיול-פורום לעוצמת טיעון | ✗ | ✗ | ✗ | ✗ | ✓ |
| תמיכת-חוק + גרסה בתוקף | ✗ | ✗ | ✗ | ✗ | ✓ |
| טקטיקות מנצחות מול ערכאה ספציפית | ✗ | ✗ | ✗ | ✗ | ✓ |
מה אפשר להסיק מהשוואה
- אימות הציטוטים כבר רץ מול הקורפוס האמיתי — לא proxy. בדיקת הקיום נעשית מול אינדקס של ~71 אלף פסקי דין מצוטטים, ובדיקת התמיכה מול ~20–40 אלף פסקי דין שטקסטם המלא במאגר. ההזיות שמוצגות בלוח הן הזיות אמת (פסקי דין שאינם קיימים), לא חוסר-התאמה ל-ground-truth של משימה.
- שיעורי ההזיה ב-LLM גולמי גבוהים מ-Magesh ו-Harvey כאחד בתחומים נישתיים (מסים, בנייה) — כי שם המודל ממציא פסיקה ספציפית שאינו מכיר. בתחומים מוכרים הוא מדייק. זה מאשש את ממצא Magesh על תלות-תחום.
- אין השוואת "ציון יחיד" ל-Harvey. אנו מדווחים מדדים גולמיים נפרדים (אחוז ביסוס, שלמות אסטרטגית), לא ציון מצרפי אחד. אשכולות D/F (איכות-טיעון, אסטרטגי) דורשים מודל-בוחן (LLM-as-judge) שטרם הופעל — ולכן הציון האוטומטי הוא תת-קבוצה. ההשוואה ההוגנת היא אחוז מהמקסימום הזמין, והפער מ-Harvey משקף הבדל מתודולוגי + התאמה לעברית.
מה עוד חסר אצלנו (Phase 3 roadmap)
- Lawyer baseline (Vals VLAIR-style) — פאנל של 5-10 עורכי דין רושמים את 20 המסמכים, ציון אנושי לכל cluster.
- Inter-rater reliability — Cohen's kappa בין שני מודלי-בוחן (LLM-judges) כשמופעל cluster D/E/F.
- Confidence intervals — bootstrap על 20 המשימות לקבלת ±X טווח 95%.
- Per-task custom rubric items (Harvey-style) — הנתונים כבר קיימים: כל משימה ב-
tasks_privateנושאתexpected_clusters+weights+ הערות-ניקוד ייחודיות. נותר לחבר את ה-scorer שיחיל את המשקלים הפר-משימתיים במקום הרובריקה המשותפת. - Hallucination cap מדורג — כרגע בינארי (50/100 על אסמכתא מומצאת אחת). מתוכנן: 50 לראשונה, 30 לחמישית+, כהמלצת Magesh.
עודכן 2026-06-16: ① אימות-מנוע Phase 1 משולב כעת בדף התוצאות. ② הסקורר Track 3 (עיגון ברשת הידע — ערכאות × דינים × פסיקה) פעיל — ר' מתודולוגיה. ③ ציון הלוח הוא תת-קבוצה אוטומטית הוגנת (A,B,C,E_forum,G ≈ 60/100); D/F דורשים מודל-בוחן (Phase 3).