מדד השכנוע המשפטי הישראלי
אותו כתב טענות מוזן לכל מערכת בינה מלאכותית — וכולן נמדדות על אותם scorers אובייקטיביים. התוצאות מדברות בעד עצמן.
האם המערכת ממציאה פסיקה?
הציר היחיד שבו ההשוואה סימטרית: כל המערכות מצטטות, וכולן נבדקות מול אינדקס חיצוני של ~71 אלף פסקי דין. בינארי, ניתן לאימות, ומתיישב עם הספרות על הזיות משפטיות.
| מערכת | ביסוסאחוז האסמכתאות שאכן קיימות במאגר (~71 אלף פסקי דין). 0% = כל הציטוטים בדויים. | הזיותסך פסקי הדין הבדויים — שאינם קיימים כלל — שהמערכת המציאה על פני התיקים. 0 = אפס המצאות. |
|---|---|---|
|
חמורבי
ניתוח CA מלא |
85.0%
|
0 |
|
GPT-5.4
גולמי |
51.6%
|
11 |
|
Claude Sonnet 4.6
גולמי |
68.6%
|
18 |
ניואנס: כשחמורבי אינו בטוח בציטוט הוא נסוג ל"חוקים מאומתים בלבד" — האפס מושג בהימנעות מודעת, לא במזל. פירוט לפי תיק למטה.
אמינות אסמכתאות — הנתונים הגולמיים
① הזיות — אסמכתאות שהומצאו
מספר פסקי הדין שהמערכת ציטטה אך אינם קיימים באינדקס הפסיקה (~71 אלף פסקי דין מצוטטים).
| תיק | פורום | חמורבי | GPT-5.4 | Claude S4.6 |
|---|---|---|---|---|
| חוזים | עליון | 0 | 2 | 3 |
| משפחה | עליון | 0 | 1 | 0 |
| נזיקין | מחוזי | 0 | 1 | 0 |
| מסים | מחוזי (ערעורי מס) | 0 | 5 | 5 |
| ליקויי בנייה | שלום | 0 | 2 | 10 |
סריקה נוספת — 5 תחומים שנמדדו על LLM בלבד, להראות את רוחב תופעת ההמצאה:
| תיק | פורום | GPT-5.4 | Claude S4.6 |
|---|---|---|---|
| עבודה | ביה"ד לעבודה | 0 | 2 |
| תאגידים §191 | מחלקה כלכלית | 1 | 4 |
| מכרזים | עניינים מנהליים | 1 | 5 |
| אכיפת פס"ח | מחוזי | 1 | 1 |
| חדלות פירעון 2018 | מחוזי | 1 | 9 |
② ביסוס — אחוז ציטוטים מאומתים
מתוך כלל האסמכתאות, כמה קיימות באמת. 0% = כל הציטוטים בדויים. (5 התיקים שחמורבי הורץ עליהם.)
| תיק | חמורבי | GPT-5.4 | Claude S4.6 |
|---|---|---|---|
| חוזים | 70.0% | 83.3% | 70.0% |
| משפחה | 100.0% | 85.7% | 100.0% |
| נזיקין | חוקים ✓ | 88.9% | 100.0% |
| מסים | חוקים ✓ | 0% | 50.0% |
| ליקויי בנייה | חוקים ✓ | 0% | 23.1% |
Track 2 ו-Track 3 — לא תחרות, הדגמה
③ שלמות תוצר העבודה האסטרטגי (מתוך 80)
כמה החבילה האסטרטגית מאוכלסת: תרחישי פסיקה, סימולציית יריב, war-gaming, נקודות תורפה, רישום סיכונים.
| תיק | חמורבי | GPT-5.4 | Claude S4.6 |
|---|---|---|---|
| חוזים |
76%
|
28.8%
|
13.8%
|
| משפחה |
80%
|
28.8%
|
15.0%
|
| נזיקין |
81%
|
28.8%
|
11.2%
|
| מסים |
83.8%
|
28.8%
|
16.2%
|
| ליקויי בנייה |
80.0%
|
28.8%
|
16.2%
|
⑤ עיגון ברשת הידע Track 3 · /40
עיגון בנתונים מקושרים מהקורפוס: שיעורי-הצלחה פר-ערכאה וכיול-פורום (Q1), תמיכת-דין והגרסה בתוקף (Q2), ותקדימים/טקטיקות מול הערכאה (Q3). פירוט הניקוד.
| תיק | חמורבי | GPT-5.4 | Claude S4.6 |
|---|---|---|---|
| חוזים | 95% | 0% | 0% |
| משפחה | 95% | 0% | 0% |
| נזיקין | 88% | 0% | 0% |
| מסים | 88% | 0% | 0% |
| ליקויי בנייה | 88% | 0% | 0% |
| ממוצע | 90.8% | 0% | 0% |
ציר מבוסס-קורפוס: דורש שיעורי-הצלחה פר-ערכאה, תמיכת-דין ורשת-תקדימים — שאינם זמינים למודל ללא חיבור למאגר. ניקוד: scorers/cluster_q_knowledge_network.py.
תוצאות הספֵק המלא — 12 משימות × 4 מערכות
הציונים על פני ספֵק ה-v2 המלא (Part A 100 + Part B 470 = 570). הקלט מבוקר ורפרודוקטיבי (RNG seed קבוע) — הרצה חוזרת מניבה ציונים זהים, תכונה של מדד תקף.
סיכום פר-מערכת — ממוצע על 12 משימות
| מערכת | חלק B mean /470 |
σ (std) | min / max | % |
|---|---|---|---|---|
|
Hammurabi
Hammurabi.pro
|
421.2
|
±4.86 | 411 / 428 | 89.6% |
|
Claude Opus 4.7
Anthropic
|
100.3
|
±2.42 | 97 / 104 | 21.3% |
|
GPT-5.4 (ChatGPT)
OpenAI
|
91.5
|
±3.87 | 85 / 97 | 19.5% |
|
Gemini 3 Pro
Google
|
75.5
|
±1.83 | 73 / 79 | 16.1% |
ממוצע per-cluster על 12 משימות
| אשכול | /max |
Hammurabi
|
Claude Opus 4.7
|
GPT-5.4 (ChatGPT)
|
Gemini 3 Pro
|
|---|---|---|---|---|---|
| E · כיול סטטיסטי לערכאה | 60 | 60 ±0.0 | 0 ±0.0 | 0 ±0.0 | 0 ±0.0 |
| F · התאמה לערכאה | 40 | 40 ±0.0 | 10 ±0.0 | 10 ±0.0 | 10 ±0.0 |
| G · חשיבה מול היריב | 50 | 31 ±0.0 | 5 ±0.0 | 5 ±0.0 | 0 ±0.0 |
| H · אמינות הציטוטים | 40 | 34.2 ±5.93 | 0 ±0.0 | 0 ±0.0 | 0 ±0.0 |
| I · הנדסת מבנה כתב טענות | 40 | 35 ±0.0 | 35 ±0.0 | 35 ±0.0 | 35 ±0.0 |
| J · אסטרטגיית התיק | 35 | 33.3 ±2.06 | 0 ±0.0 | 0 ±0.0 | 0 ±0.0 |
| K · עקביות הניתוח בתיקים דומים | 35 | 23 ±0 | 25 ±0 | 20 ±0 | 23 ±0 |
| L · איכות הטיעון המשפטי | 40 | 40 ±0.0 | 0 ±0.0 | 0 ±0.0 | 0 ±0.0 |
| M · תוצרים מעשיים לעורך-הדין | 40 | 40 ±0.0 | 14 ±2.92 | 13.4 ±1.38 | 5.5 ±1.83 |
| N · קוהרנטיות הנרטיב המשפטי | 30 | 27.6 ±1.38 | 2 ±0.0 | 2 ±0.0 | 2 ±0.0 |
| O · איפיון רמת ודאות התשובה | 30 | 27 ±2.22 | 0 ±0.0 | 0 ±0.0 | 0 ±0.0 |
| P · הגנה על חיסיון וסודיות לקוח | 30 | 30 ±0.0 | 9.3 ±1.56 | 6.1 ±3.15 | 0 ±0.0 |
12 משימות (5 דומיינים · 5 ערכאות)
תוכן המשימות (prompt, ground truth, פלטים) פרטי — מונע train-on-test contamination. רק metadata פתוח: id, דומיין, ערכאה, מורכבות.
| # | task_id | דומיין | ערכאה | מורכבות | track |
|---|---|---|---|---|---|
| 1 | synth_001_inheritance_will_contest | ירושה | מחוזי | very_high | track2_strategic_pkg |
| 2 | synth_002_inheritance_intestate | ירושה | משפחה | high | track2_strategic_pkg |
| 3 | synth_003_contract_breach_real_estate | חוזים | מחוזי | high | track2_strategic_pkg |
| 4 | synth_004_contract_employment_termination | חוזים | עבודה | medium | track2_strategic_pkg |
| 5 | synth_005_contract_franchise_dispute | חוזים | מחוזי | very_high | track2_strategic_pkg |
| 6 | synth_006_tort_medical_malpractice | נזיקין | מחוזי | very_high | track2_strategic_pkg |
| 7 | synth_007_tort_motor_vehicle | נזיקין | שלום | medium | track2_strategic_pkg |
| 8 | synth_008_tort_defamation | נזיקין | מחוזי | high | track2_strategic_pkg |
| 9 | synth_009_family_divorce_property | משפחה | משפחה | high | track2_strategic_pkg |
| 10 | synth_010_family_custody | משפחה | משפחה | very_high | track2_strategic_pkg |
| 11 | synth_011_administrative_planning_objection | מנהלי | מחוזי | high | track2_strategic_pkg |
| 12 | synth_012_administrative_freedom_of_information | מנהלי | מנהלי | medium | track2_strategic_pkg |
תוצאות פר-משימה — הערכת holdout (12 משימות × 4 מערכות)
| task_id | מורכבות |
Hammurabi
|
Claude Opus 4.7
|
GPT-5.4 (ChatGPT)
|
Gemini 3 Pro
|
|---|---|---|---|---|---|
| synth_001_inheritance_will_contest | very_high | 405/470 | 74/470 | 68/470 | 56/470 |
| synth_002_inheritance_intestate | high | 396/470 | 72/470 | 69/470 | 51/470 |
| synth_003_contract_breach_real_estate | high | 396/470 | 76/470 | 67/470 | 50/470 |
| synth_004_contract_employment_termination | medium | 400/470 | 72/470 | 72/470 | 54/470 |
| synth_005_contract_franchise_dispute | very_high | 401/470 | 75/470 | 72/470 | 51/470 |
| synth_006_tort_medical_malpractice | very_high | 388/470 | 76/470 | 75/470 | 52/470 |
| synth_007_tort_motor_vehicle | medium | 402/470 | 74/470 | 73/470 | 52/470 |
| synth_008_tort_defamation | high | 400/470 | 77/470 | 65/470 | 51/470 |
| synth_009_family_divorce_property | high | 395/470 | 79/470 | 76/470 | 55/470 |
| synth_010_family_custody | very_high | 401/470 | 77/470 | 77/470 | 54/470 |
| synth_011_administrative_planning_objection | high | 402/470 | 73/470 | 69/470 | 52/470 |
| synth_012_administrative_freedom_of_information | medium | 392/470 | 79/470 | 75/470 | 52/470 |
מה עוד דרוש כדי שזה יהיה מדד שלם
מדד אמין מציג גם את חולשותיו. אלה הפערים שאנו מודעים להם — ופותרים בהמשך:
- ·baseline אנושי. הלקוח שוקל בין המערכת לליטיגטור הבכיר שלו, לא ל-LLM גולמי. נדרשת עמודת "עו"ד בכיר, ~4 שעות עבודה" על אותם תיקים ואותם scorers — הבדיקה העיוורת האמיתית.
- ·baseline של LLM מתוזמר. לוח B משווה אורקסטרציה רב-שלבית מול קריאה בודדת. השוואה הוגנת תיתן ל-GPT/Claude אותו prompt-מערכת, אותה מתודולוגיה ואותה גישת RAG — ורק אז יימדד מה הצנרת באמת מוסיפה.
- ·n=5 הוא אנקדוטה, לא סטטיסטיקה. הצירים העיקריים מבוססים על מדגם קטן מדי למובהקות. נדרשת הרחבה + רווחי-סמך (bootstrap).
- ·ביסוס בהיקף-מלא בודק קיום; תמיכה נמדדת בקנה-מידה קטן. ציטוט אמיתי שמובא לפרופוזיציה הפוכה הוא כשל חמור כמו הזיה. ציר ② (אינדקס ~71 אלף פסקי דין) בודק קיום. בדיקת תמיכה כבר פעילה ב-Track 3 (Q2 — verdict מול לשון הסעיף: מאומת/חלקי/אינו-תומך/יושם-בשגיאה), אך על מדגם קטן; הצעד הבא הוא להרחיב את בדיקת התמיכה להיקף-המלא.
- ·אודית חיצוני חתום. "מזמינים הרצה בלתי-תלויה" שווה אפס מול רוכש. היעד: גורם שלישי ניטרלי (קליניקה אוניברסיטאית / עו"ד בכיר) שמריץ וחותם. עד אז — הנתונים והקוד פתוחים לאימות עצמאי.