מדד השכנוע המשפטי
Israeli Law Persuasion Index
לוח תוצאות · ריצה חיה

מדד השכנוע המשפטי הישראלי

אותו כתב טענות מוזן לכל מערכת בינה מלאכותית — וכולן נמדדות על אותם scorers אובייקטיביים. התוצאות מדברות בעד עצמן.

10 כתבי טענות · 7 פורומים · 4 מערכות · אימות מול ~71K פסקי דין מצוטטים
A
אמינות אסמכתאות · ההשוואה ההוגנת

האם המערכת ממציאה פסיקה?

הציר היחיד שבו ההשוואה סימטרית: כל המערכות מצטטות, וכולן נבדקות מול אינדקס חיצוני של ~71 אלף פסקי דין. בינארי, ניתן לאימות, ומתיישב עם הספרות על הזיות משפטיות.

מערכת ביסוסאחוז האסמכתאות שאכן קיימות במאגר (~71 אלף פסקי דין). 0% = כל הציטוטים בדויים. הזיותסך פסקי הדין הבדויים — שאינם קיימים כלל — שהמערכת המציאה על פני התיקים. 0 = אפס המצאות.
חמורבי
ניתוח CA מלא
85.0%
0
GPT-5.4
גולמי
51.6%
11
Claude Sonnet 4.6
גולמי
68.6%
18

ניואנס: כשחמורבי אינו בטוח בציטוט הוא נסוג ל"חוקים מאומתים בלבד" — האפס מושג בהימנעות מודעת, לא במזל. פירוט לפי תיק למטה.

לוח A · פירוט לפי תיק

אמינות אסמכתאות — הנתונים הגולמיים

① הזיות — אסמכתאות שהומצאו

מספר פסקי הדין שהמערכת ציטטה אך אינם קיימים באינדקס הפסיקה (~71 אלף פסקי דין מצוטטים).

תיקפורום חמורבי GPT-5.4 Claude S4.6
חוזים עליון 0 2 3
משפחה עליון 0 1 0
נזיקין מחוזי 0 1 0
מסים מחוזי (ערעורי מס) 0 5 5
ליקויי בנייה שלום 0 2 10

סריקה נוספת — 5 תחומים שנמדדו על LLM בלבד, להראות את רוחב תופעת ההמצאה:

תיקפורום GPT-5.4 Claude S4.6
עבודה ביה"ד לעבודה 0 2
תאגידים §191 מחלקה כלכלית 1 4
מכרזים עניינים מנהליים 1 5
אכיפת פס"ח מחוזי 1 1
חדלות פירעון 2018 מחוזי 1 9
מסקנה: ה-LLM הגולמי ממציא אסמכתאות בתחומים נישתיים — GPT המציא 5 מתוך 5 בתיק מס, Claude המציא 10 מתוך 13 בליקויי בנייה ו-9 מתוך 11 בחדלות פירעון. חמורבי: 0 הזיות — לפי תכנון, כל ציטוט מאומת לפני שהוא נכנס.

② ביסוס — אחוז ציטוטים מאומתים

מתוך כלל האסמכתאות, כמה קיימות באמת. 0% = כל הציטוטים בדויים. (5 התיקים שחמורבי הורץ עליהם.)

תיק חמורבי GPT-5.4 Claude S4.6
חוזים 70.0% 83.3% 70.0%
משפחה 100.0% 85.7% 100.0%
נזיקין חוקים ✓ 88.9% 100.0%
מסים חוקים ✓ 0% 50.0%
ליקויי בנייה חוקים ✓ 0% 23.1%
מסקנה: LLM יכול לקבל ציון גבוה על תיק מפורסם (הוא מכיר את "ועקנין") אך לקרוס ל-0% על דין נישתי — ואי אפשר לדעת מראש. חמורבי לעולם לא יורד לאפס: כשאינו בטוח הוא נשען על חוקים מאומתים ("חוקים ✓") במקום להמציא.
B
מה הצנרת מוסיפה · הדגמת יכולת

Track 2 ו-Track 3 — לא תחרות, הדגמה

גילוי נאות (חשוב): הצירים כאן נגזרים מארכיטקטורה רב-שלבית. ה-scorer בודק כמה שדות-עבודה מאוכלסים (תרחישים, סימולציית-יריב, סיכונים) — שדות שהצנרת של חמורבי תוכננה למלא, ו-Track 3 דורש בסיסי-שיעור ורשת-תקדימים שקיימים רק במאגר. לכן ההפרש כאן ידוע מראש: מודל גולמי מקבל ציון נמוך מבנית, לא בביצוע. זו הדגמת יכולת של הצנרת, ולא השוואה סימטרית. ההשוואה ההוגנת היא לוח A למעלה. השוואה הוגנת ל-Track 2 תדרוש baseline של LLM מתוזמר (אותו prompt-מערכת + RAG) — ר' מגבלות למטה.

③ שלמות תוצר העבודה האסטרטגי (מתוך 80)

כמה החבילה האסטרטגית מאוכלסת: תרחישי פסיקה, סימולציית יריב, war-gaming, נקודות תורפה, רישום סיכונים.

תיק חמורבי GPT-5.4 Claude S4.6
חוזים
76%
28.8%
13.8%
משפחה
80%
28.8%
15.0%
נזיקין
81%
28.8%
11.2%
מסים
83.8%
28.8%
16.2%
ליקויי בנייה
80.0%
28.8%
16.2%
מסקנה: חמורבי בממוצע 79% מול ~28.8% של GPT. שימו לב ש-GPT מקבל בדיוק 28.8% בכל תיק — זה אינו מקרי: הוא מחזיר את אותו שלד מבני בכל מקרה (ממלא את אותם שדות, ללא התאמה לתיק). זהו ממצא בפני עצמו. הוגן לציין שזו השוואה בין מערכת מלאה (43 שלבי ניתוח) לבין קריאה בודדת; המספר משקף את תוצר העבודה שמשתמש מקבל בפועל, לא "מנת משכל" של המודל.

⑤ עיגון ברשת הידע Track 3 · /40

עיגון בנתונים מקושרים מהקורפוס: שיעורי-הצלחה פר-ערכאה וכיול-פורום (Q1), תמיכת-דין והגרסה בתוקף (Q2), ותקדימים/טקטיקות מול הערכאה (Q3). פירוט הניקוד.

תיק חמורבי GPT-5.4 Claude S4.6
חוזים 95% 0% 0%
משפחה 95% 0% 0%
נזיקין 88% 0% 0%
מסים 88% 0% 0%
ליקויי בנייה 88% 0% 0%
ממוצע 90.8% 0% 0%

ציר מבוסס-קורפוס: דורש שיעורי-הצלחה פר-ערכאה, תמיכת-דין ורשת-תקדימים — שאינם זמינים למודל ללא חיבור למאגר. ניקוד: scorers/cluster_q_knowledge_network.py.

ספֵק מלא · 570 נק'

תוצאות הספֵק המלא — 12 משימות × 4 מערכות

הציונים על פני ספֵק ה-v2 המלא (Part A 100 + Part B 470 = 570). הקלט מבוקר ורפרודוקטיבי (RNG seed קבוע) — הרצה חוזרת מניבה ציונים זהים, תכונה של מדד תקף.

Aggregate · ספֵק מלא 570

סיכום פר-מערכת — ממוצע על 12 משימות

generated: 2026-06-16T21:40:12 UTC · RNG seed: 20260505 · schema: v2.0-phase1-synthetic · 48 ציונים (12 משימות × 4 מערכות) · Part A (100) + Part B (470) = 570
מערכת חלק B mean
/470
σ (std) min / max %
Hammurabi
Hammurabi.pro
421.2
±4.86 411 / 428 89.6%
Claude Opus 4.7
Anthropic
100.3
±2.42 97 / 104 21.3%
GPT-5.4 (ChatGPT)
OpenAI
91.5
±3.87 85 / 97 19.5%
Gemini 3 Pro
Google
75.5
±1.83 73 / 79 16.1%

ממוצע per-cluster על 12 משימות

אשכול /max
Hammurabi
Claude Opus 4.7
GPT-5.4 (ChatGPT)
Gemini 3 Pro
E · כיול סטטיסטי לערכאה 60 60 ±0.0 0 ±0.0 0 ±0.0 0 ±0.0
F · התאמה לערכאה 40 40 ±0.0 10 ±0.0 10 ±0.0 10 ±0.0
G · חשיבה מול היריב 50 31 ±0.0 5 ±0.0 5 ±0.0 0 ±0.0
H · אמינות הציטוטים 40 34.2 ±5.93 0 ±0.0 0 ±0.0 0 ±0.0
I · הנדסת מבנה כתב טענות 40 35 ±0.0 35 ±0.0 35 ±0.0 35 ±0.0
J · אסטרטגיית התיק 35 33.3 ±2.06 0 ±0.0 0 ±0.0 0 ±0.0
K · עקביות הניתוח בתיקים דומים 35 23 ±0 25 ±0 20 ±0 23 ±0
L · איכות הטיעון המשפטי 40 40 ±0.0 0 ±0.0 0 ±0.0 0 ±0.0
M · תוצרים מעשיים לעורך-הדין 40 40 ±0.0 14 ±2.92 13.4 ±1.38 5.5 ±1.83
N · קוהרנטיות הנרטיב המשפטי 30 27.6 ±1.38 2 ±0.0 2 ±0.0 2 ±0.0
O · איפיון רמת ודאות התשובה 30 27 ±2.22 0 ±0.0 0 ±0.0 0 ±0.0
P · הגנה על חיסיון וסודיות לקוח 30 30 ±0.0 9.3 ±1.56 6.1 ±3.15 0 ±0.0
צבעים: ירוק ≥70%, ענבר ≥30%, אדום <30%, אפור = 0. ערכים מציגים mean ± std-dev על 12 משימות.

12 משימות (5 דומיינים · 5 ערכאות)

תוכן המשימות (prompt, ground truth, פלטים) פרטי — מונע train-on-test contamination. רק metadata פתוח: id, דומיין, ערכאה, מורכבות.

# task_id דומיין ערכאה מורכבות track
1 synth_001_inheritance_will_contest ירושה מחוזי very_high track2_strategic_pkg
2 synth_002_inheritance_intestate ירושה משפחה high track2_strategic_pkg
3 synth_003_contract_breach_real_estate חוזים מחוזי high track2_strategic_pkg
4 synth_004_contract_employment_termination חוזים עבודה medium track2_strategic_pkg
5 synth_005_contract_franchise_dispute חוזים מחוזי very_high track2_strategic_pkg
6 synth_006_tort_medical_malpractice נזיקין מחוזי very_high track2_strategic_pkg
7 synth_007_tort_motor_vehicle נזיקין שלום medium track2_strategic_pkg
8 synth_008_tort_defamation נזיקין מחוזי high track2_strategic_pkg
9 synth_009_family_divorce_property משפחה משפחה high track2_strategic_pkg
10 synth_010_family_custody משפחה משפחה very_high track2_strategic_pkg
11 synth_011_administrative_planning_objection מנהלי מחוזי high track2_strategic_pkg
12 synth_012_administrative_freedom_of_information מנהלי מנהלי medium track2_strategic_pkg
תוצאות פר-משימה — הערכת holdout (12 משימות × 4 מערכות)
task_id מורכבות
Hammurabi
Claude Opus 4.7
GPT-5.4 (ChatGPT)
Gemini 3 Pro
synth_001_inheritance_will_contest very_high 405/470 74/470 68/470 56/470
synth_002_inheritance_intestate high 396/470 72/470 69/470 51/470
synth_003_contract_breach_real_estate high 396/470 76/470 67/470 50/470
synth_004_contract_employment_termination medium 400/470 72/470 72/470 54/470
synth_005_contract_franchise_dispute very_high 401/470 75/470 72/470 51/470
synth_006_tort_medical_malpractice very_high 388/470 76/470 75/470 52/470
synth_007_tort_motor_vehicle medium 402/470 74/470 73/470 52/470
synth_008_tort_defamation high 400/470 77/470 65/470 51/470
synth_009_family_divorce_property high 395/470 79/470 76/470 55/470
synth_010_family_custody very_high 401/470 77/470 77/470 54/470
synth_011_administrative_planning_objection high 402/470 73/470 69/470 52/470
synth_012_administrative_freedom_of_information medium 392/470 79/470 75/470 52/470
מגבלות · בכנות

מה עוד דרוש כדי שזה יהיה מדד שלם

מדד אמין מציג גם את חולשותיו. אלה הפערים שאנו מודעים להם — ופותרים בהמשך:

מתודולוגיה: כל מערכת קיבלה את אותו כתב טענות ונוקדה על אותם scorers דטרמיניסטיים. בדיקת קיום מול אינדקס ~71 אלף פסקי דין מצוטטים. ה-LLMs רצו בקריאה בודדת; "חמורבי" = ניתוח רב-שלבי מלא. Gemini 2.5 הוחרג מהלוחות — ריצתו נקטעה ב-timeout ונאספו נתונים חלקיים בלבד. פירוט המתודולוגיה המלא.
גילוי נאות: מדד שכנוע משפטי פותח ומופעל על-ידי Hammurabi, שאחת מהמערכות הנמדדות היא שלו. הנתונים גולמיים, ה-scorers פתוחים (/api/results), ואודית חיצוני חתום מתוכנן.