לוח תוצאות · ריצה חיה

מדד השכנוע המשפטי הישראלי

אותו כתב טענות מוזן לכל מערכת בינה מלאכותית — וכולן נמדדות על אותם scorers אובייקטיביים. התוצאות מדברות בעד עצמן.

10 כתבי טענות · 7 פורומים · 4 מערכות · אימות מול ~71K פסקי דין מצוטטים

אמינות אסמכתאות · ההשוואה ההוגנת

האם המערכת ממציאה פסיקה?

הציר היחיד שבו ההשוואה סימטרית: כל המערכות מצטטות, וכולן נבדקות מול אינדקס חיצוני של ~71 אלף פסקי דין. בינארי, ניתן לאימות, ומתיישב עם הספרות על הזיות משפטיות.

מערכת	ביסוסאחוז האסמכתאות שאכן קיימות במאגר (~71 אלף פסקי דין). 0% = כל הציטוטים בדויים.	הזיותסך פסקי הדין הבדויים — שאינם קיימים כלל — שהמערכת המציאה על פני התיקים. 0 = אפס המצאות.
חמורבי ניתוח CA מלא	85.0%	0
GPT-5.4 גולמי	51.6%	11
Claude Sonnet 4.6 גולמי	68.6%	18

ניואנס: כשחמורבי אינו בטוח בציטוט הוא נסוג ל"חוקים מאומתים בלבד" — האפס מושג בהימנעות מודעת, לא במזל. פירוט לפי תיק למטה.

לוח A · פירוט לפי תיק

אמינות אסמכתאות — הנתונים הגולמיים

① הזיות — אסמכתאות שהומצאו

מספר פסקי הדין שהמערכת ציטטה אך אינם קיימים באינדקס הפסיקה (~71 אלף פסקי דין מצוטטים).

תיק	פורום	GPT-5.4	Claude S4.6
חוזים	עליון	2	3
משפחה	עליון	1	0
נזיקין	מחוזי	1	0
מסים	מחוזי (ערעורי מס)	5	5
ליקויי בנייה	שלום	2	10

סריקה נוספת — 5 תחומים שנמדדו על LLM בלבד, להראות את רוחב תופעת ההמצאה:

תיק	פורום	GPT-5.4	Claude S4.6
עבודה	ביה"ד לעבודה	0	2
תאגידים §191	מחלקה כלכלית	1	4
מכרזים	עניינים מנהליים	1	5
אכיפת פס"ח	מחוזי	1	1
חדלות פירעון 2018	מחוזי	1	9

מסקנה: ה-LLM הגולמי ממציא אסמכתאות בתחומים נישתיים — GPT המציא 5 מתוך 5 בתיק מס, Claude המציא 10 מתוך 13 בליקויי בנייה ו-9 מתוך 11 בחדלות פירעון. חמורבי: 0 הזיות — לפי תכנון, כל ציטוט מאומת לפני שהוא נכנס.

② ביסוס — אחוז ציטוטים מאומתים

מתוך כלל האסמכתאות, כמה קיימות באמת. 0% = כל הציטוטים בדויים. (5 התיקים שחמורבי הורץ עליהם.)

תיק	חמורבי	GPT-5.4	Claude S4.6
חוזים	70.0%	83.3%	70.0%
משפחה	100.0%	85.7%	100.0%
נזיקין	חוקים ✓	88.9%	100.0%
מסים	חוקים ✓	0%	50.0%
ליקויי בנייה	חוקים ✓	0%	23.1%

מסקנה: LLM יכול לקבל ציון גבוה על תיק מפורסם (הוא מכיר את "ועקנין") אך לקרוס ל-0% על דין נישתי — ואי אפשר לדעת מראש. חמורבי לעולם לא יורד לאפס: כשאינו בטוח הוא נשען על חוקים מאומתים ("חוקים ✓") במקום להמציא.

מה הצנרת מוסיפה · הדגמת יכולת

Track 2 ו-Track 3 — לא תחרות, הדגמה

גילוי נאות (חשוב): הצירים כאן נגזרים מארכיטקטורה רב-שלבית. ה-scorer בודק כמה שדות-עבודה מאוכלסים (תרחישים, סימולציית-יריב, סיכונים) — שדות שהצנרת של חמורבי תוכננה למלא, ו-Track 3 דורש בסיסי-שיעור ורשת-תקדימים שקיימים רק במאגר. לכן ההפרש כאן ידוע מראש: מודל גולמי מקבל ציון נמוך מבנית, לא בביצוע. זו הדגמת יכולת של הצנרת, ולא השוואה סימטרית. ההשוואה ההוגנת היא לוח A למעלה. השוואה הוגנת ל-Track 2 תדרוש baseline של LLM מתוזמר (אותו prompt-מערכת + RAG) — ר' מגבלות למטה.

③ שלמות תוצר העבודה האסטרטגי (מתוך 80)

כמה החבילה האסטרטגית מאוכלסת: תרחישי פסיקה, סימולציית יריב, war-gaming, נקודות תורפה, רישום סיכונים.

תיק	חמורבי	GPT-5.4	Claude S4.6
חוזים	76%	28.8%	13.8%
משפחה	80%	28.8%	15.0%
נזיקין	81%	28.8%	11.2%
מסים	83.8%	28.8%	16.2%
ליקויי בנייה	80.0%	28.8%	16.2%

מסקנה: חמורבי בממוצע 79% מול ~28.8% של GPT. שימו לב ש-GPT מקבל בדיוק 28.8% בכל תיק — זה אינו מקרי: הוא מחזיר את אותו שלד מבני בכל מקרה (ממלא את אותם שדות, ללא התאמה לתיק). זהו ממצא בפני עצמו. הוגן לציין שזו השוואה בין מערכת מלאה (43 שלבי ניתוח) לבין קריאה בודדת; המספר משקף את תוצר העבודה שמשתמש מקבל בפועל, לא "מנת משכל" של המודל.

⑤ עיגון ברשת הידע Track 3 · /40

עיגון בנתונים מקושרים מהקורפוס: שיעורי-הצלחה פר-ערכאה וכיול-פורום (Q1), תמיכת-דין והגרסה בתוקף (Q2), ותקדימים/טקטיקות מול הערכאה (Q3). פירוט הניקוד.

תיק	חמורבי	GPT-5.4	Claude S4.6
חוזים	95%	0%	0%
משפחה	95%	0%	0%
נזיקין	88%	0%	0%
מסים	88%	0%	0%
ליקויי בנייה	88%	0%	0%
ממוצע	90.8%	0%	0%

ציר מבוסס-קורפוס: דורש שיעורי-הצלחה פר-ערכאה, תמיכת-דין ורשת-תקדימים — שאינם זמינים למודל ללא חיבור למאגר. ניקוד: scorers/cluster_q_knowledge_network.py.

ספֵק מלא · 570 נק'

תוצאות הספֵק המלא — 12 משימות × 4 מערכות

הציונים על פני ספֵק ה-v2 המלא (Part A 100 + Part B 470 = 570). הקלט מבוקר ורפרודוקטיבי (RNG seed קבוע) — הרצה חוזרת מניבה ציונים זהים, תכונה של מדד תקף.

Aggregate · ספֵק מלא 570

סיכום פר-מערכת — ממוצע על 12 משימות

generated: 2026-06-16T21:40:12 UTC · RNG seed: 20260505 · schema: v2.0-phase1-synthetic · 48 ציונים (12 משימות × 4 מערכות) · Part A (100) + Part B (470) = 570

מערכת	חלק B mean /470	σ (std)	min / max	%
Hammurabi Hammurabi.pro	421.2	±4.86	411 / 428	89.6%
Claude Opus 4.7 Anthropic	100.3	±2.42	97 / 104	21.3%
GPT-5.4 (ChatGPT) OpenAI	91.5	±3.87	85 / 97	19.5%
Gemini 3 Pro Google	75.5	±1.83	73 / 79	16.1%

ממוצע per-cluster על 12 משימות

אשכול	/max	Hammurabi	Claude Opus 4.7	GPT-5.4 (ChatGPT)	Gemini 3 Pro
E · כיול סטטיסטי לערכאה	60	60 ±0.0	0 ±0.0	0 ±0.0	0 ±0.0
F · התאמה לערכאה	40	40 ±0.0	10 ±0.0	10 ±0.0	10 ±0.0
G · חשיבה מול היריב	50	31 ±0.0	5 ±0.0	5 ±0.0	0 ±0.0
H · אמינות הציטוטים	40	34.2 ±5.93	0 ±0.0	0 ±0.0	0 ±0.0
I · הנדסת מבנה כתב טענות	40	35 ±0.0	35 ±0.0	35 ±0.0	35 ±0.0
J · אסטרטגיית התיק	35	33.3 ±2.06	0 ±0.0	0 ±0.0	0 ±0.0
K · עקביות הניתוח בתיקים דומים	35	23 ±0	25 ±0	20 ±0	23 ±0
L · איכות הטיעון המשפטי	40	40 ±0.0	0 ±0.0	0 ±0.0	0 ±0.0
M · תוצרים מעשיים לעורך-הדין	40	40 ±0.0	14 ±2.92	13.4 ±1.38	5.5 ±1.83
N · קוהרנטיות הנרטיב המשפטי	30	27.6 ±1.38	2 ±0.0	2 ±0.0	2 ±0.0
O · איפיון רמת ודאות התשובה	30	27 ±2.22	0 ±0.0	0 ±0.0	0 ±0.0
P · הגנה על חיסיון וסודיות לקוח	30	30 ±0.0	9.3 ±1.56	6.1 ±3.15	0 ±0.0

צבעים: ירוק ≥70%, ענבר ≥30%, אדום <30%, אפור = 0. ערכים מציגים mean ± std-dev על 12 משימות.

12 משימות (5 דומיינים · 5 ערכאות)

תוכן המשימות (prompt, ground truth, פלטים) פרטי — מונע train-on-test contamination. רק metadata פתוח: id, דומיין, ערכאה, מורכבות.

#	task_id	דומיין	ערכאה	מורכבות	track
1	synth_001_inheritance_will_contest	ירושה	מחוזי	very_high	track2_strategic_pkg
2	synth_002_inheritance_intestate	ירושה	משפחה	high	track2_strategic_pkg
3	synth_003_contract_breach_real_estate	חוזים	מחוזי	high	track2_strategic_pkg
4	synth_004_contract_employment_termination	חוזים	עבודה	medium	track2_strategic_pkg
5	synth_005_contract_franchise_dispute	חוזים	מחוזי	very_high	track2_strategic_pkg
6	synth_006_tort_medical_malpractice	נזיקין	מחוזי	very_high	track2_strategic_pkg
7	synth_007_tort_motor_vehicle	נזיקין	שלום	medium	track2_strategic_pkg
8	synth_008_tort_defamation	נזיקין	מחוזי	high	track2_strategic_pkg
9	synth_009_family_divorce_property	משפחה	משפחה	high	track2_strategic_pkg
10	synth_010_family_custody	משפחה	משפחה	very_high	track2_strategic_pkg
11	synth_011_administrative_planning_objection	מנהלי	מחוזי	high	track2_strategic_pkg
12	synth_012_administrative_freedom_of_information	מנהלי	מנהלי	medium	track2_strategic_pkg

תוצאות פר-משימה — הערכת holdout (12 משימות × 4 מערכות)

task_id	מורכבות	Hammurabi	Claude Opus 4.7	GPT-5.4 (ChatGPT)	Gemini 3 Pro
synth_001_inheritance_will_contest	very_high	405/470	74/470	68/470	56/470
synth_002_inheritance_intestate	high	396/470	72/470	69/470	51/470
synth_003_contract_breach_real_estate	high	396/470	76/470	67/470	50/470
synth_004_contract_employment_termination	medium	400/470	72/470	72/470	54/470
synth_005_contract_franchise_dispute	very_high	401/470	75/470	72/470	51/470
synth_006_tort_medical_malpractice	very_high	388/470	76/470	75/470	52/470
synth_007_tort_motor_vehicle	medium	402/470	74/470	73/470	52/470
synth_008_tort_defamation	high	400/470	77/470	65/470	51/470
synth_009_family_divorce_property	high	395/470	79/470	76/470	55/470
synth_010_family_custody	very_high	401/470	77/470	77/470	54/470
synth_011_administrative_planning_objection	high	402/470	73/470	69/470	52/470
synth_012_administrative_freedom_of_information	medium	392/470	79/470	75/470	52/470

מגבלות · בכנות

מה עוד דרוש כדי שזה יהיה מדד שלם

מדד אמין מציג גם את חולשותיו. אלה הפערים שאנו מודעים להם — ופותרים בהמשך:

·
baseline אנושי. הלקוח שוקל בין המערכת לליטיגטור הבכיר שלו, לא ל-LLM גולמי. נדרשת עמודת "עו"ד בכיר, ~4 שעות עבודה" על אותם תיקים ואותם scorers — הבדיקה העיוורת האמיתית.
·
baseline של LLM מתוזמר. לוח B משווה אורקסטרציה רב-שלבית מול קריאה בודדת. השוואה הוגנת תיתן ל-GPT/Claude אותו prompt-מערכת, אותה מתודולוגיה ואותה גישת RAG — ורק אז יימדד מה הצנרת באמת מוסיפה.
·
n=5 הוא אנקדוטה, לא סטטיסטיקה. הצירים העיקריים מבוססים על מדגם קטן מדי למובהקות. נדרשת הרחבה + רווחי-סמך (bootstrap).
·
ביסוס בהיקף-מלא בודק קיום; תמיכה נמדדת בקנה-מידה קטן. ציטוט אמיתי שמובא לפרופוזיציה הפוכה הוא כשל חמור כמו הזיה. ציר ② (אינדקס ~71 אלף פסקי דין) בודק קיום. בדיקת תמיכה כבר פעילה ב-Track 3 (Q2 — verdict מול לשון הסעיף: מאומת/חלקי/אינו-תומך/יושם-בשגיאה), אך על מדגם קטן; הצעד הבא הוא להרחיב את בדיקת התמיכה להיקף-המלא.
·
אודית חיצוני חתום. "מזמינים הרצה בלתי-תלויה" שווה אפס מול רוכש. היעד: גורם שלישי ניטרלי (קליניקה אוניברסיטאית / עו"ד בכיר) שמריץ וחותם. עד אז — הנתונים והקוד פתוחים לאימות עצמאי.

מתודולוגיה: כל מערכת קיבלה את אותו כתב טענות ונוקדה על אותם scorers דטרמיניסטיים. בדיקת קיום מול אינדקס ~71 אלף פסקי דין מצוטטים. ה-LLMs רצו בקריאה בודדת; "חמורבי" = ניתוח רב-שלבי מלא. Gemini 2.5 הוחרג מהלוחות — ריצתו נקטעה ב-timeout ונאספו נתונים חלקיים בלבד. פירוט המתודולוגיה המלא.

גילוי נאות: מדד שכנוע משפטי פותח ומופעל על-ידי Hammurabi, שאחת מהמערכות הנמדדות היא שלו. הנתונים גולמיים, ה-scorers פתוחים (/api/results), ואודית חיצוני חתום מתוכנן.