מתודולוגיה

איך מנקדים

הניקוד בנוי משני מסלולים, פלוס שני ממדי-אמינות עצמאיים שנמדדים מול מאגר הפסיקה:

Track 1 — איכות הניסוח (100 נק'): שבעה אשכולות (A–G) הבודקים את כתב הטענות עצמו.
Track 2 — החבילה האסטרטגית (80 נק'): שישה אשכולות (H–M) הבודקים את הניתוח שמסביב לטקסט.
Track 3 — עיגון ברשת הידע (40 נק') חדש · המוט: רשת הקשרים בין מיליוני נתונים — ערכאות וסוגי-עניין, דינים, ופסיקה/טקטיקות מנצחות מול ערכאה ספציפית. הציר שמודל מנותק-מקורפוס אינו מייצר.
ביסוס — אחוז הציטוטים שאכן קיימים במאגר (~71 אלף פסקי דין מצוטטים).
תמיכה — האם הפסק הנקוב תומך בטענה שהוא מגויס אליה, ולא רק קיים.

תקרת ההזיות

אסמכתא מומצאת אחת ⇒ ציון Track 1 נחתך ל-50/100

פסק דין שאינו קיים, סעיף חוק שלא נכתב, מספר תיק שלא נמצא — אם המערכת המציאה ולו אסמכתא אחת, התקרה היא 50 גם אם שאר Track 1 מושלם. זו הזכות הבסיסית: שלא יוגש לבית המשפט מסמך עם פסיקה שלא קיימת.

Track 1 · 100 נק'

איכות הניסוח

A · שלמות ציטוטים

22 נק'

כל אסמכתא קיימת במאגר (אנטי-הזיה)
דיוק סעיפי חוק וכותרות תיק
פורמט ציטוט קנוני (ע"א 1234/56 שם נ' שם, פ"ד לב(1) 100)

B · עמידה פרוצדורלית

18 נק'

כל הסעיפים החובה: כותרת, צדדים, רקע, טענות, סעד, חתימה
חתימה תקנית + נספחים מסונכרנים

C · סגנון ישראלי

12 נק'

טרמינולוגיה משפטית מתאימה
פורמט עברי תקני ללא סימני עיצוב זרים
מספור פסקאות עברי (א, ב, ג…)

D · איכות הטיעון

16 נק'

עילה מנומקת מפורשות
הוכחה אלמנט-אחר-אלמנט
סדר עדיפויות — הטיעון החזק קודם

E · כיול לערכאה

12 נק'

טון ורגיסטר מתאימים לערכאה
מודעות-פורום: פנייה לערכאה הספציפית
כיבוד שיקול דעת הערכאה — לא מכתיב לה את התוצאה

F · אסטרטגי

12 נק'

חוזק טיעוני ומודעות לנקודות תורפה
הצבת הטיעונים בהקשר אסטרטגי

G · בטיחות

8 נק'

אין דליפת שמות אמיתיים מהקלט לפלט
דחיית קלט פגום במקום פלט שגוי

מה נמדד אוטומטית בלוח: אשכולות A, B, C, E (פורום), G — ~60 מתוך 100 הנק' — דטרמיניסטיים ורצים על כל ריצה. אשכולות D ו-F (ואת ה-E המלא) דורשים מודל-בוחן (LLM-as-judge) שאינו חלק מהבייסליין האוטומטי הציבורי (Phase 3). לכן הציון האוטומטי בלוח הוא תת-קבוצה הוגנת — אחוז מהמקסימום הזמין, לא ה-100 המלא. כך גם Harvey מדווח "Answer Quality" כתת-קבוצה.

Track 2 · 80 נק'

החבילה האסטרטגית

מודד את עומק הניתוח שמסביב לטקסט — תכנון, יריב, ראיות, ציטוטים.

H · עומק התוכנית האסטרטגית

20 נק'

נתיב להכרעה + התפלגות הסתברויות
≥5 כרטיסי-פעולה (דחיפות, סיכון ביצוע, מיתון, תרחיש גרוע)
≥5 פריטי סיכון
חוזקות לשימור + שלבי התדיינות עם מועדים

I · ראיות ופרוצדורה

15 נק'

מפת רכישת ראיות
תכנית עדים (שלנו + של היריב)
צמתים פרוצדורליים קריטיים
אסטרטגיית פורום

J · מודיעין-נגד

15 נק'

עומק סימולציית היריב — מהלכים צפויים
אסטרטגיה נגדית תואמת לכל מהלך
war-gaming / זיהוי הטיות

K · נרטיב וקוהרנטיות

10 נק'

תזת-על מאחדת של התיק
קוהרנטיות פנימית של הנרטיב

L · אינטליגנציית ציטוט

10 נק'

מהבדיקה הסמנטית: האם הציטוט תומך בטענה (לא רק קיים)
זיהוי הלכה רלוונטית

M · מדדים השוואתיים

10 נק'

ציוני ביטחון (עובדתי / משפטי / אסטרטגי)
עמדת פשרה: מנוף, רצפה ותקרה, עיתוי

ממדי אמינות

ביסוס ותמיכה — מול מאגר הפסיקה

ביסוס (קיום)

אחוז האסמכתאות שאכן קיימות — אומת מול אינדקס של ~71 אלף פסקי דין מצוטטים. 0% = כל הציטוטים בדויים.

תמיכה (יישום)

לכל ציטוט: 🟢 תומך בטענה · 🟡 קיים אך אינו תומך (יושם שגוי) · 🔵 אין טקסט במאגר (לא ניתן לשפוט) · 🔴 אינו קיים. נמדד מול ~20–40 אלף פסקי דין שטקסטם המלא במאגר.

Track 3 · 40 נק' · עיגון ברשת הידע

רשת הקשרים בין מיליוני נתונים — ערכאות × דינים × פסיקה × טקטיקות

ציר ② מודד אם הציטוט קיים. Track 3 מודד עיגון ברשת היחסים בין מיליוני נתונים מקושרים: ערכאות וסוגי-עניין, דינים (חוקים/תקנות/פקודות), פסיקה והלכות, וטקטיקות שהוכחו מנצחות/מפסידות מול ערכאה ספציפית. בלב הציר — מנוע הסטטיסטיקה הפורנזית: שיעור-ההצלחה של טענה/בקשה מול ערכאה ספציפית או ממוצע-ערכאה (court × case-type × motion). מודל מנותק-מקורפוס אינו מייצר אף אחד מהאותות. ניקוד: scorers/cluster_q_knowledge_network.py.

שאילתת רשת-הידע → "מה הסיכוי של בקשת סילוק על הסף, בבימ"ש שלום, בתביעה חוזית?" → הוגשה ב-3.1% מהתיקים, התקבלה ב-39.6% מאלה שהוכרעו (מתוך 35,652 תיקים).

Q1 · ערכאה וסוג-עניין — סטטיסטיקה פורנזית

15 נק'

בסיסי-שיעור אמיתיים מהקורפוס: שיעור-ההצלחה של טענה/בקשה מול ערכאה ספציפית או ממוצע-ערכאה (court × case-type × motion)
כיול-פורום לעוצמת הטיעון: עד כמה טיעון משכנע מול אותה ערכאה — לא ממוצע גנרי
דורש n משמעותי מהקורפוס; מתחת לסף — לא מנוקד

Q2 · דינים — רשת תחולה

15 נק'

חוקים/תקנות/פקודות: verdict-תמיכה מול לשון הסעיף (מאומת / חלקי / אינו-תומך / יושם-בשגיאה) — לא רק קיום
הגרסה שהייתה בתוקף במועד התיק (סד"א 1984↔2018) — מניעת ציטוט גרסה שבוטלה
קישור סעיף→טיעון: איזה דין חל על איזו טענה

Q3 · פסיקה וטקטיקות — מול הערכאה

10 נק'

תקדימים והלכות מקושרים לערכאה הספציפית (רשת הציטוטים)
טקטיקות ואסטרטגיות שהוכחו מנצחות/מפסידות מול אותה ערכאה — עם אות-תוצאה אמיתי
לא המלצה גנרית — מעוגן במה שעבד שם בפועל

למה זה הציר המכריע

מודל גולמי מקבל 0 ב-Track 3 — לא "מעט", אפס.

אפשר לבקש מ-GPT לכתוב כתב טענות יפה (Track 1) ואפילו תוכנית אסטרטגית (Track 2). אי-אפשר לבקש ממנו מה הסיכוי של בקשת סילוק בשלום על תביעה חוזית, מה עוצמת טיעון מול ערכאה ספציפית, או אילו טקטיקות ניצחו שם בפועל — אין לו חיבור לקורפוס של מיליוני פסקי דין מקושרים. כאן הפער הופך מ"גדול" לקטגורי, וזו הסיבה שהציר מוצג בנפרד ולא מקופל לציון אחד.

שקיפות

כל מערכת מקבלת את אותו כתב טענות ונוקדת על אותם scorers דטרמיניסטיים — הרצה חוזרת מייצרת ציונים זהים. ה-scorers פתוחים לבדיקה; מאגר המשימות פרטי כדי למנוע "אימון על המבחן" — אותו עיקרון של Harvey BigLawBench ו-Vals AI.