הבלוג הזה תומך עכשיו בשפה שלך
אוקיי, יש סיכוי שהוא לא.
למעשה, מכיוון שהבלוג הזה בכוונה לא זמין במנדרינית, ספרדית, הינדי או ערבית, זה סיכוי די גדול.
השארת בכוונה את השפה שלי בחוץ?
כן.
כשהוספתי את אפשרות הלוקליזציה לפני חודשיים, נתתי עדיפות לשפות ש:
- מתורגמות באופן לא מיטבי על ידי שירותי תרגום אלגוריתמיים מעידן טרום-הבינה המלאכותית, במיוחד בכל הנוגע לסוגי התוכן המלאים בז'רגון שיש לי באתר.
- אני מכירה מספיק טוב כדי שאוכל לבדוק את העבודה של Gemini.
- מושכות אותי מבחינה אסתטית ו/או פונולוגית.
אם שפה לא עמדה בכל שלושת הקריטריונים, נאלצתי לדלג עליה.
מנדרינית זה מדהים, אבל אני לא מכירה אותה בכלל.
ספרדית היא כנראה השפה השנייה הכי טובה שלי, אבל אני חושבת שגוגל טרנסלייט די טוב בה. נראה שהוא מתרגם בסדר גמור הלוך ושוב עם אנגלית.
לגבי נקודה 3, אני אוהבת את הצליל של השפות הרומאניות, אבל אני לא ממש חובבת שלהן מבחינה ויזואלית. לסיים יותר מדי מילים בתנועות בדרך כלל פשוט נראה לא נכון, מוזר.
זה לא אומר שלעולם לא אכלול ספרדית או מנדרינית, הן פשוט לא יכולות להיות בעדיפות עבורי כרגע.
אז פשוט לבקש מ-AI לתרגם את הדפים?
כן. ...ולא.
אמנם אני חושבת שלבקש מ-AI לעשות זאת ייתן לפעמים תוצאות טובות יותר מגוגל טרנסלייט, וסיפוק הפלט המוכן מראש הוא עדיין שיפור על פני בזבוז משאבי מחשוב, אני מוצאת ש-AI נוטה לכמה הרגלים רעים:
- המבנה נשמר כמה שיותר ללא אובדן.
- המשמעות הולכת לאיבוד כדי לשמר את המבנה.
במצב הזה, מפסידים מכל הכיוונים. מאבדים משמעות (במיוחד כשמדובר בז'רגון) אבל שומרים על התחביר והמבנה המקוריים של האנגלית.
לכן, ניסיתי לשלב כמה אסטרטגיות שהמצאתי עוד לפני עידן ה-AI.
- לבנות רשימה של כל מונחי הז'רגון שאני חושבת שיהיה להם ערך בוויקיפדיה. (למשל כתב תכוניתי).
- למצוא את המונח המתאים בכל שפה. אם אין אותו בוויקיפדיה, אני מנסה לחפש בפורומים כדי למצוא דוברי שפת אם שדנים באותו מושג.
- להראות ל-Gemini את החלק האנגלי של קובץ הלוקליזציה המתהווה ואת מונחי הז'רגון בשפות המתאימות להם, ואז לבקש ממנו להימנע מ"תרגמזית" (translatese), "לעשות לוקליזציה, לא לתרגם". לבקש שהפלט יהיה מפורמט כך שיתאים לקובץ ה-json הקיים.
- להציג תצוגה מקדימה של ה-json בבלוג שלי באמצעות fiveserver, לבדוק שהז'רגון נכון ושאין שגיאות בוטות שמפריעות להבנה. לתקן שורות על בסיס כל מקרה לגופו.
- להזין את ה-json המלא החדש ל-Gemini אחר, לבקש ממנו למצוא שגיאות שמפריעות להבנה או נשמעות מסורבלות ובכך מקשות על הקריאה, לבקש הסברים ושוב לתקן את החלקים הבעייתיים (במיוחד אם הוא רוצה לשנות את הז'רגון).
אני חושבת שלזה קוראים MTPE.
ב-99% מהמקרים, Gemini טוב ממני בתרגום. לא יכולתי לעשות את זה בלעדיו, אבל הוא צריך הרבה עזרה בדרך. אני מרגישה שהתרגומים שלו עדיין מילוליים מדי, אבל יש לו אוצר מילים שאין לי, ואני חושבת שהוא מאפשר להציע תוכן מספיק נכון כדי שיהיה מובן, בניגוד לתרגום האוטומטי של גוגל טרנסלייט שמגיע עם דפדפני Chromium.
ממה שאני יכולה להגיד, התרגומים מרגישים קצת מסורבלים בכל שפה, אבל גם האנגלית שלי מסורבלת אז אולי הוא פשוט באמת מצליח לתפוס את הקול שלי.
אם אתם קוראים אחת מהשפות שהחלטתי לנסות להציע, אנא יידעו אותי איך אני יכולה לשפר את התרגומים.
האם Gemini עושה גם את תעתיקי ה-Graflect?
כן. (שוב, עם הסתייגויות)
Gemini ממש קולט מהר את Graflect, אבל יש לו כמה מוזרויות.
לדוגמה, Gemini אוהב לכתוב במבטא בריטי. ברצינות. R לא רוטית (שבה ה-R אינה נהגית בסוף הברות), תנועות בסופי מילים במקום R. חיריק קצר ([ɪ]) במקום חיריק מלא ([iː]).
זה היה עקבי ביותר לאורך כל הניסיונות לגרום ל-Gemini להשתמש ב-Graflect.
הייתי מניחה שזה נבע מבעיה בטבלת ה-IPA שלי, אבל בכנות בשלב הזה אני פשוט מאמינה שככה הוא מדבר עכשיו.
הוא גם אוהב להשתמש בגליפים מסוימים מכתבים מומצאים אחרים, וזה ממש חמוד כי לעתים קרובות הוא יגניב את אותם הגליפים כדי להחליף את אותם גליפי Graflect אמיתיים. בהתחלה לא היה לי מושג למה זה קורה בכלל והאמנתי שזו איזושהי בעיה בצד שלי.
חבר שלי אהרון כתב סקריפט שאני משתמשת בו עכשיו ב-VSCode שלי כדי לתפוס את אלה, ואז להתבכיין עליהם ל-Gemini. שום הנדסת פרומפטים מכל סוג שהוא עד כה לא הצליחה לגרום ל-Gemini להפסיק לכלול גליפים שאינם Graflect בפלטים שלו, מלבד פשוט להדביק את הודעת השגיאה ולתת לו הזדמנות לנסות שוב.
כדי לגרום ל-Gemini לכתוב במבטא שלי, הייתי צריכה לתעתק כמה קובצי לוקליזציה בעצמי קודם, (וכדי לעשות זאת יש לי כמה כלים כדי שאוכל לעשות זאת במהירות), אבל ברגע שהיה לו בסיס להתחיל ממנו הוא ממש הצליח יפה להשיל את המבטא הבריטי! כל הכבוד, Gemini!
כל פוסט בבלוג למעט זה של ה-IPA של Graflect אמור להיות 80%-99% Gemini, כמעט ללא שינויים. אני מופתעת שהוא הצליח להסיק כל כך הרבה ממה שסיפקתי. אם אתם סקרנים, נסו לראות אם אתם יכולים לזהות מוזרויות כלשהן שלא קיימות במבטא שלי. אני לא חושבת שתצליחו!
היה משהו ממש מגניב בלגרום ל-Gemini להישמע כמו יאנקי מקונטיקט, ואני שמחה שניסיתי את זה במקום פשוט לשכתב הכל ביד. אם אתם רוצים לנסות את זה בעצמכם, כוונו לכ-800-1200 מילים של טקסט לדוגמה. אני חושבת שזה כל מה ש-Gemini צריך כדי לקלוט מספיק אן-גרמים כדי להסיק את המבטא שלכם.
האם כולם צריכים לעשות את זה?
אה, אולי?
זה מאוד ברור למה בלוגים אישיים הם בדרך כלל חד-לשוניים, ואפילו רוב האתרים. כל דבר עם ניואנסים היה פעם מאוד גוזל זמן לתרגום, ורוב האנשים ממילא קוראים אנגלית. ואז, עם גוגל טרנסלייט, אפשר לקבל בערך את התמצית של כל מה שלא בלינגואה פרנקה העולמית, אז שוב, הרבה עבודה לחינם.
אני חושבת שהאתר שלי הוא אינדיקציה די ברורה לכך שסף הכניסה לעשות את זה נמוך מתמיד, אבל אני אהיה מאוד מופתעת אם בעוד שנה הדפדפנים שלנו לא יוכלו לעשות את זה בשידור חי ובעצמם. הם אולי אפילו ינסחו מחדש דברים באופן שתעדיפו. אומר זאת כך, עם LLMs, זה בעצם אפס עבודה לתרגם את הדף שלך ואתה זוכה לכוונן דברים באופן שלא היה אפשרי קודם, זה ממש מגניב לנסות.
תכל'ס
רציתי שיהיו אפשרויות שפה באתר שלי שישמרו על הז'רגון ויעבירו יותר מהקול שלי (במקרה של Graflect, פונולוגית). הקרדיט מגיע לגוגל ואחרים.
הערות סיום
אני מוצאת של-Graflect יש כמה קשיים, למשל, אני אומרת "" במשפט "".
הצליל "A ב-Accent" אינו מתמשך, אז זה לא נשמע כמו מבטא בריטי, זה בעצם נשמע רגיל כי הוא קצר.
אם אני אומרת can בפני עצמה, או בהקשרים מסוימים כמו תשובה "I can." למישהו, A הופכת ל-.
אז אני לא חושבת שזה ייצוג מושלם של איך שהייתי מדברת, אבל זה קירוב טוב יותר ממה שהכתב הלטיני הפשוט יכול לתת.