Этот блог теперь поддерживает ваш язык
Ну, есть шанс, что нет.
На самом деле, поскольку этот блог намеренно не доступен на мандаринском, испанском, хинди или арабском, этот шанс довольно велик.
Вы намеренно исключили мой язык?
Да.
Когда я добавила опцию локализации два месяца назад, я отдала приоритет тем языкам, которые:
- Переводятся неоптимально с помощью до-ИИ алгоритмических сервисов перевода, особенно в отношении контента, наполненного жаргоном, как на моей странице.
- Я достаточно хорошо знаю, чтобы иметь возможность проверять работу Gemini.
- Привлекают меня эстетически и/или фонологически.
Если язык не соответствовал всем трем критериям, мне приходилось его пропускать.
Мандаринский — потрясающий, но я с ним совсем не знакома.
Испанский, вероятно, мой второй лучший язык, но я думаю, что Google Translate довольно хорошо с ним справляется. Кажется, он прилично переводит туда-сюда с английского.
Что касается пункта 3, я люблю звучание романских языков, но визуально они мне не очень нравятся. Когда слишком много слов оканчиваются на гласные, это создаёт ощущение чего-то неправильного, даже странного.
Это не значит, что я никогда не включу испанский или мандаринский, просто сейчас они не могут быть для меня в приоритете.
Так вы просто просите ИИ переводить страницы для вас?
Да. ...и нет.
Хотя я думаю, что просьба к ИИ сделать это иногда дала бы лучшие результаты, чем Google Translate, и предоставление заранее подготовленного вывода все же является улучшением по сравнению с тратой вычислительных ресурсов, я нахожу, что ИИ тяготеет к некоторым вредным привычкам:
- Структура сохраняется максимально без потерь.
- Смысл теряется в угоду сохранения структуры.
Это самый неудачный вариант, сочетающий недостатки обоих подходов. Вы теряете смысл (особенно когда дело доходит до жаргона), но сохраняете исходный английский синтаксис и структуру.
Поэтому я попыталась применить некоторые стратегии, которые я придумала еще до появления ИИ.
- Составить список любых жаргонных терминов, у которых, как я думаю, должна быть страница в Википедии. (Например, Признаковое письмо).
- Найти соответствующий термин в каждом языке. Если в Википедии его нет, я пытаюсь искать на форумах, чтобы найти носителей языка, обсуждающих ту же концепцию.
- Показать Gemini английскую часть находящегося в разработке файла локализации и жаргонные термины на их соответствующих языках, затем попросить его «избегать „переводянки“», «локализовать, а не переводить». Попросить отформатировать это так, чтобы оно вписалось в существующий json.
- Предварительно просмотреть json в моем блоге с помощью fiveserver, проверить, что жаргон правильный и что нет вопиющих ошибок, мешающих пониманию. Исправлять строки в каждом конкретном случае.
- Подать новый полный json другому Gemini, попросить его найти ошибки, которые мешают пониманию или звучат неловко и, следовательно, затрудняют чтение, попросить объяснений и снова исправить вопиющие части (особенно если он хочет изменить жаргон).
Кажется, это называется MTPE.
В 99% случаев Gemini переводит лучше меня. Я не смогла бы сделать это без него, но ему нужна большая помощь в процессе. Мне кажется, что его переводы все еще слишком буквальны, но у него есть словарный запас, которого у меня нет, и я думаю, он позволяет предлагать контент, который достаточно корректен, чтобы его можно было понять, в отличие от автоматического Google Translate, поставляемого с браузерами на основе Chromium.
Насколько я могу судить, переводы кажутся несколько неловкими на каждом языке, но мой английский тоже неловок, так что, возможно, он просто действительно уловил мой стиль.
Если вы можете читать на любом из языков, которые я решила попытаться предложить, пожалуйста, дайте мне знать, как я могу улучшить переводы.
Gemini делает и транслитерацию Graflect?
Да. (опять же, с оговорками)
Gemini очень быстро осваивает Graflect, но у него есть несколько причуд.
Например, Gemini любит писать с британским акцентом. Серьезно. Неротическое произношение (r не произносится на конце слога), гласные в конце слов вместо «R». Краткое [ɪ] вместо долгого [iː].
Это было чрезвычайно последовательно на протяжении всего времени, когда я заставляла Gemini использовать Graflect.
Я бы предположила, что это произошло в результате проблемы с моей таблицей МФА, но, честно говоря, на данном этапе я просто верю, что он теперь так говорит.
Он также любит использовать определенные глифы из других искусственных письменностей, что очень мило, так как он часто протаскивает одни и те же, чтобы заменить одни и те же настоящие глифы Graflect. Сначала я понятия не имела, почему это вообще происходит, и считала, что это какая-то проблема с моей стороны.
Мой друг Аарон написал скрипт, который я теперь использую в своем VSCode, чтобы отлавливать их, а затем ныть об этом Gemini. Пока что никакая инженерия промптов не смогла заставить Gemini прекратить включать в свои выводы глифы, не относящиеся к Graflect, кроме как просто вставить оповещение о проблеме и дать ему шанс попробовать еще раз.
Чтобы заставить Gemini писать с моим акцентом, мне пришлось сначала транслитерировать несколько файлов локализации (а для этого у меня есть несколько инструментов, чтобы делать это быстро), но как только у него появилась основа для работы, он действительно отлично справился с избавлением от британского акцента! Молодец, Gemini!
Каждый пост в блоге, за исключением поста о МФА Graflect, должен быть на 80%-99% от Gemini, прямо из коробки. Я удивлена, что он смог так много вывести из того немногого, что я предоставила. Если вам интересно, попробуйте найти какие-нибудь странности, которых нет в моём собственном произношении. Не думаю, что у вас получится!
Было что-то действительно крутое в том, чтобы заставить Gemini звучать как янки из Коннектикута, и я рада, что попробовала это, вместо того чтобы просто переписывать все вручную. Если вы хотите попробовать это сами, нацельтесь примерно на 800-1200 слов образцового текста. Я думаю, этого Gemini достаточно, чтобы уловить достаточно n-грамм для вывода вашего акцента.
Стоит ли всем это делать?
Э-э, может быть?
Совершенно очевидно, почему личные блоги обычно одноязычны, даже большинство веб-сайтов. Раньше перевод чего-либо с нюансами отнимал очень много времени, и большинство все равно умеет читать по-английски. Затем, с помощью Google Translate, вы можете как бы уловить суть всего, что не на глобальной лингва-франка, так что опять же, много работы впустую.
Я думаю, мой веб-сайт является довольно ясным указанием на то, что порог вхождения в это дело стал смехотворно низким, но я буду очень удивлена, если через год наши браузеры не смогут делать это в реальном времени и самостоятельно. Они могут даже перефразировать вещи так, как вы предпочитаете. Скажу так, с LLM перевод вашей страницы практически не требует усилий, и вы можете тонко настраивать вещи так, как это было невозможно раньше, это действительно круто попробовать.
Короче
Я хотела иметь на своем веб-сайте языковые опции, которые сохраняли бы жаргон и передавали больше моего голоса (в случае с Graflect, фонологически). Заслуга принадлежит Google и другим.
Послесловие
Я нахожу, что с Graflect есть некоторые трудности, например, я говорю «» в предложении «».
Звук «A в Accent» не протяжный, поэтому он не звучит как британский акцент, на самом деле он звучит нормально, потому что он короткий.
Если я говорю can само по себе или в определенных контекстах, например, отвечая «I can.» кому-то, A становится .
Так что я не думаю, что это идеальное представление того, как я бы говорила, но это более близкое приближение, чем может дать простая латиница.