чему удовлетворяет качество компьютерного перевода

Для чего и для кого годится машинный перевод?

Илон Маск не тратит время своих детей на изучение иностранных языков. Он верит, что они-то – уж точно доживут до фантастически достоверного и полезного машинного перевода. Действительно, у нас на глазах научная фантастика становится реальностью: «умные» дома встречают нас с работы горячим ужином, голосовые помощники шутят с нами в чатах, а антропоморфные роботы поддерживают диалог на нескольких языках. Так когда же уже равноценный человеку переводчик появится в каждом смартфоне?

Никогда! Или очень нескоро – вот первая неутешительная новость. Дело в том, что люди, владеющие языками, способны передавать смысл написанного своими словами, не привязываясь к структуре исходника. Машины же переводят пословно или пофразово и научить их оперировать не словами, а образами – это все равно, что изобрести искусственный интеллект. Что значит «оперировать образами?» Это значит – понимать переводимый текст, интерпретировать его. То есть, ни больше, ни меньше – обладать сознанием.

Хорошая новость в том, что за более чем 70 лет существования машинного перевода мы уже прошли довольно большой путь от статистических методов до искусственных нейронных сетей.
Сети умеют читать предложения и слева направо, и справа налево, побуквенно транслитерируют собственные имена и вместо того, чтобы запоминать множество вариантов перевода, оперируют семантикой целого текста, разбивая его на сегменты, после чего анализируют и синтезируют их. Результат получается достойный, причем, в некоторых случаях, система переводит даже фразеологизмы.

Нейронные сети не справляются

Язык – это очень гибкая система с неограниченным набором размытых правил. И хотя нейронные сети уже схватывают семантические и синтаксические связи в предложениях и даже распознают акцент говорящего, они не умеют (и, скорее всего, не научатся) учитывать культурологические, когнитивные, литературные и прочие аспекты перевода. Иными словами, контекст может кардинальным образом нарушить коммуникацию, потому что:

Компьютер не может понять культуру:

image loader

Компьютер плохо переводит идиомы:

image loader

Компьютер не способен передать эмоции песен и стихов:

image loader

Эмоционально-окрашенные тексты, фразеологические обороты, культурный подтекст – это тоже не к машине:

image loader

Договоры, гарантийные письма, маркетинговые материалы, медицинские документы, ошибка в которых может стоить кому-то жизни – это не к машине:

image loader

Рекламные лозунги, любые художественные тексты – это слишком тяжело, многозначно и не формализовано для машинного перевода. Да и сам термин «перевод» по отношению к литературному тексту, вероятно, не вполне корректен. Здесь задача переводчика – не декодировать текст, а найти эквивалентную по значению лексику в языке перевода. Переводчик работает со смыслами, а не со словами и в работе полагается на литературное чутье:

Ведь земля совершает оборот за двадцать четыре часа…

– Оборот? – повторила Герцогиня задумчиво.

И, повернувшись к кухарке, прибавила:

– Возьми-ка ее в оборот! Для начала оттяпай ей голову!

image loader

Доверяя машине, мы отрезаем от текстов всю потрясающую лингвистическую игру, на которой строится юмор известных шоу, фильмов и сериалов, из которой вырастает сентиментальное послевкусие любимых песен:

image loader

Для чего и для кого годится машинный перевод?

Для не знающих язык людей, которым нужно в самых общих чертах понять содержание какого-то текста. Для переводчиков, которым необходим «шаблон» для редактирования. Ну, и конечно, для бизнеса, которому нужно ускорять процессы межкультурных коммуникаций.

image loader

Другое дело, что машинный перевод все равно придется редактировать человеку, а для этого нужно уметь замечать и исправлять ошибки, сделанные машиной. Это отдельный трудоемкий процесс, который требует специфического навыка. Этот навык – базовый для филолога, а вот обычного студента обучить ему почти так же трудозатратно, как… английскому языку в степени, необходимой для понимания большинства текстов.

Какие выводы?

Машинный перевод может послужить хорошим бойцом в формальной деловой переписке, но предаст вас в живой коммуникации. Полагаясь на машинный перевод, мы вообще лишаем себя элементарной радости общения, ведь никто не хочет разговаривать со смартфоном – во всяком случае, пока он не торчит на месте вашей собственной головы. Но такого нам даже научная фантастика не предсказывала.

Делая ставку на машинный перевод, мы фактически ставим на скорое появление сознания у компьютеров, подобного человеческому. То есть, самосознания, позволившего бы машине понять, что именно она «читает» и перевести это по-человечески. Все ли процессы человеческого мозга можно свести к алгоритмам? Маловероятно, что этот вопрос будет решен в ближайшее время. А вот изучение английского языка с применением всех достижений научного прогресса – вещь быстрая и результативная.

image loader

Для тех, кто не готов променять теплое живое общение с прекрасными людьми по всему миру на бездушный машинный перевод, мы кое-что приготовили. По ссылке – запись на бесплатное занятие по английскому языку в школе Skyeng. Введите при регистрации промокод HABR2: в подарок добавятся 2 урока при первой оплате.

Источник

Об оценке качества машинного перевода

Вопросы качества машинного перевода всегда вызывали большой интерес как у обычных пользователей, так и у профессиональных переводчиков. Многие интернет-издания нет-нет да и выложат подборку смешных переводов, якобы сделанных с помощью того или иного онлайн-сервиса. Как правило, именно фразы с некорректным переводом пользуются большой популярностью в Рунете, как это, например, случилось со знаменитой фразой о котенке-афроамериканце в переводе сервиса translate.ru: Our cat gave birth to three kittens – two whites and one black – Наша кошка родила трех котят – двух белых и одного афроамериканца. Пользователи Рунета любят проверять качество автоматического переводчика через перевод текста с русского на английский и обратно, надеясь найти 100-процентное совпадение в стиле или смысле исходной русской фразы и ее переводе через иностранный.

Если говорить о более объективных оценках качества перевода, то, например, в связи с развитием статистического машинного перевода, для которого вместо словарей перевода использую корпуса (или базы) параллельных текстов, была разработана специальная метрика для оценки качества перевода – BLEU. Эту метрику создали сотрудники IBM, чтобы отслеживать на больших объемах результат изменений в переводе в процессе разработки системы (как меняется перевод при добавлении новых корпусов текстов для тренировки системы, при изменении программного кода и т.д.).

Алгоритм BLEU оценивает качество перевода по шкале от 0 до 100 на основании сравнения человеческого перевода и машинного перевода и поиска общих фрагментов. Основная идея состоит в том, что чем больше совпадений, тем лучше перевод.

Не вдаваясь в технологические тонкости, можно сказать, что данная метрика на практике объективна только для статистических или гибридных систем и для языков с неразвитой морфологической структурой, поэтому для перевода на русский эта метрика всегда показывает не такой высокий результат перевода как, например, при переводе на английский или французский. Тем не менее, метрика очень популярна среди специалистов, так как все-таки позволяет хоть как-то сравнивать разные системы или разные версии систем.

Chinese Language Translator

У профессионалов перевода существуют свои технологии для измерения качества машинного перевода. Например, в локализационных компаниях или в бюро перевода, применяющих машинный перевод, используется технология post-editing distance. С помощью данной технологии измеряют посимвольно, сколько изменений было сделано редактором в машинном переводе, прежде чем этот перевод был отредактирован до фактически и стилистически верного. Таким образом, тестируют, например, целесообразность использования машинного перевода в переводческих проектах или сравнивают разные системы машинного перевода, чтобы выбрать лучшую. Чем меньше пришлось редактору исправлять текст, тем лучше система. А если все переводы пришлось переписывать, значит, машинный перевод на данных текстах неэффективен или он был недостаточно настроен.

Нужно, однако, отметить, что экспертная оценка качества перевода по-прежнему пользуется бОльшим доверием, хотя с ней же связана проблема субъективности в оценке качества. МП почти всегда не идеален, поэтому требуются определенные знания и здравый смысл, чтобы оценить результат работы компьютерной программы. И там, где один специалист скажет, что перевод понятен и приемлем, для другого он будет «невозможен» с точки зрения стиля и грамматики.

Один из способов борьбы с экспертной субъективностью –привлечение большого количества экспертов (или даже просто носителей языка), т.е. использование популярного сейчас краудсорсинга. Именно такой способ оценки качества автоматического перевода, полученного с помощью разных систем, используется в конкурсе, который проводится ежегодно в рамках Семинара по статистическому машинному переводу.

Конкурс организуется и проходит под эгидой Ассоциации компьютерной лингвистики (ACL), основанной еще в 1962 году. Она ведет большую научную и прикладную деятельность, в частности, проводит ежегодные конференции для специалистов в области компьютерной лингвистики и обработки информации на естественных языках, конкурсы систем машинного перевода и выпускает с 1974 года журнал Computational Linguistics.

Конкурс машинных переводчиков организован следующим образом: организаторы выкладывают в открытый доступ корпуса параллельных текстов и программные средства для создания систем статистического машинного перевода или тренировки на этих корпусах любых других систем машинного перевода.

Принять участие в конкурсе могут все желающие, количество участников доходит полутора сотен. Обычно участвуют лаборатории различных университетов (из Англии, Германии, Швеции, Австралии и других стран), занимающиеся исследованием и разработкой статистических систем перевода в научных целях, и разработчики коммерческих систем (SYSTRAN, PROMT).

Кроме того, организаторы используют переводы известных онлайн-сервисов. Языковые пары и их количество варьируется от года к году, но обычно это перевод с английского на французский, испанский, немецкий и наоборот. Также ежегодно добавляются некоторые «редкие» языки – чешский, хинди. В 2013 году в конкурсе впервые был представлен русский язык, и сразу стал лидером по числу представленных систем. А в 2011 году был, например, устроен специальный конкурс в рамках основного конкурса для перевода с гаитянского креольского на английский.

Введение специального конкурса было связано с землетрясением 2010 года на Гаити и нашумевшей статьей двух исследователей из Стэнфордского университета и из Microsoft о создании статистической системы машинного перевода на основе имеющихся разработок фактически за несколько дней.

Нужно было создать систему автоматического перевода для облегчения работы спасателей, на бесплатный номер которых гаитяне отправляли SMS-сообщения с просьбами о помощи. Сообщения были преимущественно на гаитянском креольском, а спасатели не владели этим языком. Так как основная проблема при создании статистического переводчика – это наличие больших объемов текстов на одном языке и их переводов для другой, а для гаитянского креольского такие данные практически отсутствуют, то разработчикам пришлось срочно решить эту задачу. Они привлекли добровольцев, некоторые переводческие агентства для перевода уже имеющихся SMS-сообщений с гаитянского креольского на английский. Сообщения и их переводы и послужили основой для настройки («тренировки») системы. Конечно, такая система не может переводить ничего, кроме коротких сообщений, так или иначе связанных с землетрясением, но задача стояла именно так.

Как понятно из этой истории, выбор языковых пар для конкурса обусловлен в первую очередь наличием параллельных текстов, необходимых для тренировки систем машинного перевода. Поэтому в первую очередь используются тексты стенограммы заседаний и тексты документов Европарламента, доступные как раз для основных европейских языков, а также новостные тексты.

В качестве русскоязычных источников использовались статьи из «Аргументов и фактов», «Известий», «Росбалта», «Вестей» и русской службы BBC. Новости в качестве объектов для тренировки систем имеют свою специфику, так как перевод может быть довольно вольным и больше походить нам пересказ, чем на перевод. Поэтому участники конкурса демонстрируют свое мастерство, придумывая и применяя алгоритмы для выделения именно параллельной (общей) части из текстов.

Надо сказать, что в этот период участники много общаются между собой и с организаторами по поводу исходных данных, так как, выражаясь на профессиональном сленге, они «грязные», т.е. могут содержать непереведенные сегменты, технические символы и другие особенности, которые отрицательно сказываются на качестве перевода.

В определенный момент организаторы публикуют тестовый корпус текстов для перевода. Участники конкурса должны подготовить автоматический перевод этого корпуса своими системами в течение недели и разместить на сайте организаторов.

Затем идет этап экспертной оценки, во время которого эксперты, среди которых могут быть и участники конкурса, добровольцы, сравнивают и оценивают переводы друг с другом. Оценка производится через веб-интерфейс специально разработанной системы для оценки переводов — Amazon Mechanichal Turk (краудсорсинговый сервис от компании Amazon) и представляет собой некоторый нормализованный коэффициент сравнения вариантов переводы, выполненных различными системами.

mechanical turk «Механический турок»

Переводы всех участников анонимны, поэтому эксперт не знает, с помощью какой системы получен перевод. Оценка производится таким образом: эксперт видит исходное предложение, несколько автоматических переводов и человеческий перевод исходного предложения. Задача состоит в том, чтобы ранжировать (разместить в порядке от лучшего к худшему) автоматические переводы. После этого организаторы обобщают результаты оценки по всем участникам, подводят итоги и публикуют их на своем сайте.

Первый раз российская компания PROMT оказалась участником конкурса в 2011 году. Компания представила настроенный перевод для англо-испанской системы и заняла четвертое место из 15. Организаторы также сделали переводы на сервисе компании online-translator.com (это интернациональная версия сервиса translate.ru, принадлежит PROMT) с английского на еще несколько языков. Онлайн-сервис, конечно, предварительно никак не был «натренирован», но взял первое место при переводе с английского на немецкий.

В 2013 году организаторы, как уже было сказано, выложили данные и для русского языка, и появилась возможность участвовать в конкурсе с переводом с английского на русский. По результатам конкурса в 2013 и в 2014 году у технологии PROMT первое место для перевода с английского на русский.

Русский и немецкий, конечно, не самые сложные языки для перевода с английского, перевод на арабский сложнее, но все же получить качественный перевод на эти языки труднее, чем, например, на французский. И в русском, и в немецком развитая падежная система, много окончаний, в немецком предложении строгий порядок слов – все это создает дополнительные трудности разработчикам.

Качество машинного перевода за последнее десятилетие заметно выросло. В первую очередь это связано с развитием технологий, с доступностью больших текстовых данных для анализа и тренировки систем, а также с тем, что накопленный опыт практического применения (в коммерческих компаниях, у частных пользователей, на онлайн-сервисах) позволяет разработчикам получать ценную информацию об использовании технологии для решения разных задач и использовать этот опыт в дальнейших разработках.

Об авторе:

Юлия Епифанцева, директор по развитию бизнеса PROMT.

Окончила филфак СПбГУ. Разработчик технологий машинного перевода.

Научная деятельность и участие в конференциях в последние годы:

Источник

natural history mini

book scienceforum mini

2003 image001

Znak natc konkurs

diplom ruk big

Spivak

image 2003 5 600

image 2003 4 200

КОМПЬЮТЕРНЫЙ ПЕРЕВОД: ПРЕИМУЩЕСТВА И НЕДОСТАТКИ

Программы для проверки правописания, которые могут быть встроены в текстовые редакторы или дополнительные программы;

Программы для проверки грамматики, которые также встраиваются в текстовые редакторы или дополнительные программы;

Программы для управления терминологией, которые позволяют переводчикам управлять своей собственной терминологической базой в электронной форме. Это может быть и простая таблица, созданная в текстовом редакторе, и электронная таблица, и база данных, созданная в программе FileMaker. Для более трудоемких (и более дорогих) решений существует специальное программное обеспечение, например, LogiTerm, MultiTerm, Termex, TermStar и т. п.[9]

Словари на компакт-дисках, одноязычные или многоязычные;

Терминологические базы данных, хранимые на компакт-дисках или подключаемые по Интернету, например The Open Terminology Forum или TERMIUM и многие- многие другие.

Наличие компьютерных программ для перевода, с одной стороны, облегчает работу переводчика, так как не надо выискивать в словаре незнакомые слова, а с другой стороны, этот перевод нельзя считать окончательным, так как при переводе компьютерные программы допускают много ошибок. Ведь даже профессиональный переводчик при переводе обращается не к одному словарю для подбора нужного эквивалента.

В поисках варианта перевода переводчик вновь и вновь обращается к единицам ИЯ в оригинале, ищет в словаре их значения и одновременно пробует, нельзя ли использовать для их перевода один из вариантов, предлагаемый в двуязычном словаре. Иногда переводчик обнаруживает, что имеющийся в словаре перевод можно непосредственно использовать для перевода данного текста, и задача сводится к правильному выбору словарного соответствия. Однако чаще переводчик не находит в словаре такого варианта, который удовлетворяет условиям конкретного контекста. В этом случае переводчик отыскивает нужную ему единицу ПЯ, сопоставляя словарные варианты, определяя общий смысл переводимого слова и применяя его к условиям контекста.

What is Cryptology?

Prior to the computer age, encryption methods were relatively simple, not explicitly mathematical, and often not very secure. Messages were relatively short and there was very little systematic research certifying the security of cryptologic methods. Today, however, messages can be very long. As of this writing (2010),

a typical JPEG file from a digital camera is over 1 MB, which is roughly equivalent to a text file of a million characters. Contemporary encryption methods tend to use very sophisticated mathematics and there is a great deal of systematic research. The US Department of Commerce certifies certain algorithms so that users can be confident that their communications are secure, and these algorithms can be very complicated. In addition to the transmission and reception of secret messages, modern cryptology also involves less well known operations such as key exchange, digital signatures, random number generation, hashing, etc. but this book focuses, for the most part, on mathematical versions of historical methods. These methods require what is probably unfamiliar mathematics and, although they are no longer useful, they evolved into today’s methods so it is still useful to be familiar with them. The only exception is our discussion of public key systems, which currently enjoy widespread use.

Another important difference between classical and modern cryptography is frequency of use. In the past, the average individual had no practical reason to encrypt messages, but today we all use cryptographic algorithms without even knowing it when we use our cell phones or email or make online purchases.

ПЕРЕВОД ПРОГРАММЫ PROMT

Что такое Криптология?

Классически, криптология использовалась, чтобы отправить и получить секретные сообщения, и ее пользователи были часто военнымилидеры или дипломаты. Для адмирала Alice, чтобы отправить генералу Bob секретное сообщение, она должна была бы зашифровать или рашифруйте ее сообщение, используя метод, который она и Bob ранее согласовали. Когда Bob получает сообщение, он должен дешифроватьили дешифровать ее сообщение, чтобы считать его. Часто, методшифрования был бы полагайтесь на ключ – некоторое специальное число (числа) или слово (слова), которое только знают Alice и Bob.

До века компьютеров, методы шифрования были относительнопростыми, не явно математическими, и часто не очень безопасный.Сообщения были относительно коротки и было очень мало систематической сертификации исследования безопасность cryptologic методов.Сегодня, однако, сообщения могут быть очень длинными. С этой записи(2010), типичный файл JPEG от цифрового фотоаппарата составляет более чем 1 Мбайт, который примерно эквивалентен текстовому файлу миллиона символы. Современные методы шифрования имеют тенденциюиспользовать очень сложную математику и есть а большое систематическое исследование. Американское Министерство торговлисертифицирует определенные алгоритмы так, чтобы пользователиможет быть уверено, что их связь безопасна, и эти алгоритмы могутбыть очень сложными. В дополнение к передаче и прием секретных сообщений, современная криптология также включает менее известный

мимо, у среднего человека не было практической причины зашифроватьсообщения, но сегодня все мы используем криптографический алгоритмы, даже не зная это, когда мы используем наши сотовые телефоны или электронную почту или делаем онлайн-покупки.

ОТРЕДАКТИРОВАННЫЙ ПЕРЕВОД

Что такое криптология?

Классически, криптология применялась для отправления или получения секретных сообщений, ею пользовались зачастую военные деятели и дипломаты. Для того, чтобы адмирал Элис могла отправить генералу Бобу секретное сообщение, она должна была зашифровать или закодировать своё сообщение, используя метод, о котором она и Боб заранее договорились. Чтобы прочитать её сообщение при получении, он должен дешифровать или декодировать его. Часто, методшифрования основывался на ключе – определённое число (числа) или слово (слова), которое(ые) знают только Элис и Боб.

Другое важное различие между классической и современной криптологией заключается в частоте использования. В прошлом у среднестатистического человека не было практической надобности шифровать свои сообщения, но сегодня мы имеем дело с криптографическими алгоритмами, даже не зная этого, когда мы пользуемся нашими сотовыми телефонами или электронной почтой, или делаем онлайн-покупки.

АНАЛИЗ ТЕКСТА, ПЕРЕВЕДЕННОГО С ПОМОЩЬЮ ПРОГРАММЫ PROMT

При работе с данным программным продуктом были обнаружены следующие погрешности при переводе текста. Лексический анализ текста показал, что PROMT по большей степени даёт адекватный перевод простых частей речи, но допускает ошибки в построении предложений, переводе падежей прилагательных, речевых оборотах.

Недостатком переводчика PROMTявляется неточность перевода слов, имеющих несколько значений. Для более адекватного перевода в дальнейшем можно предложить более глубокий анализ грамматического построения предложения, с улучшением качества перевода различных частей речи и их грамматических характеристик, а так же исключить конфликт словарей при переводе специализированных текстов.

Ермаков А.Е. Неполный синтаксический анализ текста в информационно-поисковых системах. – М., 2002.

Каничев М. Встреча компьютерных толмачей. // Мир ПК. – 1998, № 8.

Кормалев Д.А. Приложения технологии извлечения информации из текста: теория и практика. – Переяславль-Залесский, 2003.

Ножов И. Синтаксический анализ. // Компьютерра. – 2002, №21.

Сокирко А. Будущее машинного перевода. // Компьютерра. – 2002, №21.

Кузнецов П. С., Ляпунов А. А., Реформатский А. А. Основные проблемы машинного перевода. Вопросы языкознания, 1956, № 5.

Компьютерный перевод. http://irinavezner.ru

Машинный перевод. http://ru.wikipedia.org/wiki

Источник

admin
Делаю сам
Adblock
detector