기계 번역 개발에 신경망이 미치는 영향. Yandex.Browser의 인공 지능. 신경 기계 번역: 왜 지금인가

현대 인터넷에는 6억 3천만 개가 넘는 사이트가 있지만 그 중 러시아어 콘텐츠가 포함된 사이트는 6%에 불과합니다. 언어의 장벽 - 주요 문제네트워크 사용자 간의 지식 전파는 외국어 교육뿐만 아니라 자동 학습의 도움으로 해결되어야 한다고 생각합니다. 기계 번역브라우저에서.

오늘 우리는 Habr 독자들에게 Yandex 브라우저 번역기의 두 가지 중요한 기술적 변화에 대해 이야기할 것입니다. 첫째, 강조 표시된 단어와 문구의 번역은 이제 하이브리드 모델을 사용하며, 이 접근 방식이 순수 신경망을 사용하는 것과 어떻게 다른지 상기시켜 드리겠습니다. 둘째, 번역가의 신경망은 이제 웹 페이지의 구조를 고려하며, 그 기능에 대해서는 아래에서 설명하겠습니다.

단어와 구문의 하이브리드 번역기

최초의 기계 번역 시스템은 다음을 기반으로 했습니다. 사전과 규칙(본질적으로 손으로 쓴 일반 문자) 번역의 품질을 결정합니다. 전문 언어학자들은 점점 더 상세한 수동 규칙을 개발하기 위해 수년 동안 노력해 왔습니다. 이 작업은 시간이 너무 많이 걸려서 가장 널리 사용되는 언어 쌍에만 진지한 주의를 기울였지만, 이들 내에서도 기계는 제대로 작동하지 않았습니다. 살아있는 언어는 규칙을 잘 따르지 않는 매우 복잡한 시스템입니다. 두 언어 간의 통신 규칙을 설명하는 것은 훨씬 더 어렵습니다.

기계가 변화하는 조건에 지속적으로 적응할 수 있는 유일한 방법은 수많은 병렬 텍스트(의미는 동일하지만 다음과 같이 작성됨)로부터 독립적으로 학습하는 것입니다. 다른 언어들). 이것이 기계 번역에 대한 통계적 접근 방식입니다. 컴퓨터는 병렬 텍스트를 비교하고 독립적으로 패턴을 식별합니다.

통계 번역기장점과 단점이 모두 있습니다. 한편으로 그는 희귀하고 복잡한 단어와 문구를 잘 기억합니다. 평행 텍스트에서 발견된 경우 번역자는 이를 기억하고 계속해서 정확하게 번역합니다. 반면 번역의 결과는 완성된 퍼즐과 같을 수 있습니다. 전체 그림은 명확해 보이지만 자세히 보면 별도의 조각으로 구성되어 있음을 알 수 있습니다. 그 이유는 번역기가 개별 단어를 식별자로 나타내기 때문이며, 이는 단어 간의 관계를 전혀 반영하지 않습니다. 이는 사람들이 언어를 경험하는 방식, 즉 단어가 사용되는 방식, 다른 단어와 어떻게 연관되고 다른지에 따라 단어가 정의되는 방식과 일치하지 않습니다.

이 문제를 해결하는 데 도움이 됩니다. 신경망. 신경 기계 번역에 사용되는 단어 임베딩은 일반적으로 각 단어를 길이가 수백 개의 숫자로 구성된 벡터와 연결합니다. 벡터는 통계적 접근 방식의 단순 식별자와 달리 신경망을 훈련할 때 형성되며 단어 간의 관계를 고려합니다. 예를 들어, 모델은 "tea"와 "coffee"가 유사한 문맥에 자주 나타나기 때문에 이 두 단어 모두 새 단어 "spill"의 문맥에서 가능해야 한다는 것을 인식할 수 있습니다. 훈련 데이터.

그러나 벡터 표현을 학습하는 과정은 예제를 암기하는 것보다 확실히 통계적으로 더 까다롭습니다. 게다가, 네트워크가 수용 가능한 벡터 표현을 구축할 만큼 자주 발생하지 않는 희귀한 입력 단어를 어떻게 해야 할지 명확하지 않습니다. 이 상황에서는 두 가지 방법을 결합하는 것이 논리적입니다.

작년부터 Yandex.Translator는 하이브리드 모델. 번역기가 사용자로부터 텍스트를 받으면 번역을 위해 두 시스템, 즉 신경망과 통계 번역기에 이를 제공합니다. 학습 방법을 기반으로 한 알고리즘은 어떤 번역이 더 나은지 평가합니다. 등급을 지정할 때 문장 길이(짧은 구문은 통계 모델에 의해 더 잘 번역됨)부터 구문까지 수십 가지 요소가 고려됩니다. 최고로 인정된 번역이 사용자에게 표시됩니다.

사용자가 번역을 위해 페이지에서 특정 단어와 문구를 선택할 때 현재 Yandex.Browser에서 사용되는 하이브리드 모델입니다.

이 모드는 일반적으로 소유한 사람들에게 특히 편리합니다. 외국어모르는 단어만 번역하고 싶습니다. 그러나 예를 들어 일반적인 영어 대신 중국어를 접하게 되면 페이지별 번역기 없이는 하기 어려울 것입니다. 차이점은 번역된 텍스트의 양에만 있는 것처럼 보이지만 모든 것이 그렇게 단순하지는 않습니다.

웹페이지의 신경망 번역기

조지타운 실험 이후 거의 현재까지 모든 기계 번역 시스템은 원본 텍스트의 각 문장을 개별적으로 번역하도록 훈련되었습니다. 웹페이지는 단순한 문장의 집합이 아니라 근본적으로 다른 요소를 포함하는 구조화된 텍스트입니다. 대부분의 페이지의 기본 요소를 살펴보겠습니다.

표제. 일반적으로 페이지에 들어갈 때 즉시 표시되는 밝고 큰 텍스트입니다. 헤드라인에는 뉴스의 핵심이 담겨 있는 경우가 많기 때문에 이를 정확하게 번역하는 것이 중요합니다. 하지만 제목에 텍스트가 충분하지 않고 문맥을 이해하지 못하면 실수를 할 수 있기 때문에 이렇게 하기가 어렵습니다. 영어의 경우, 영어 제목에는 틀에 얽매이지 않는 문법, 부정사, 심지어 동사가 누락된 문구가 포함되는 경우가 많기 때문에 더욱 복잡합니다. 예를 들어, 왕좌의 게임 프리퀄이 발표됐다.

항해. 사이트 탐색에 도움이 되는 단어와 문구입니다. 예를 들어, , 뒤쪽에그리고 내 계정출판물 텍스트가 아닌 사이트 메뉴에 있는 경우 "홈", "뒤로" 및 "내 계정"으로 번역할 가치가 거의 없습니다.

본문. 모든 것이 더 간단해지고 책에서 찾을 수 있는 일반적인 텍스트 및 문장과 거의 다르지 않습니다. 그러나 여기서도 번역 일관성을 보장하는 것이 중요합니다. 즉, 동일한 웹 페이지 내에서 동일한 용어와 개념이 동일한 방식으로 번역되도록 하는 것입니다.

웹페이지의 고품질 번역을 위해서는 신경망이나 하이브리드 모델을 사용하는 것만으로는 충분하지 않습니다. 페이지 구조도 고려해야 합니다. 그리고 이를 위해 우리는 많은 기술적인 어려움을 겪어야 했습니다.

텍스트 세그먼트 분류. 이를 위해 텍스트 자체와 문서의 HTML 마크업(태그, 텍스트 크기, 텍스트 단위당 링크 수 등)을 기반으로 CatBoost와 요소를 다시 사용합니다. 요인은 매우 이질적이므로 CatBoost(그라디언트 부스팅 기반)가 최상의 결과(95% 이상의 분류 정확도)를 보여줍니다. 그러나 세그먼트를 분류하는 것만으로는 충분하지 않습니다.

왜곡된 데이터. 전통적으로 Yandex.Translator 알고리즘은 인터넷의 텍스트에 대해 훈련되었습니다. 이런 것 같을 것 같아요 완벽한 솔루션웹 페이지 번역자를 훈련합니다(즉, 네트워크는 우리가 사용할 텍스트와 동일한 성격의 텍스트로부터 학습합니다). 하지만 서로 다른 세그먼트를 서로 분리하는 방법을 배운 후에는 다음과 같은 사실을 발견했습니다. 흥미로운 기능. 평균적으로 웹사이트에서 콘텐츠는 전체 텍스트의 약 85%를 차지하며 제목과 탐색 기능은 7.5%에 불과합니다. 또한 제목과 탐색 요소 자체는 스타일과 문법이 나머지 텍스트와 눈에 띄게 다르다는 점을 기억하세요. 이 두 가지 요소가 함께 데이터 왜곡 문제를 야기합니다. 신경망에서는 훈련 세트에서 매우 잘 표현되지 않는 이러한 세그먼트의 기능을 단순히 무시하는 것이 더 유리합니다. 네트워크는 본문만 잘 번역하는 방법을 학습하므로 제목 및 탐색 번역 품질이 저하됩니다. 이 불쾌한 효과를 중화하기 위해 우리는 두 가지 작업을 수행했습니다. 각 병렬 문장 쌍에 세 가지 유형의 세그먼트(콘텐츠, 제목 또는 탐색) 중 하나를 메타 정보로 할당하고 훈련 코퍼스에서 마지막 두 세그먼트의 농도를 인위적으로 33으로 늘렸습니다. % 학습 신경망과 유사한 예가 더 자주 나타나기 시작했기 때문입니다.

다중 작업 학습. 이제 웹 페이지의 텍스트를 세 가지 클래스의 세그먼트로 나눌 수 있으므로 세 가지 개별 모델을 훈련하는 것이 자연스러운 아이디어처럼 보일 수 있습니다. 각 모델은 서로 다른 유형의 텍스트(제목, 탐색 또는 콘텐츠)의 번역을 처리합니다. 이것은 실제로 잘 작동하지만 모든 유형의 텍스트를 한 번에 번역하기 위해 하나의 신경망을 훈련시키는 체계가 훨씬 더 잘 작동합니다. 이해의 핵심은 다중 작업 학습(MTL) 아이디어에 있습니다. 여러 작업 사이에 있는 경우 기계 학습내부 연결이 있는 경우 이러한 문제를 동시에 해결하는 방법을 학습하는 모델은 좁게 전문화된 모델보다 각 문제를 해결하는 방법을 더 잘 학습할 수 있습니다.

미세 조정. 우리는 이미 꽤 좋은 기계 번역을 갖고 있으므로 Yandex.Browser에 대한 새로운 번역가를 처음부터 교육하는 것은 현명하지 않습니다. 일반적인 텍스트를 번역하기 위한 기본 시스템을 채택하고 이를 웹 페이지에서 작동하도록 훈련시키는 것이 더 논리적입니다. 신경망의 맥락에서는 이를 종종 미세 조정이라고 합니다. 하지만 이 문제에 정면으로 접근한다면, 즉 완성된 모델의 값으로 신경망의 가중치를 초기화하고 새 데이터에 대한 학습을 ​​시작하면 도메인 이동 효과를 경험할 수 있습니다. 훈련이 진행됨에 따라 웹 페이지(도메인 내) 번역 품질이 향상됩니다. 증가하지만 일반(도메인 외부) 텍스트의 번역 품질은 떨어집니다. 이 불쾌한 기능을 제거하기 위해 추가 훈련 중에 신경망에 추가 제한을 적용하여 초기 상태에 비해 가중치가 너무 많이 변경되는 것을 방지합니다.

수학적으로 이는 원래 네트워크와 추가로 훈련된 네트워크에서 발행된 다음 단어를 생성하는 확률 분포 사이의 Kullback-Leibler 거리(KL-divergence)인 손실 함수에 항을 추가하여 표현됩니다. 그림에서 볼 수 있듯이 이는 웹 페이지의 번역 품질이 향상된다고 해서 더 이상 일반 텍스트의 번역 품질이 저하되지 않는다는 사실로 이어집니다.

내비게이션의 빈도 문구 다듬기. 새로운 번역가를 작업하면서 우리는 웹페이지의 다양한 부분의 텍스트에 대한 통계를 수집하고 흥미로운 것을 발견했습니다. 탐색 요소와 관련된 텍스트는 상당히 표준화되어 있으므로 동일한 템플릿 문구로 구성되는 경우가 많습니다. 이는 인터넷에서 발견되는 모든 탐색 문구의 절반 이상이 가장 자주 사용되는 문구 중 단 2,000개에 불과할 정도로 강력한 효과입니다.

물론 우리는 이를 활용하여 품질을 절대적으로 확인하기 위해 수천 개의 가장 일반적인 문구와 번역을 번역가에게 제공하여 검증을 받았습니다.

외부 정렬. 브라우저의 웹 페이지 번역기에 대한 또 다른 중요한 요구 사항이 있었습니다. 이는 마크업을 왜곡해서는 안 됩니다. HTML 태그가 문장 경계 외부나 위에 배치되면 문제가 발생하지 않습니다. 그러나 예를 들어 문장 안에 다음과 같은 것이 있다면, 밑줄 친단어, 번역에서 우리는 "두 개"를 보고 싶습니다. 밑줄 친단어". 저것들. 이전의 결과로 두 가지 조건이 충족되어야 합니다.

  1. 번역의 밑줄이 그어진 부분은 원본 텍스트의 밑줄이 그어진 부분과 정확히 일치해야 합니다.
  2. 밑줄 친 부분의 경계에서 번역의 일관성을 위반해서는 안 됩니다.
이 동작을 달성하기 위해 먼저 텍스트를 평소대로 번역한 다음 통계적인 단어별 정렬 모델을 사용하여 소스 조각과 번역된 텍스트 간의 일치 여부를 결정합니다. 이는 정확히 강조해야 할 내용(이탤릭체, 하이퍼링크 형식 등)을 이해하는 데 도움이 됩니다.

교차점 관찰자. 우리가 훈련한 강력한 신경망 번역 모델은 이전 세대의 통계 모델보다 서버(CPU 및 GPU 모두)에서 훨씬 더 많은 컴퓨팅 리소스를 필요로 합니다. 동시에 사용자가 항상 페이지를 끝까지 읽는 것은 아니기 때문에 웹 페이지의 모든 텍스트를 클라우드로 보내는 것은 불필요해 보입니다. 서버 리소스와 사용자 트래픽을 절약하기 위해 번역기에게 다음을 사용하도록 가르쳤습니다.

검색 엔진에 의해 색인된 웹사이트의 사본은 5억 개 이상이며, 웹페이지의 총 개수는 수만 배 이상입니다. 러시아어 콘텐츠는 전체 인터넷의 6%를 차지합니다.

원하는 텍스트를 작성자가 의도한 의미가 유지되도록 신속하게 번역하는 방법. 통계 콘텐츠 번역 모듈의 오래된 방법은 매우 의심스럽게 작동합니다. 왜냐하면... 단어의 어긋남, 시제 등을 정확하게 판단하는 것은 불가능합니다. 단어의 성격과 단어 사이의 연결은 복잡하기 때문에 결과가 때로는 매우 부자연스러워 보입니다.

이제 Yandex는 자동 기계 번역을 사용하여 결과 텍스트의 품질을 향상시킵니다. 최신 다운로드 공식 버전새로운 번역 기능이 내장된 브라우저를 사용하세요.

문구와 단어의 하이브리드 번역

Yandex 브라우저는 페이지 전체는 물론 단어와 구문을 개별적으로 번역할 수 있는 유일한 브라우저입니다. 이 기능은 외국어를 어느 정도 사용하지만 때로는 번역에 어려움을 겪는 사용자에게 매우 유용합니다.

단어 번역 메커니즘에 내장된 신경망은 항상 할당된 작업에 대처하지 못했습니다. 텍스트에 희귀한 단어를 삽입하고 읽을 수 있게 만드는 것은 매우 어려웠습니다. 이제 기존 기술과 새로운 기술을 사용하는 하이브리드 방법이 애플리케이션에 구축되었습니다.

메커니즘은 다음과 같습니다. 프로그램은 선택된 문장이나 단어를 받아들인 다음 이를 신경망 모듈과 통계 번역기 모두에 제공하고 내장된 알고리즘은 어떤 결과가 더 나은지 결정한 다음 사용자에게 제공합니다.

신경망 번역기

외국 콘텐츠는 매우 구체적인 방식으로 형식이 지정됩니다.

  • 제목의 단어의 첫 글자는 대문자로 작성됩니다.
  • 문장은 단순화된 문법으로 구성되며, 일부 단어는 생략됩니다.

웹사이트의 탐색 메뉴는 위치를 고려하여 분석됩니다(예: 뒤로라는 단어, 올바르게 번역됨(돌아가기), 뒤로 아님)).

위에서 언급한 모든 기능을 고려하기 위해 개발자는 이미 방대한 텍스트 데이터 배열을 사용하는 신경망을 추가로 훈련했습니다. 이제 번역 품질은 콘텐츠의 위치와 디자인에 따라 영향을 받습니다.

적용된 번역 결과

번역의 품질은 기계번역과 전문번역을 비교하는 BLEU* 알고리즘으로 측정할 수 있습니다. 품질 척도는 0~100%입니다.

신경 번역이 좋을수록 비율이 높아집니다. 이 알고리즘에 따르면 Yandex 브라우저는 1.7배 더 나은 번역을 시작했습니다.

Yandex.Translator 서비스는 기술을 사용하기 시작했습니다. 신경망 Yandex 웹사이트에서는 텍스트를 번역할 때 번역 품질이 향상된다고 보고했습니다.

북마크에

Yandex는 이 서비스가 하이브리드 시스템에서 운영된다고 설명했습니다. 출시 이후 번역기에서 실행되고 있는 통계 모델에 신경망을 사용한 번역 기술이 추가되었습니다.

“통계 번역기와 달리 신경망은 텍스트를 개별 단어와 구문으로 나누지 않습니다. 제안서 전체를 입력으로 받아 번역본을 발행합니다.”라고 회사 담당자가 설명했습니다. 그에 따르면 이러한 접근 방식을 통해 문맥을 고려하고 번역된 텍스트의 의미를 더 잘 전달할 수 있습니다.

결과적으로 통계 모델은 희귀한 단어와 문구에 더 잘 대처한다고 Yandex는 강조했습니다. “문장의 의미가 명확하지 않으면 신경망처럼 상상을 하지 않습니다.”라고 회사는 지적했습니다.

번역할 때 서비스는 두 모델을 모두 사용하며, 기계 학습 알고리즘은 결과를 비교하고 자체 판단에 따라 최상의 옵션을 제공합니다. "하이브리드 시스템을 사용하면 각 방법의 장점을 최대한 활용하고 번역 품질을 향상시킬 수 있습니다."라고 Yandex는 말합니다.

9월 14일 동안 웹 버전의 번역기에 스위치가 나타나야 하며, 이를 통해 하이브리드 및 통계 모델에 의해 수행된 번역을 비교할 수 있습니다. 동시에 서비스가 텍스트를 변경하지 않는 경우도 있다고 회사는 말했습니다. "이는 하이브리드 모델이 통계 번역이 더 좋다고 결정했다는 의미입니다."

아니면 양이 질로 발전하는가?

RIF+KIB 2017 컨퍼런스 연설을 바탕으로 한 기사입니다.

신경 기계 번역: 왜 지금인가?

신경망은 오랫동안 이야기되어 왔으며 인공 지능의 고전적인 문제 중 하나인 기계 번역은 단순히 이 기술을 기반으로 해결되어야 하는 것처럼 보입니다.

그럼에도 불구하고 일반적인 신경망, 특히 신경 기계 번역에 대한 검색어의 인기 역학은 다음과 같습니다.

최근까지 신경 기계 번역에 관한 레이더에는 아무것도 없었다는 것이 분명합니다. 2016년 말에는 Google, Microsoft 및 SYSTRAN을 포함한 여러 회사가 신경 네트워크 기반의 새로운 기술과 기계 번역 시스템을 시연했습니다. 그들은 거의 동시에, 몇 주 또는 심지어 며칠 간격으로 나타났습니다. 왜 그런 겁니까?

이 질문에 답하기 위해서는 신경망 기반 기계 번역이 무엇인지, 그리고 오늘날 기계 번역에 사용되는 고전적인 통계 시스템이나 분석 시스템과의 주요 차이점이 무엇인지 이해하는 것이 필요합니다.

신경 변환기는 행렬 계산을 기반으로 구축된 양방향 순환 신경망(양방향 순환 신경망) 메커니즘을 기반으로 하며 이를 통해 통계 기계 변환기보다 훨씬 더 복잡한 확률 모델을 구축할 수 있습니다.


통계 번역과 마찬가지로 신경 번역에는 훈련을 위한 병렬 말뭉치가 필요하므로 자동 번역을 참조 "인간" 번역과 비교할 수 있습니다. 학습 과정에서만 개별 구문 및 단어 조합이 아닌 전체 문장으로 작동합니다. 주요 문제는 이러한 시스템을 교육하려면 훨씬 더 많은 컴퓨팅 성능이 필요하다는 것입니다.

프로세스 속도를 높이기 위해 개발자는 NVIDIA의 GPU와 기계 학습 기술에 맞게 특별히 조정된 독점 칩인 Google의 TPU(Tensor Processor Unit)를 사용합니다. 그래픽 칩은 초기에 행렬 계산 알고리즘에 최적화되어 있으므로 CPU에 비해 ​​성능이 7~15배 향상됩니다.

그럼에도 불구하고 단일 신경 모델을 훈련시키는 데는 1~3주가 걸리는 반면, 대략 동일한 크기의 통계 모델은 훈련하는 데 1~3일이 걸리며, 이 차이는 크기가 커질수록 커집니다.

그러나 기계번역 작업의 맥락에서 신경망의 발전을 방해하는 것은 기술적 문제만이 아니었습니다. 결국, 비록 더 느리긴 하지만 더 일찍 언어 모델을 학습시키는 것이 가능했지만, 근본적인 장애물은 없었습니다.

신경망의 유행도 한몫했습니다. 많은 사람들이 내부적으로 발전하고 있었지만 신경망이라는 문구에서 사회가 기대하는 품질 향상을 얻지 못할 까봐 서두르지 않고 발표했습니다. 이는 여러 신경 번역가가 속속 발표된 사실을 설명할 수 있습니다.

번역 품질: 누구의 BLEU 점수가 더 두꺼운가요?

번역 품질의 향상이 번역을 위한 신경망의 개발 및 지원에 수반되는 축적된 기대와 비용 증가와 일치하는지 이해해 보겠습니다.
Google은 연구를 통해 신경 기계 번역이 기존 통계 접근 방식(또는 구문 기반 기계 번역(PBMT)이라고도 함)과 비교하여 언어 쌍에 따라 58%에서 87%까지 상대적인 개선을 제공한다는 것을 보여줍니다.


SYSTRAN은 "인간" 번역뿐만 아니라 다양한 시스템에서 제시된 여러 가지 옵션 중에서 선택하여 번역 품질을 평가하는 연구를 수행합니다. 그리고 그는 46%의 경우 인간 번역보다 신경 번역을 선호한다고 말합니다.

번역 품질: 돌파구가 있나요?

Google은 60% 이상의 성능 향상을 주장하지만 이 수치에는 약간의 문제점이 있습니다. 회사 대표자들은 "상대적 개선", 즉 기존 통계 번역기의 내용과 관련하여 인간 번역의 품질에 대한 신경적 접근 방식을 얼마나 가깝게 관리했는지에 대해 이야기합니다.


Google이 "Google의 신경 기계 번역 시스템: 인간과 기계 번역 사이의 격차 해소"라는 기사에서 제시한 결과를 분석한 업계 전문가들은 제시된 결과에 대해 상당히 회의적이며 실제로 BLEU 점수는 10%만 향상되었다고 말합니다. 네트워크 훈련 과정에서 사용되었을 가능성이 가장 높은 Wikipedia의 상당히 간단한 테스트에서 상당한 진전이 눈에 띄게 나타납니다.

PROMT 내에서 우리는 정기적으로 우리 시스템의 다양한 텍스트 번역을 경쟁사와 비교하므로 신경 번역이 제조업체가 주장하는 것처럼 실제로 이전 세대보다 우수한지 확인할 수 있는 예를 항상 보유하고 있습니다.

원본 텍스트(EN): 걱정하는 것은 누구에게도 도움이 되지 않았습니다.
Google 번역 PBMT: 걱정하지 않고 누구에게도 좋은 일을 하지 않았습니다.
Google 번역 NMT: 걱정은 누구에게도 도움이 되지 않습니다.

그건 그렇고, Translate.Ru에서 "걱정은 누구에게도 이익을 가져다주지 못했습니다"라는 동일한 문구를 번역하면 신경망을 사용하지 않고도 동일하게 유지된다는 것을 알 수 있습니다.

Microsoft Translator도 이 문제에 있어서 그리 멀지 않습니다. Google의 동료들과 달리 그들은 품질 향상에 대한 진술이 근거가 없는지 확인하기 위해 신경 및 전신경이라는 두 가지 결과를 번역하고 비교할 수 있는 웹 사이트도 만들었습니다.


이 예에서는 진전이 있다는 것을 알 수 있으며, 이는 정말 눈에 띕니다. 얼핏 보면 기계번역이 인간번역을 거의 따라잡았다는 개발자들의 말이 사실인 것 같다. 그러나 이것이 정말로 그러한가, 그리고 이것이 관점에서 무엇을 의미하는가? 실용적인 응용 프로그램비즈니스를 위한 기술?

안에 일반적인 경우신경망을 이용한 번역은 통계적 번역보다 우수하며, 이 기술은 엄청난 발전 가능성을 가지고 있습니다. 하지만 문제를 주의 깊게 살펴보면 모든 것이 진전되는 것은 아니며, 작업 자체와 관계없이 모든 작업을 신경망에 적용할 수 있는 것은 아니라는 점을 알 수 있습니다.

기계 번역: 과제는 무엇입니까?

자동 번역기에서 존재의 전체 역사를 볼 수 있으며 이는 이미 60년이 넘었습니다! – 그들은 일종의 마법을 기대하고 있었는데, 그것이 어떤 말이라도 즉시 외계인의 휘파람으로 바꿔주는 공상 과학 영화의 기계라고 상상했습니다.

실제로 작업은 다양한 수준으로 이루어지며, 그 중 하나는 일상적인 작업과 이해의 용이성을 위한 "보편적" 또는 말하자면 "일상" 번역을 포함합니다. 온라인 번역 서비스와 많은 모바일 제품은 이 수준의 작업에 잘 대처합니다.

이러한 작업에는 다음이 포함됩니다.

다양한 목적을 위한 단어 및 짧은 텍스트의 빠른 번역;
포럼에서 커뮤니케이션 중 자동 번역 소셜 네트워크에서, 메신저;
뉴스, 위키피디아 기사를 읽을 때 자동 번역;
여행 번역기(모바일).

위에서 논의한 신경망을 사용하여 번역 품질을 높이는 모든 사례는 바로 이러한 작업과 관련이 있습니다.

그러나 기계 번역에 관한 비즈니스 목표와 목표에 관해서는 상황이 조금 다릅니다. 예를 들어 다음은 기업 기계 번역 시스템에 대한 몇 가지 요구 사항입니다.

고객, 파트너, 투자자, 외국인 직원과의 비즈니스 서신 번역
웹사이트, 온라인 상점, 제품 설명, 지침의 현지화;
사용자 콘텐츠 번역(리뷰, 포럼, 블로그)
번역을 비즈니스 프로세스와 소프트웨어 제품 및 서비스에 통합하는 능력;
용어, 기밀 유지 및 보안을 준수하는 번역의 정확성.

번역 비즈니스 문제가 신경망을 사용하여 해결될 수 있는지, 그리고 정확히 어떻게 해결될 수 있는지 사례를 통해 이해해 보겠습니다.

케이스: 아마데우스

Amadeus는 세계 최대 규모의 글로벌 항공권 배포 시스템 중 하나입니다. 한편으로는 항공사가 연결되어 있고, 다른 한편으로는 변경 사항에 대한 모든 정보를 실시간으로 수신하고 이를 고객에게 전달해야 하는 대행사가 연결되어 있습니다.

임무는 다양한 소스로부터 예약 시스템에 자동으로 생성되는 관세(운임 규정) 적용 조건을 현지화하는 것입니다. 이 규칙은 항상 다음에 형성됩니다. 영어. 여기에서는 정보가 많고 자주 변경되기 때문에 수동 번역이 사실상 불가능합니다. 항공권 판매원은 고객에게 신속하고 유능하게 조언하기 위해 러시아어로 된 운임 규정을 읽고 싶어합니다.

일반적인 용어와 약어를 고려하여 관세 규정의 의미를 전달하는 명확한 번역이 필요합니다. 그리고 Amadeus 예약 시스템에 직접 통합되려면 자동 번역이 필요합니다.

→ 프로젝트의 작업과 구현은 문서에 자세히 설명되어 있습니다.

Amadeus Fare Rules Translator에 통합된 PROMT Cloud API를 통해 수행된 번역과 Google의 "신경망" 번역을 비교해 보겠습니다.

원본: 왕복 즉시 구매 요금

PROMT(분석적 접근): 왕복 항공편 즉시 구매 요금

GNMT: 라운드 구매

신경 번역기가 여기서 대처할 수 없다는 것은 명백하며, 조금 더 나아가서 그 이유가 분명해질 것입니다.

사례: 트립어드바이저

트립어드바이저는 소개가 필요 없는 세계 최대 규모의 여행 서비스 중 하나입니다. The Telegraph가 발표한 기사에 따르면 다양한 관광 사이트에 대한 다양한 언어로 된 새로운 리뷰가 매일 165,600개나 올라오고 있습니다.

임무는 이 리뷰의 의미를 이해하기에 충분한 번역 품질을 사용하여 관광 리뷰를 영어에서 러시아어로 번역하는 것입니다. 주요 어려움: 사용자 생성 콘텐츠의 일반적인 특징(오류, 오타, 단어 누락이 있는 텍스트).

또한 작업의 일부는 트립어드바이저 웹사이트에 게시되기 전에 번역 품질을 자동으로 평가하는 것이었습니다. 모든 번역된 콘텐츠를 수동으로 평가하는 것은 불가능하므로 기계 번역 솔루션은 번역된 텍스트의 품질을 평가하는 자동 메커니즘(신뢰도 점수)을 제공하여 트립어드바이저가 번역된 리뷰만 게시할 수 있도록 해야 합니다. 고품질.

이 솔루션에는 번역 결과의 통계적 사후 편집을 포함하여 최종 독자가 이해할 수 있는 더 높은 품질의 번역을 얻을 수 있는 PROMT DeepHybrid 기술이 사용되었습니다.

예를 살펴보겠습니다:

번역: 우리는 어젯밤에 변덕스럽게 그곳에서 식사를 했는데 정말 맛있는 식사였습니다. 서비스는 지나치게 부담하지 않고 세심했습니다.

PROMT (하이브리드 번역): 어젯밤에 기분 좋게 그곳에서 식사를 했는데 정말 멋진 식사였습니다. 직원들은 위압적이지 않고 세심했습니다.

GNMT: 어젯밤에 기분 좋게 거기서 식사를 했는데 정말 멋진 식사였어요. 서비스는 위압적이지 않고 세심했습니다.

여기서는 이전 예처럼 품질 측면에서 모든 것이 우울하지 않습니다. 그리고 일반적으로 매개변수 측면에서 이 문제는 신경망을 사용하여 잠재적으로 해결될 수 있으며 이는 번역 품질을 더욱 향상시킬 수 있습니다.

NMT를 비즈니스에 활용하는 데 따른 과제

앞서 언급했듯이 "보편적" 번역가는 항상 만족스러운 품질을 제공하지 않으며 특정 용어를 지원할 수 없습니다. 프로세스로 변환하기 위해 신경망을 통합하고 사용하려면 다음과 같은 기본 요구 사항을 충족해야 합니다.

신경망을 훈련할 수 있도록 충분한 양의 병렬 텍스트가 존재합니다. 종종 고객은 이 주제에 대한 텍스트가 거의 없거나 실제로 존재하지 않습니다. 분류되거나 자동 처리에 적합하지 않은 상태일 수 있습니다.

모델을 생성하려면 최소 1억 개의 토큰(단어 사용)이 포함된 데이터베이스가 필요하고 어느 정도 허용 가능한 품질(5억 개의 토큰)의 번역을 얻으려면 필요합니다. 모든 회사가 그렇게 많은 양의 자료를 보유하고 있는 것은 아닙니다.

얻은 결과의 품질을 자동으로 평가하기 위한 메커니즘 또는 알고리즘의 가용성.

충분한 컴퓨팅 성능.
"범용" 신경 변환기는 품질면에서 적합하지 않은 경우가 가장 많으며, 허용 가능한 품질과 작업 속도를 제공할 수 있는 자체 개인 신경망을 배포하려면 "소형 클라우드"가 필요합니다.

개인 정보 보호를 어떻게 해야 할지 명확하지 않습니다.
모든 고객이 보안상의 이유로 클라우드로 번역할 콘텐츠를 제공할 준비가 되어 있지는 않으며 NMT는 클라우드 우선 스토리입니다.

결론

일반적으로 신경망 자동 번역은 "순수한" 통계적 접근 방식보다 더 높은 품질의 결과를 생성합니다.
신경망을 통한 자동 번역은 "보편적 번역" 문제를 해결하는 데 더 적합합니다.
MT에 대한 접근 방식 중 그 자체로는 번역 문제를 해결하기 위한 이상적인 보편적인 도구가 없습니다.
비즈니스 번역 문제를 해결하려면 전문 솔루션만이 모든 요구 사항의 준수를 보장할 수 있습니다.

우리는 귀하의 번역 작업에 가장 적합한 번역기를 사용해야 한다는 절대적으로 명백하고 논리적인 결정에 도달했습니다. 내부에 신경망이 있는지 여부는 중요하지 않습니다. 작업 자체를 이해하는 것이 더 중요합니다.

태그: 태그 추가