STATISTICAL MACHINE TRANSLATION – PART 1: What is SMT?

Author: Hồ Xuân Vinh


With all of my respects for Professor Jong-Hyeok Lee, this work is based on a serie of wonderful and interesting lectures of him.


Recenly, I had the opportunity to work and learn from a Machine Translation research team in POSTECH. I had an interview with project leader Hong-seok and planned to write a post about it, to share a brilliant story about how they could start from scratch 4 months ago and now can achieve result better than those giants in this field such as Google or Samsung. Unfortunately, due to secret policy, I could not make it public to share with everyone. This leads to another idea in my mind: why not sharing the knowledge in Statistical Machine Translation class with my own voice, for people who do not have the chance like me to listen to one of the amazing eyewitnesses of the adventure to conquer the mystery land of Natural Language Processing. This first part and the following would be explained by me, sometimes there are conversations between me and lab mates or professor to discuss further about concerned problem. I hope this could help who struggle seeing SMT as a black box, instead of an amazing crystal clear in day light.  Read More

Advertisements

Install MOSES for amateur in Ubuntu

-Please scroll down for English-

Moses có thể ví như 1 hệ thống phổ biến dùng trong dịch máy, nhưng lại khá khó khăn trong cài đặt. Bài viết này hướng dẫn bạn cách cài đặt Moses cho người mới biết, đủ để sử dụng mà không cần quan tâm đến các tham số phức tạp. Nhưng về lâu dài, bạn cần nắm rõ tuning để đạt được tham số tối ưu (điều mà mình đang cần ai đó chỉ giáo :)) ).

Read More

Install MGIZA for Ubuntu

-Please scroll down for English-

MGIZA viết tất cho Multi-threaded GIZA, cho thấy khả năng chạy nhanh hơn GIZA++ gốc bởi tận dụng khả năng của máy tính. Các bước cài đặt MGIZA có phần đơn giản hơn cả GIZA, 1 phần là nhờ file config của tác giả mình tham khảo.

Read More

Using GIZA++ for aligning words on Ubuntu

-Please scroll down for English-

Nếu đã quen sử dụng thì bạn nên chuyển sang MGIZA để chạy nhanh hơn.

Bài viết này chủ yếu dựa theo hướng dẫn trên blog của anh Lương Việt Thắng.

GIZA++ là công cụ phổ biến phục vụ gióng từ cho ngữ liệu song ngữ, tiền xử lý cho Dịch thống kê (Statistical Machine Translation). Các bạn có thể dễ dàng tìm các hướng dẫn trên mạng, tuy nhiên đa phần hơi rối ở bước cài đặt củng như sử dụng, Do đó bằng cách tiếp cận sử dụng file .sh, mình muốn đạt được 2 mục tiêu:  Read More

Install SRILM on Windows

-Please scroll down for English-

SRILM là 1 toolkit khá nổi trong việc huấn luyện các mô hình ngôn ngữ n-gram. Có 2 hệ điều hành mình đã thử:

  • Linux: Xem tại đây.
  • Window: Sử dụng cyqwin để cài đặt, sau 4,5 lần tháo ra rồi cài vào thì đã nắm được bí quyết. Hệ điều hành Window 10.

Read More