(91) 350-9520 support@omarine.org M-F: 7 AM - 7 PM; Weekends: 9 AM - 5 PM

Kịch bản ngôn ngữ tiếng Việt

Có một dạo giới lập trình hay thảo luận về chủ đề kí tự Unicode, bao gồm Unicode dựng sẵn và Unicode tổ hợp. Unicode dựng sẵn thì dễ hiển thị còn Unicode tổ hợp lại tách được nguyên âm và dấu theo bảng chữ cái tiếng Việt.

Tuy nhiên cả hai dạng Unicode này đều đơn thuần lấy mã kí tự trong bảng mã Unicode có sẵn. Đây chỉ là bước đầu trong một quá trình quốc tế hóa kí tự. Các kí tự Unicode nguyên gốc này được thu lượm trên toàn thế giới là một bao đóng kí tự trong đó có các kí tự trùng nhau từ nhiều quốc gia. Cùng là một nguyên âm với một dấu nhất định nhưng mỗi nước lại có cách bỏ dấu khác nhau, có nước thì bỏ dấu trên cao, nước khác lại bỏ dấu thấp sát nguyên âm. Cho nên nếu chỉ dựa vào mã kí tự sẽ không thể sắp chữ theo yêu cầu. Nếu chọn kí tự có dấu sẵn thì không phù hợp với bảng chữ cái. Hơn nữa, số lượng kí tự trong văn bản tăng lên quá nhiều gây phức tạp cho việc đoán nhận ngôn ngữ và sắp xếp trật tự văn bản. Ngoài ra, vì có các kí tự dùng chung bởi nhiều quốc gia nên một đoạn văn bản nếu chỉ dựa vào mã kí tự sẽ không được biết là thuộc vào ngôn ngữ nào. Không biết ngôn ngữ của văn bản thì làm sao chương trình soạn thảo văn bản có thể tự động sửa lỗi chính tả cho người đánh máy?

Như vậy, chỉ có mã kí tự không thôi là chưa đủ, cần phải có thông tin bổ sung về ngôn ngữ. Đó là kịch bản ngôn ngữ. Kịch bản ngôn ngữ nhúng trong văn bản, về mặt kĩ thuật, tạo ra văn bản có định dạng (format text).

Vn Keyboard 2007 là một bộ gõ để tạo ra loại văn bản như thế, văn bản dựa trên cơ sở Unicode có nhúng kịch bản ngôn ngữ tiếng Việt: văn bản Unicode tiếng Việt.

Dưới đây là phiên bản mới nhất, phiên bản 4.2, đã được sửa đổi, và từ đây bạn đã có thể sử dụng nó để gõ Unicode tiếng Việt trên môi trường Net.


*Để khám phá đơn giản cơ sở dựa trên Unicode của văn bản, bạn có thể dùng Vn Keyboard 2007 để gõ một câu tiếng Việt trong Notepad- một trình soạn thảo văn bản được bao hàm trong hệ điều hành Windows. Khi bạn Save file,  Notepad sẽ thông báo có định dạng Unicode trong văn bản, và khuyến cáo bạn nên Save file dạng Unicode, nếu không sẽ mất thông tin. Nếu bạn chọn kiểu file là ‘Unicode’, vì Notepad là một chương trình soạn thảo văn bản trơn (plain text) nên nó không giữ được thông tin định dạng, điều nó có thể làm là đổi mã kí tự sang Unicode thô. Trường hợp này bạn được một file văn bản Unicode tổ hợp.

Bây chúng ta thử xem Unicode tổ hợp liên hệ với Unicode tiếng Việt ra sao. Bạn hãy để Vn Keyboard 2007 ở chế độ gõ tiếng Việt Unicode, chạy WordPad- chương trình soạn thảo văn bản định dạng rtf (rich text format) của Windows. Bạn sẽ thấy hộp combo ngôn ngữ trên thanh công cụ hiển thị Vietnamese. Paste văn bản Unicode tổ hợp vào WordPad, bạn sẽ được văn bản Unicode tiếng Việt. Đó là do bộ gõ đang duy trì kịch bản tiếng Việt nên WordPad có cơ sở để đổi sang Unicode tiếng Việt. Lúc này nếu bạn Save file, bạn sẽ có một file văn bản có chứa định dạng với định dạng là kịch bản ngôn ngữ tiếng Việt.

Điều tương tự như vậy không thực hiện được với Unicode dựng sẵn. Lí do là vì có một số kí tự dùng chung với các nước khác được nhận biết là thuộc về ngôn ngữ khác, không phải tiếng Việt.

Advertisements

Gửi phản hồi

This site uses Akismet to reduce spam. Learn how your comment data is processed.

%d bloggers like this: