Những lợi·ích của cách viết Tiếng Việt theo khuôn·phép chung của hệ·thống chữ·viết biểu·âm.

Những lợi·ích của việc hoàn·tất một nửa chặng đường cải·cách văn·tự còn lại bằng cách viết Tiếng Việt theo khuôn·phép chung của hệ·thống chữ·viết biểu·âm.

Tác·giả: Đặng Hải Nguyên.
Cập·nhật: Ngày 27 Tháng·mười·hai (December) 2015

Chúng·ta đã hoàn·tất được một nửa chặng đường dài trong cải·cách văn·tự (writing reform): Đó là thay·thế hệ·thống chữ·viết dùng Hán-tự (Chinese character script system) bằng hệ·thống chữ·viết dùng chữ·cái (alphabetic script system) để ghi tiếng Việt. Chúng·ta đã và đang tự·mãn với những thành·quả vô·cùng to·lớn của bước đầu cải·cách chữ·viết (script reform) vì sức lan·toả của hệ·thống chữ Việt mới, hệ·quả của cải·cách văn·tự theo chiều rộng; nói cách khác, chúng·ta phát·triển Tiếng Việt về lượng hay số·lượng (quantity). Ví·dụ như xoá·bỏ được quốc-nạn mù·chữ; để ghi tiếng Việt, chúng·ta chỉ phải nhớ và sử·dụng 29 ký·tự, nói chính·xác·hơn là 29 chữ·cái (letter)— ký·tự in·được (printable character) được sử·dụng để đại·diện cho mỗi âm·vị (phoneme)— thay·vì phải nhớ hơn 9.450 ký·tự Nôm hay Nôm-tự (Nôm character) được dùng để ghi tiếng Việt, âm Việt gồm 14.519 tiếng/âm Việt·nôm đơn, và 9.812 ký·tự Hán hay Hán-tự (Chinese character) được dùng để ghi 2.033 tiếng/âm Việt·nồm đơn (tất·cả đều là tiếng có·ý·nghĩa).

Chúng·ta đã và đang quên·đi một nửa chặng đường còn lại vô·cùng quan·trọng của cải·cách văn·tự: Đó là cải·cách Tiếng Việt theo chiều sâu; nói cách khác, đó là phát·triển về phẩm hay phẩm·chất (quality) của Tiếng Việt, là thay·thế cách viết chữ Việt luông·tuồng theo khuôn·phép Hán-tự bằng cách viết chữ Việt đa·âm·tiết. Đây là bước đi chiến·lược trong thời·đại mới (new age), thời·đại của thông·tin, điện·toán·hoá và toàn·cầu·hoá; bước đi bằng đôi hia bảy dặm này đòi·hỏi (require) một cơ·chế thoả·đáng mới (new adequate mechanism), thích·hợp (appropriate) đáp·ứng được các nhu·cầu (need) mới nhằn thay·thế khuôn·phép cũ đã lỗi·thời và không phù·hợp với cấu·trúc của Tiếng Việt; việc thay·thế này cũng là xu·thế phát·triển tất·yếu của ngôn·ngữ loài người.

Việc hoàn·tất một nửa chặng đường cải·cách văn·tự còn lại bằng cách viết chữ Việt đa·âm·tiết (polysyllabic), tách·bạch rõ·ràng giữa từ·ngữ và âm·tiết, biểu·thị tiếng·nói Việt đa·âm theo khuôn·phép mang tính toàn·cầu (globality), tính hoàn·vũ (universality) chung cho hệ·thống chữ·viết biểu·âm trên toàn thế·giới sẽ mang đến nhiều lợi·ích cho công·cuộc phát·triển đất·nước:

1. Giúp việc dịch tự·động hoặc chuyển·ngữ tự·động nguồn thông·tin vô·cùng dồi·dào, phong·phú và miễn·phí về mọi vắn·đề thuộc mọi ngành khoa·học, kỹ·thuật, chính·trị, kinh·tế, giáo·dục, y·tế, vv., trên Liên·mạng·toàn·cầu (Internet) từ bất·cứ ngôn·ngữ nào trên thế·giới sang Tiếng Việt được nhanh·chóng·hơn và thêm chính·xác hoặc ít·nhất cũng giảm·thiểu thời·gian dịch·thuật.

2. Tiền·đề cho việc thiết·lập một cơ·chế thích·hợp nhằm giúp ngôn·ngữ Việt được ổn·định và rõ·ràng, tạo điều·kiện để Tiếng Việt trở·thành một ngôn·ngữ mang tính khoa·học, và sánh·vai cùng các ngôn·ngữ phát·triển khác trên thế·giới.

3. Định·hình cho hướng phát·triển của ngôn·ngữ Việt trong nhiều lãnh·vực khác nhau, nhất là lãnh·vực tự·động·hoá (automatize) và rô·bô·hoá (robotize) trong tương·lai.

– · o o O o o · –

Tiếng·nói (voice), lời·nói (speech) và ngôn·ngữ (language) của con·người— (human or human being) hay nhân·loại (humankind)— nói chung và của Người Việt nói riêng có liên·quan mật·thiết với·nhau. Khả·năng (ability) nội·tại của bản·thân ngôn·ngữ Việt, chức·năng (function) của ngôn·ngữ Việt và các kỹ·năng (skill) của Người Việt (Vietnamese) sử·dụng ngôn·ngữ Việt giữ vai·trò (role) vô·cùng quan·trọng trong công·cuộc phát·triển ngôn·ngữ của dân·tộc. Một ngôn·ngữ mang tính khoa·học, chính·xác, trong sáng ảnh·hưởng rất lớn đến nền·nếp suy·nghĩ một·cách luận·lý (logically), một·cách khoa·học (scientifically)… và cùng với truyền·thống văn·hoá tích·cực của dân·tộc là nền·tảng của mọi phát·triển thuộc mọi lãnh·vực của đất·nước (country).

Việc xác·định ranh·giới từ và âm·tiết giúp ý·nghĩa câu·văn Việt thêm rõ·ràng, làm·tăng tính chính·xác, tốc·độ đọc và hiểu của người·đọc (reader), ngoài·ra, nó còn giúp Tiếng Việt trở·nên ngôn·ngữ mang tính khoa·học, sánh·vai cùng các ngôn·ngữ phát·triển khác trên thế·giới.

Ngày·nay, số·lượng người truy·cập Liên·mạng·toàn·cầu (Internet) mỗi ngày một tăng, chỉ tính riêng thời·điểm Tháng·sáu 2012 (June 2012) là trên hai tỷ người và theo bài đăng·yết (post) của “Business Insider” có khoảng·độ hơn nửa triệu Website trên “Liên·mạng·toàn·cầu” (Internet) với số·lượng vài tỷ trang wép (web pages). Trong thời·đại thông·tin (information age), con·người nói chung, người Việt·nam nói riêng phải đối·diện với dung·lượng thông·tin khổng·lồ và luôn biến·đổi. Hầu·hết mọi công·ty, tổ·chức, cơ·sở giáo·dục, vv., với quy·mô từ nhỏ đến lớn đều có những website riêng với đầy·đủ mọi thông·tin để quảng·bá việc kinh·doanh, thương·mại, nghiên·cứu khoa·học, giáo·dục, vv., của mình. Muốn nắm·bắt cơ·hội kinh·doanh, nghiên·cứu, vv., muốn tìm ra hướng đi thích·hợp về mọi phương·diện, đặc·biệt trong lãnh·vực giáo·dục từ mầm·non đến đại·học thuộc mọi ngành, nghề, và nghiên·cứu khoa·học… các chuyên·gia (expert), chuyên·viên (specialist) và nhà chuyên·môn (professional), vv., thường·xuyên bị choáng, ngộp… khi phải đối·diện với số·lượng thông·tin cần·thiết nhưng quá thừa·mứa và ở nhiều mức·độ tin·cậy khác nhau; do·đó, họ thường bị rối·trí trong việc tìm·ra căn·nguyên, cũng như đề·ra các giải·pháp hữu·hiệu nếu dựa vào phương·pháp thủ·công để giải·quyết vấn·đề hiện·tại và đề·ra phương·hướng phát·triển cho tương·lai… Số·lượng từ·ngữ mới, thuật·ngữ mới trong mọi ngành nghề ra·đời hầu·như mỗi ngày (every day) và theo đó số·lượng “từ” và “âm·tiết” càng tăng vọt đáng·kể. Chúng·ta không thể hoặc khó có·thể khai·thác, xử·lý thông·tin bằng Tiếng Việt, hoặc ngôn·ngữ nước·ngoài với phương·pháp thủ·công vì dung·lượng khổng·lồ, tính luôn biến·đổi, phát·triển không ngừng của các thông·tin và mức·độ cập·nhật (update) có·khi được tính theo giây·đồng·hồ (second). Do·đó, việc xử·lý lượng thông·tin này bằng máy một·cách tự·động được đặt·ra và trở·thành vấn·đề vô·cùng nghiêm·trọng và cấp·bách trong công·cuộc phát·triển đất·nước ở hiện·tại cũng như trong tương·lai, thế·nhưng mấu·chốt của việc xử·lý tự·động này cũng bắt·đầu bằng việc phân·biệt “từ” và “âm·tiết”.

1. Việc phân·biệt tách·bạch “từ·ngữ” và “âm·tiết” sẽ giúp việc dịch tự·động hoặc chuyển·ngữ tự·động nguồn thông·tin vô·cùng dồi·dào, phong·phú và miễn·phí về mọi vắn·đề thuộc mọi ngành khoa·học, kỹ·thuật, chính·trị, kinh·tế, giáo·dục, y·tế, vv., trên Liên·mạng·toàn·cầu (Internet) từ bất·cứ ngôn·ngữ nào trên thế·giới sang Tiếng Việt được nhanh·chóng·hơn và thêm chính·xác hoặc ít·nhất cũng giảm·thiểu thời·gian dịch·thuật; điều này sẽ giúp Người Việt·nam thuộc mọi tầng·lớp trong xã·hội có·thể trực·tiếp tiếp·cận mọi thông·tin (information), tin·tức (news) cập-nhật nhất (most up-to-date) về khoa·học-kỹ·thuật, chính·trị-kinh·tế, y·tế-giáo·dục, vv., trong thời·gian ngắn·nhất, từ ngay chính ngôn·ngữ và ngay chính quốc·gia đang diễn·ra sự·việc… nhằm phục·vụ cho việc giao·thương, nghiên·cứu, phát·triển, và hợp·tác quốc·tế… mở·mang dân-trí.

Thử xem·xét riêng lĩnh·vực “dịch tự·động” (automated translation or auto translation), công·việc đầu·tiên là phải giải·quyết vấn·đề nhập·nhằng như trong các ví·dụ về những bất·lợi của cách viết luông·tuồng theo khôn·phép Hán-tự; một công·việc tưởng·chừng đơn·giản nhưng thật·ra đằng·sau các chương·trình dịch tự·động, máy điện·toán phải làm·việc cật·lực, trãi·qua một quy·trình (process) phức·tạp so·sánh, đối·chiếu, phân·tích và tổng·hợp… nhằm xử·lý một số·lượng ngữ·liệu (corpus), thông·tin khổng·lồ để chọn·ra một câu·văn dịch tương·đối đúng. Một·số công·việc điển·hình cơ·bản trong xử·lý ngôn·ngữ tự·nhiên (Natural Language Processing), ví·dụ như: phân·tích hình·thái (morphological analysis); phân·tích ngữ·pháp (parser); xử·lý văn·bản, chẳng·hạn như kiểm·lỗi chính·tả, kiểm·lỗi văn·phạm (grammar), phân·loại văn·bản, tóm·tắt văn·bản, hiểu văn·bản, khai·thác văn·bản, vv. Tất·cả đều phải khởi·đầu từ việc xác·định ranh·giới— mấu·chốt đầu·tiên phải giải·quyết, phải khai·thông— của các từ trong câu·văn.

Ngoài·ra, chúng·ta còn cần phân·biệt (distinguish) các cách nói hay cách diễn·đạt khác nhau, chẳng·hạn như: “dịch một·cách tự·động” (translate automatically) hoặc “tự·động-dịch” (auto-translation) hoặc “tự·động·dịch” (autotranslation), vv.; “trước·khi chiến·tranh” (before war) và tiền·chiến (prewar) là hai cách nói khác nhau, tuy mang cùng một ý·nghĩa nhưng hàm·chứa một sự khác·biệt tinh·tế, tương·tự như·thế, chúng·ta có “sau·khi chiến·tranh” (after war) và “hậu·chiến” (postwar), vv., và nhiều vấn·đề khác trong lãnh·vực dịch máy (machine translation)… trong thời·đại điện·toán·hoá (computerize), tự·động·hoá (automatize), vv., cũng rất quan·trọng.

2. Việc phân·biệt “từ·ngữ” và “âm·tiết” là tiền·đề cho việc thiết·lập một cơ·chế thích·hợp nhằm giúp ngôn·ngữ Việt được ổn·định và rõ·ràng, tạo điều·kiện để Tiếng Việt trở·thành một ngôn·ngữ mang tính khoa·học, và sánh·vai cùng các ngôn·ngữ phát·triển khác trên thế·giới.

Tính ổn·định và rõ·ràng là nền·tảng (fundamental), là gốc (root)… của việc phát·triển ngôn·ngữ Việt hay Việt-ngữ (Vietnamese language)— “tiếng Việt”+”chữ Việt”+”văn·hoá Việt”— của việc giao·tiếp bằng Tiếng Việt trong mọi lãnh·vực khoa·học và trong mọi ngành nghề của xã·hội, vv.

* Muốn đạt được mục·tiêu này, việc xác·định, quy·định… nhằm thiết·lập một·cách rõ·ràng một cơ·chế mang tính·cách mặc·nhiên (de facto) hoặc pháp·quy (de jure) tương·ứng với các quy·luật vân·động của Tiếng Việt, thích·ứng với các tiêu·chuẩn (standard), các tiêu·chí (criteria) của cấu·trúc từ·ngữ— từ·pháp ngược và xuôi, ngữ·pháp (parser) xuôi và ngược— nhằm giúp ngôn·ngữ Việt được ổn·định và rõ·ràng mà nhân·tố mang tính quyết·định này cũng chính là sự tách·bạch giữa từ·ngữ và âm·tiết.

* Văn·phạm (grammar) Việt đương·nhiên phải tuân·thủ và phát·triển theo quy·luật riêng của ngôn·ngữ Việt, tuy·nhiên chúng·ta cũng cần tuân·thủ theo các quy·định (regulation), quy·tắc (rule), nguyên·tắc (principal), chính·sách (policy), luật·lệ (law), vv., mang tính toàn·cầu (globality), tính hoàn·vũ (universality) chung cho hệ·thống chữ·viết biểu·âm trên toàn thế·giới mà Tiếng Anh, Tiếng Pháp, vv., là hai ngôn·ngữ điển·hình, bởi·lẽ Tiếng Việt cũng nằm trong hệ·thống biểu·âm do sử·dụng hệ·thống chữ·cái La·tinh, chữ·cái Việt (ví·dụ như ă, â , ê, ư, ơ, ô và đ) và  ký·tự Việt (ví·dụ như á, à, ả, ã, ạ; ằ, ẳ, ẵ, ắ, ặ, vv.) để ghi tiếng Việt. Ngày·nay, chữ·viết Việt (Vietnamese script) được biểu·thị theo unicode; ngoài chữ·cái La·tinh tiêu·chuẩn (standard Latin letter), mỗi chữ·cái Việt (Vietnamese letter) và mỗi ký·tự Việt (Vietnamese character)— còn có tên là Latin Extended Additional— được biểu·thị bằng một mã (code) riêng, từ·ngữ “Hoà” chẳng·hạn, “H-o-à” được biểu·thị bằng “0x48-0x3BF-0xE0″.

Hơn·nữa (moreover), Tiếng Anh là ngôn·ngữ giao·tiếp mặc·nhiên (de facto language) chung của nhân·loại (humankind)— dù người·ta thích/muốn hoặc không·thích/không·muốn— trên nhiều lãnh·vực với số·lượng (quantity) từ·ngữ lên đến trên-dưới một triệu từ; vì·thế, việc chọn Tiếng Anh làm ngôn·ngữ tham·chiếu sẽ giúp chúng·ta hệ·thống·hoá Tiếng Việt theo tiêu·chuẩn ngôn·ngữ khoa·học Tây·phương (Western scientific language standard), sẽ giúp chúng·ta dịch một·cách tự·động hàng trăm ngôn·ngữ nước·ngoài hay ngoại-ngữ (foreign language) sang ngôn·ngữ Việt hay Việt-ngữ (Vietnamese language) được chính·xác, nhanh·chóng và dễ·dàng hơn.

* Vị·trí và ranh·giới từ·ngữ (word boundary) Việt thường được nối·kết (connect) chặt·chẽ với văn·phạm Việt— bao·gồm mọi mối quan·hệ (relationship) giữa từ·pháp Việt, ngữ·pháp (parser) Việt và cú·pháp (syntax) Việt.

3. Ngoài·ra, việc tách·bạch “từ·ngữ” và “âm·tiết” còn giữ một vai·trò vô·cùng quan·trọng trong việc định·hình cho hướng phát·triển của ngôn·ngữ Việt trong nhiều lãnh·vực khác nhau, nhất là lãnh·vực tự·động·hoá (automatize) và rô·bô·hoá (robotize) trong tương·lai.

Tính minh·bạch, rõ·ràng của Tiếng Việt là nhân·tố vô·cùng quan·trọng, là mấu·chốt trong việc xử·lý bằng Tiếng Việt (tiếng·nói & chữ·viết; voice & script) tất·cả thiết·bị, dụng·cụ, đồ gia·dụng, máy·móc các loại, vv., vận·hành, điều·khiển… đặt căn·bản trên máy điện·toán đơn·giản hay phức·tạp trong kỷ·nguyên thông·tin toàn·cầu, kỷ·nguyên tự·động·hoá (automatize) và rô·bô·hoá (robotize).

Tất·cả mọi chuyện được trình·bày ở trên, chúng·ta chỉ nhìn, chỉ xét vấn·đề theo một chiều nghĩa·là xử·lý các từ·ngữ Việt hay “chữ Việt” bằng máy điện·toán (computer), còn phần ngược·lại, “làm cho máy điện·toán”, hoặc “làm cho máy rô·bô” nghe-và-hiểu được “tiếng Việt”, chẳng·hạn một việc đơn·giản như ra·lệnh bằng tiếng Việt để rô·bô quét hoặc hút·bụi nền/thảm nhà, rô·bô phải nghe và hiểu đúng “tiếng Việt” để có·thể làm đúng mà mấu·chốt của sự hiểu đúng này là sự tách·bạch giữa từ và âm·tiết; do·đó, việc phân·biệt từ và âm·tiết càng trở·nên nghiêm·trọng và cấp·cách. Một cơ·chế tương·tác hai chiều có khả·năng phân·biệt từ và âm·tiết Việt một cách tự·động và thích·hợp sẽ rút·ngắn thời·gian nghiên·cứu cũng như tiền·bạc, công·sức phải bỏ·ra trong hàng chục năm nhằm biến ước·mơ xử·lý điện·toán bằng “Tiếng Việt”— tương·tác hai chiều giữa nói/nghe (tiếng Việt) và viết/đọc (chữ Việt)— trở·thành hiện·thực. Khi nói về xử·lý điện·toán bằng “Tiếng Việt” hay “Tiếng·việt”, tôi viết·hoa (capitalize) từ đơn “Tiếng” trong “Tiếng Việt” hoặc âm·tiết “Tiếng” trong từ lưỡng·âm·tiết (disyllabic word) “Tiếng·việt” để chỉ “Tiếng Việt” = <”tiếng Việt”+”chữ Việt”> (Vietnamese=”Viet phonetic”+“Viet alphabetic script”).

Tóm·lại.
Chúng·ta may·mắn áp·dụng được hệ·thống chữ·viết dùng chữ·cái (alphabetic script system) thay·vì sử·dụng hệ·thống chữ·viết dùng Hán-tự (Chinese character script system) để ghi “tiếng nói Việt” (Vietnamese spoken sound) hoặc “tiếng·nói Việt (Vietnamese voice). Điều này có·nghĩa·là chúng·ta chỉ sử·dụng 29 chữ·cái (letter)— ký·tự in·được (printable character) được sử·dụng để đại·diện cho mỗi âm·vị (phoneme); những ký·tự khác chẳng·hạn như (␠, !, @, “, #, $, %, ^, &, *, )… hoặc các ký·tự điều·khiển (control character)… không đại·diện cho âm·vị nào cả nên không phải là chữ·cái— thay·vì dùng 9.450 ký·tự Nôm hay Nôm-tự (Nôm character) để ghi tiếng Việt, âm Việt gồm 14.519 tiếng/âm Việt·nôm đơn (trong đó hơn 7.164 là tiếng có·ý·nghĩa) và 9.812 ký·tự Hán hay Hán-tự (Chinese character) để ghi 2.033 tiếng/âm Việt·nồm đơn (tất·cả đều là tiếng có·ý·nghĩa). Và một may·mắn nữa là Tiếng Việt tự ngàn·xưa đã là ngôn·ngữ đa·âm·tiết (polysyllabic language)— do những nghiệt·ngã lịch·sử để lại, ngày·nay, phần lớn (a big portion) từ·ngữ Việt là từ lưỡng·âm·tiết (disyllabic word) hoặc từ song·âm·tiết (bisyllabic word) thay·vì là ngôn·ngữ đa·âm·tiết theo đúng ý·nghĩa trọn·vẹn của từ. Chỉ tiếc là “tiếng nói Việt” hoặc “tiếng·nói Việt” hoặc “Tiếng Việt” (Vietnamese) đã không được Người Việt ghi đúng, phản·ánh đúng ngôn·ngữ đa·âm·tiết của chính dân·tộc mình bằng cách viết đa·âm·tiết, theo đó mỗi tiếng đa·âm·tiết đã không được biểu·thị” (denote) bằng một từ đa·âm·tiết gồm·có nhiều âm·tiết (multiple syllables), và nhất là hệ·thống giáo·dục của ta từ mầm·non đến đại·học đã không chú·trọng đến giảng·dạy tính đa·âm·tiết của ngôn·ngữ Việt? Có·lẽ do hệ·quả của hằng ngàn năm Bắc-thuộc, chúng·ta vẫn còn chưa gột·rữa được ảnh·hưởng quá nặng·nề của lối viết đơn·âm·tiết (monosyllabic) và theo khuôn·phép của Hán-tự để ghi Tiếng Việt·nam đa·âm·tiết?

Chúng·ta phải làm gì để có·thể giải·quyết vấn·đề nhập·nhằng về ý·nghĩa của từ·ngữ Việt, câu·văn Việt? Giữ·gìn và phát·triền ngôn·ngữ Việt như thế·nào để Tiếng Việt (“tiếng·nói” & “chữ·viết”) vẫn trong sáng trong “cách nói” cũng như trong “cách viết”? Mơ·ước của chúng·ta chỉ có·thể thành hiện·thực (reality) một·khi (once) đa·số (majority) hay phần·lớn (a big portion) Người Việt ý·thức được tầm quan·trọng của sự tách·bạch giữa từ và âm·tiết mà hạt·mầm hay khởi·đầu cho sự lan·toả ý·thức này là nhà trường. Điều vô·cùng quan·trọng, những người cầm-cân-nảy-mực, những người có·thẩm·quyền, vv., có nhận·biết và ý·thức rằng đây là nhiệm·vụ và trách·nhiệm của chúng·TA thay·vì của chúng·TÔI. Phân·biệt “từ” và “âm·tiết” trong Tiếng Việt là rất quan·trọng, là phù·hợp với cấu·trúc đa·âm·tiết của Ngôn·ngữ Việt và cũng là xu·thế phát·triển tất·yếu của ngôn·ngữ loài·người. Cần có cách viết phù·hợp với cấu·trúc đa·âm·tiết của tiếng Việt nhằm phân·biệt “từ” và “âm·tiết” trong Tiếng Việt. Sử·dụng dấu chấm·lơ “·” (intrapunct) với một cơ·chế thích·hợp để nối·liền các âm·tiết (syllable) của một từ, dùng dấu cách (space) hay khoảng trắng (white space) để phân·cách các từ·ngữ (word), phối·hợp cùng với việc sử·dụng dấu·ngang·nối (hyphen) để nối·liền các từ·ngữ và dấu·ngang·cách (dash) theo quy·định của văn·phạm Tây·phương (Western grammar)— đương·nhiên phải có những thay·đổi thêm-bớt để phù·hợp với ngôn·ngữ Việt— với những bước đi chập·chững, đầy gian·truân phía trước, có là câu trả·lời, một giải·pháp thoả·đáng hay không, còn tuỳ·thuộc vào ý·thức xây·dựng và sự dang·tay đón nhận bằng lý·trí phán·đoán khách·quan và khoa·học, bằng tình·cảm mến·yêu, ước-mơ (wish & dream)— ước·mơ (ước, ước·ao: wish) và mơ·ước (mơ: dream)— Tiếng Việt·nam “trong” như pha·lê, “sáng” tựa ánh·nắng mặt·trời của mỗi Người Việt·nam!?

Cuối·cùng, hoàn·tất một nửa chặng đường cải·cách văn·tự còn lại bằng cách viết Tiếng Việt theo khuôn·phép chung của hệ·thống chữ·viết biểu·âm là việc làm vô·cùng quan·trọng, thế·nhưng phần quyết·định vẫn luôn thuộc về các bạn.

Cước·chú (footnote):
Âm/tiếng Việt·nồm là âm/tiếng mà Người Việt·nam đọc Hán-tự theo giọng Việt, âm Việt của Người Việt·nam. Ví·dụ, Từ Monosodium Glutamate (MSG), Người Việt·nam gọi nó là“vị·tinh”— tiếng Việt bản·địa là “bột·ngọt” (âm/tiếng Việt·nôm).
Người Trung·hoa hoặc Người Việt·nam thời xưa ghi theo Hán-tự (Chinese character) hoặc Nho-tự (Nho character) là “味 菁”. Nếu đọc “味 菁” theo âm/tiếng của Người Quảng·đông và phiên·âm theo cách Việt·nam là “mì chính”. Nếu đọc theo âm/tiếng Bắc·kinh (Beijing) và bính·âm (pinyin) theo cách Trung·hoa là “wèijīng”. Người Việt·nam đã du·nhập từ·ngữ mới này để làm phong·phú thêm cho Tiếng Việt, nhưng đọc “味 菁” theo âm Việt và ghi theo chữ·cái (letter) La·tinh là “vị·tinh”. Từ “vị·tinh” thể·hiện rõ nghĩa của từ là “tinh·chất của vị”. Dùng thuật·ngữ hay tên·gọi ‘âm/tiếng Hán-Việt’ để chỉ âm/tiếng Việt mới “vị·tinh” này là điều cần nên tránh; đây là tên·gọi không đúng và dễ đưa·đến những ý·tưởng và ấn·tượng (impression) sai·lầm về Tiếng Việt. Thay·vì·thế, chúng·ta nên gọi “vị·tinh” là ‘âm/tiếng Việt’ mới đúng với lý·lẽ vì đây không là âm Hán— Các âm/tiếng chẳng·hạn như “mì chính”, “tỉm xắm”, vv., mới chính là ‘âm/tiếng Hán-Việt’ thực·sự, và “wèijīng”, “dimsum”, vv.,  là âm Trung·hoa.

– – · o O o · – –

* Thống·kê số·lượng các từ·ngữ của toàn bài·viết.

Tôi sử·dụng chương·trình đếm từ·ngữ trên máy điện·toán (word counting program on the computer) để đếm số·lượng từ·ngữ trong bài này. Chúng·ta được kết·quả là toàn bài·viết có 14.192 ký·tự (character), không·bao·gồm khoảng trắng (white spaces are excluded). Thuật·ngữ “ký·tự” được dùng trong bài·này được dùng để chỉ tất·cả ký·hiệu, dấu hiệu, vv. Ví·dụ như:
* Các ký·tự đặc·biệt (special character) !, @, #, $, %, ^, &, *, (, ), _, +, vv.
* Các dấu câu (punctuation mark) ví·dụ như “.”, “;”, “…”, “[“, “]”, vv., được kể là các ký·tự.
* ký·tự Trung·hoa (Hán-tự, Chinease character) ví·dụ như 爬, 疤, 笆, 羓, 豝, vv.
* chữ·cái (letter)— ký·tự in·được (printable character) được sử·dụng để đại·diện cho mỗi âm·vị (phoneme)— được kể là ký·tự.
* “một tổ·hợp chữ·cái nguyên·âm (a, ă, â, e, ê, o, ô) và dấu·thanh” được kể là “một ký·tự”, ví·dụ á, à, ả, ã và ạ; ằ, ẳ, ẵ, ắ và ặ, vv., được kể là ký·tự. Trong unicode, chẳng·hạn, từ·ngữ “Hòa” và “Hoà” là hai từ khác nhau. “H-ò-a” được biểu·thị bằng “0x48-OxF2-0x391”, trong·khi·đó “H-o-à” được biểu·thị bằng “0x48-0x3BF-0xE0”.

A. Nếu chúng·ta viết các từ·ngữ Việt một·cách luông·tuồng, không đầu không đuôi như hiện nay, chương·trình đếm từ·ngữ sẽ cho chúng·ta kết·quả là toàn bài·viết có 3.419 chữ (script), và tất·cả các chữ đều được viết rời·rạc. Chúng·ta khó có·thể phân·biệt chữ đó là âm·tiết (syllable), hoặc hình·vị (morpheme), hoặc từ đơn·âm·tiết (monosyllablic word).

B. Nếu chúng·ta thêm dấu chấm·lơ “·” (intrapunct) hay “intraword separation mark” để nối liền các âm·tiết của một từ, và dấu·ngang·nối “-” (hyphen) đề nối liền các từ·ngữ (từ ghép hoặc cụm·từ cố·định), và dấu cách·từ (space or white space) đề phân·cách các từ·ngữ, toàn bài·viết được máy điện·toán đếm tổng·cộng là 2.394 từ·ngữ (word). Cụ·thể gồm:
a. từ đơn·âm·tiết (monosyllabic word), ví·dụ: Tổng·cộng các từ·ngữ gồm “những”, “của”, “việc”, “ghi”, và “theo” được tính là năm từ.
b. từ lưỡng·âm·tiết (disyllabic word), ví·dụ: Tổng·cộng các từ·ngữ gồm “lợi·ích”, “cải·cách”, “văn·tự”, và “khuôn·phép” được tính là bốn từ.
c. song·âm·tiết (bisyllabic word), ví·dụ: Tổng·cộng các từ·ngữ gồm “hoàn·tất” và “xinh·đẹp” được tính là hai từ.
d. đa·âm·tiết (polysyllabic word), ví·dụ: Tổng·cộng các từ·ngữ gồm “lí·la·lí·lắc” và “lu·xu·bu” được tính là hai từ.
e. “từ ghép dạng kín” (closed form compound word), ví·dụ: Tổng·cộng các từ·ngữ gồm “áo·dài” (Vietnamese ao-dai), “cà·chua” (tomato), và “sung·sướng” (happy) được tính là ba từ.
f. “từ ghép dạng mở” (open form compound word), ví·dụ: Tổng·cộng các từ·ngữ gồm “cách viết chữ Việt” và “máy cắt cỏ” được tính là bảy từ. Tổng·cộng các từ·ngữ gồm “áo dài” (long dress) và “cà chua” (loại cà có vị chua) được máy điện·toán đếm là bốn từ.
g. “từ ghép dạng viết·nối·ngang” (hyphenated form word), ví·dụ: Tổng·cộng các từ·ngữ gồm “ăn-bao-bụng” (all-you-can-eat) và “ăn-trong-xe” (eat-in-the-car) được tính là hai từ.
h. cụm·từ cố·định (fixed phrase), ví·dụ như “máy bay lên thẳng”— không dùng dấu·ngang·nối (hyphen)— được máy điện·toán coi·như (consider) “một nhóm từ” (a group of word), và đếm là bốn từ, nhưng nếu viết theo dạng viết·nối·ngang, ví·dụ như “máy-bay-lên-thẳng”; cụm·từ này sẽ được máy điện·toán đếm là một từ (cụm·từ) thay·vì một nhóm từ. Như·vậy, tổng·cộng các từ·ngữ “helicopter”, “trực·thăng” và “máy-bay-lên-thẳng” sẽ được chương·trình đếm từ·ngữ trên máy điện·toán cho kết·quả tổng·cộng là ba từ khi chúng·ta sử·dụng dấu·chấm·lơ “·” hoặc dấu·ngang·nối “-“.

* Tham·khảo:

Internet World Stats.
http://www.internetworldstats.com/stats.htm)

Business Insider
http://www.businessinsider.com/how-many-web-sites-are-are-there-2012-3

Morphemes and Words
http://www-rohan.sdsu.edu/dept/chinese/old_site/aspect/morphemeword.html

Introducing Scientific Language. http://www.education.vic.gov.au/school/teachers/teachingresources/discipline/science/continuum/pages/scilang.aspx

Từ Việt·nồm hay từ Nồm là gì?
https://tiengvietmenyeu.wordpress.com/2013/07/14/tu-viet-nom-hay-tu-nom-la-gi/#more-1690

Thuật toán tách từ
http://viet.jnlp.org/kien-thuc-co-ban-ve-xu-ly-ngon-ngu-tu-nhien/thuat-toan-tach-tu-tokenizer/thuat-toan-tach-tu

Phân·biệt intrapunct (intraword separation mark) và  interpunct (interword separation mark).

Click to access 09332-n3694.pdf

Dấu·chấm·lơ (intrapunct) trong Tiếng Việt (Vietnamese) còn có tên chính·thức trong Unicode là “middle dot” (“điểm giữa”, U+00B7)
http://unicodelookup.com/#·/1

Mid-spaced dot character (Unicode official name is “katakana middle dot”, codepoint U+30FB) in Japanese language.
http://unicodelookup.com/#・/1

Middle dots.
http://ja.wikipedia.org/wiki/中黒

http://en.wikipedia.org/wiki/Interpunct

http://grammarist.com/

http://www.medieval.org/emfaq/misc/homophony.html

Ngày 13 Tháng·sáu (June) 2014

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Đăng xuất /  Thay đổi )

Google photo

Bạn đang bình luận bằng tài khoản Google Đăng xuất /  Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Đăng xuất /  Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Đăng xuất /  Thay đổi )

Connecting to %s

%d bloggers like this: