Tại·sao chúng·ta cần xác·định ranh·giới của các từ·ngữ trong câu·văn Việt.

Xác·định ranh·giới của các từ·ngữ trong câu·văn để Tiếng Việt trở·nên trong sáng để làm gì?
Tác·giả: Đặng Hải Nguyên.

Nội·dung:

Xác·định ranh·giới của các từ·ngữ trong câu·văn Tiếng Việt (tiếng·nói & chữ·viết) được hiểu là phân·biệt rõ·ràng từ đơn, từ kép và từ ghép. Nói cách khác, xác·định ranh·giới từ (word boundary) là xác·định từ (word) và âm·tiết (syllable).

A. Những bất·lợi (disadvantage) của việc không phân·biệt từ và âm·tiết:
Việc không phân·biệt rõ·ràng từ (word) và âm·tiết (syllable) trong ngôn·ngữ Việt dẫn đến nhiều vấn·đề về phát·triển ngôn·ngữ Việt cũng như trong giao·tiếp bằng Tiếng Việt (tiếng·nói & chữ·viết), làm cho Tiếng Việt trở·nên kém chính·xác, kém trong sáng và khó có·thể hiểu đúng để có·thể làm đúng:
1. Ý·nghĩa câu·văn không rõ·ràng, tối·nghĩa, gây hiểu·lầm…
2. Làm·giảm·đi (reduce) tính chính·xác, tốc·độ đọc và hiểu của người·đọc (reader).

B. Những lợi·ích (advantage) của việc phân·biệt từ và âm·tiết:
1. Giúp việc dịch tự·động hoặc chuyển·ngữ tự·động nguồn thông·tin vô·cùng dồi·dào, phong·phú và miễn·phí về mọi vắn·đề thuộc mọi ngành khoa·học, kỹ·thuật, chính·trị, kinh·tế, giáo·dục, y·tế, vv., trên Liên·mạng·toàn·cầu (Internet) từ bất·cứ ngôn·ngữ nào trên thế·giới sang Tiếng Việt được nhanh·chóng·hơn và thêm chính·xác hoặc ít·nhất cũng giảm·thiểu thời·gian dịch·thuật.
2. Tiền·đề cho việc thiết·lập một cơ·chế thích·hợp nhằm giúp ngôn·ngữ Việt được ổn·định và rõ·ràng, tạo điều·kiện để Tiếng Việt trở·thành một ngôn·ngữ mang tính khoa·học, và sánh·vai cùng các ngôn·ngữ phát·triển khác trên thế·giới.
3. Định·hình cho hướng phát·triển của ngôn·ngữ Việt trong nhiều lãnh·vực khác nhau, nhất là lãnh·vực tự·động·hoá (automatize) và rô·bô·hoá (robotize) trong tương·lai.

– · o o O o o · –

Tiếng·nói (voice), lời·nói (speech) và ngôn·ngữ (language) của con·người — (human or human being) hay nhân·loại (humankind) — nói chung và của Người Việt nói riêng có liên·quan mật·thiết với·nhau. Khả·năng (ability) nội·tại của bản·thân ngôn·ngữ Việt, chức·năng (function) của ngôn·ngữ Việt và các kỹ·năng (skill) của Người Việt (Vietnamese) sử·dụng ngôn·ngữ Việt giữ vai·trò (role) vô·cùng quan·trọng trong công·cuộc phát·triển ngôn·ngữ của dân·tộc. Một ngôn·ngữ mang tính khoa·học, chính·xác, trong sáng ảnh·hưởng rất lớn đến nền·nếp suy·nghĩ một·cách luận·lý (logically), một·cách khoa·học (scientifically)… và cùng với truyền·thống văn·hoá tích·cực của dân·tộc là nền·tảng của mọi phát·triển thuộc mọi lãnh·vực của đất·nước (country).

A. Những bất·lợi (disadvantage) của việc không phân·biệt từ và âm·tiết:
Việc không phân·biệt rõ·ràng từ (word) và âm·tiết (syllable) trong ngôn·ngữ Việt dẫn đến nhiều vấn·đề về phát·triển ngôn·ngữ Việt cũng như trong giao·tiếp bằng Tiếng Việt, làm cho Tiếng Việt trở·nên kém chính·xác, kém trong sáng, và khó có·thể hiểu đúng để có·thể làm đúng.

Trong đời·sống thường·ngày (everyday) chung·quanh ta, ắt·hẳn chúng·ta đều đã nghe, đã đọc rất nhiều câu·nói, câu·văn, vv., có ý·nghĩa mơ·hồ, nhập·nhằng do ranh·giới giữa các từ không được tách·biệt rõ·ràng. Có·lẽ trong cuộc·sống tất·bật (on-the-go), thông·thường chẳng·ai (nobody) câu·mâu từng lời·nói để làm gì trong·khi còn nhiều việc khác phải lo, chuyện cơm·áo vặt·vảnh, chẳng·có·gì (nothing) nghiêm·trọng; chúng·ta đều dễ·dãi cho·qua và cho rằng đại·khái hiểu nhau là được rồi. Có·lẽ tính xuề·xoà của Người Việt chúng·ta cũng góp·phần không nhỏ trong vấn·đề kém chính·xác và kém trong sáng của Tiếng Việt? Thế·nhưng nếu có chút·ít thì·giờ rảnh·rổi để suy·nghĩ, kiểm·nghiệm lại những gì đã diễn·ra mỗi ngày (every day), chúng·ta sẽ thấy rằng lý·do chính·yếu của câu·văn Việt không rõ·ràng là do chúng·ta không phân·biệt “từ” và “âm·tiết”. Tôi xin đơn·cử một·vài ví·dụ sau đây để chúng·ta cùng suy·ngẫm:
1. Ý·nghĩa câu·văn không rõ·ràng, tối·nghĩa, gây hiểu·lầm…
a) Câu·văn “Tôi thích hoa hồng” có·thể được hiểu là:
* Tôi thích “hoa hồng” (I like “roses”), từ “hoa hồng” (rose là một loại hoa, chứ không phải bất·kỳ “cái hoa có màu hồng). Hoặc,
* Tôi thích “hoa·hồng” (I like “commission”), từ “hoa·hồng” có·nghĩa·là “tiền·cò” hay “tiền mối·lái” (commission). Xin mở ngoặc nói thêm, nó khác với “tiền·bo” — “tiền·boa” (từ phiên·âm của “pourboire” trong Tiếng Pháp) hay “tiền·típ” (từ phiên·âm của từ “tip” trong Tiếng Anh).

b) Câu·văn “Anh ấy đi săn sóc mẹ” có·thể được hiểu là:
* Anh·ấy “đi·săn” sóc mẹ (He “hunts” the mother squirrel). Hoặc,
* Anh·ấy đi “săn·sóc” mẹ (He goes to “take care” of his mother).

c) “sửa sai” có·thể được hiểu là:
* “Sửa·sai” (to correct): sửa sự/vật đang sai thành đúng. Hoặc,
* “Sửa sai” (incorrect repair): sửa sự/vật đang đúng, hoặc chưa đúng thành sai, từ trái·nghĩa với “sửa sai”/”sửa·chữa sai” là “sửa đúng”/“sửa·chữa đúng” (correct repair).

d) “Ông già đi nhanh quá” có·thể được hiểu là:
* Ông già đi nhanh quá (The old man walks too fast). Hoặc,
* Ông già·đi nhanh quá (You got much older)

2. Không phân·biệt “từ” và “âm·tiết” làm·giảm·đi (reduce) tính chính·xác, tốc·độ đọc và hiểu của người·đọc (reader), tuỳ·theo nó được đặt trong ngữ·cảnh (context) nào, tâm·trạng của độc·giả (reader) lúc đó như thế·nào và người đọc (people who read) đang suy·nghĩ hay đang quan·tâm về vấn·đề gì, câu·văn có·thể được hiểu theo nhiều ý·nghĩa khác·biệt (different meaning). Chẳng·hạn, câu·văn “Nhà mới được dọn sạch sẽ làm vừa lòng chủ nhà” có·thể được hiểu theo nhiều ý, nhiều nghĩa khác nhau (different from each other):

a) Nhà mới được “dọn·sạch” sẽ “làm” “vừa·lòng” chủ nhà.
<–> The new house being “cleaned out” (burglarized) will “make” the house owner “pleased”.
<–> Nhà mới bị (trộm) “lấy hết” sẽ “làm” chủ nhà “vừa·lòng”. Hoặc,

b) Nhà mới được “dọn·sạch” sẽ “làm·vừa·lòng” chủ nhà.
<–> The new house being “cleaned out” (burglarized) will “please” the house owner.
<–> Nhà mới bị (trộm) “lấy hết” sẽ “làm·vừa·lòng” chủ nhà. Hoặc,

c) Nhà “mới·được” “dọn·sạch” sẽ “làm” “vừa·lòng” chủ nhà.
<–> The house being “recently” “clean out” (burglarized) will “make” the house owner “pleased”.
<–> Nhà “vừa·mới·bị” (trộm) “lấy hết” sẽ “làm” chủ nhà “vừa·lòng”. Hoặc,

d) Nhà “mới·được” “dọn·sạch” sẽ “làm·vừa·lòng” chủ nhà.
<–> The house being “recently” “clean out” (burglarized) will “please” the house owner.
<–> Nhà “vừa·mới·bị” (trộm) “lấy hết” sẽ “làm·vừa·lòng” chủ nhà. Hoặc,

e) Nhà “mới” được “dọn sạch·sẽ” “làm” “vừa·lòng” chủ nhà.
<–> The “new” house being “cleaned up” “makes” the house owner “pleased”.
<–> Nhà “mới” được “dọn·`dẹp` sạch·sẽ” “làm” chủ nhà “vừa·lòng”. Hoặc,

f) Nhà “mới” được “dọn sạch·sẽ” “làm·vừa·lòng” chủ nhà.
<–> The “new” house being “cleaned up” “pleases” the house owner.
<–> Nhà “mới” được “dọn·`dẹp` sạch·sẽ” “làm·vừa·lòng” chủ nhà. Hoặc,

g) Nhà “mới·được” “dọn sạch·sẽ” “làm” “vừa·lòng” chủ nhà.
<–> The house being “recently” “cleaned up” “make” the house owner “pleased”.
<–> Nhà “vừa·mới·được” “dọn·`dẹp` sạch·sẽ” “làm” chủ nhà “vừa·lòng”. Hoặc,

h) Nhà “mới·được” “dọn sạch·sẽ” “làm·vừa·lòng” chủ nhà.
<–> The house being “recently” “cleaned up” “please” the house owner.
<–> Nhà “vừa·mới·được” “dọn·`dẹp` sạch·sẽ” “làm·vừa·lòng” chủ nhà.

Qua các ví·dụ trên, hẳn·nhiên chúng·ta đều thấy rằng xác·định ranh·giới của các từ trong câu·văn Tiếng Việt (Vietnamese sentence) là vấn·đề vô·cùng quan·trọng: hiểu đúng để có·thể làm đúng, đồng·thời tránh được biết·bao hệ·luỵ tai·hại do sự hiểu·lầm gây·ra!

B. Những lợi·ích (advantage) của việc phân·biệt từ và âm·tiết:
Việc xác·định ranh·giới từ và âm·tiết giúp ý·nghĩa câu·văn Việt thêm rõ·ràng,  làm·tăng tính chính·xác, tốc·độ đọc và hiểu của người·đọc (reader), ngoài·ra, nó còn giúp Tiếng Việt trở·nên ngôn·ngữ mang tính khoa·học,  sánh·vai cùng các ngôn·ngữ phát·triển khác trên thế·giới.

Ngày·nay, số·lượng người truy·cập Liên·mạng·toàn·cầu (Internet) mỗi ngày một tăng, chỉ tính riêng thời·điểm Tháng·sáu 2012 (June 2012) là trên hai tỷ người và theo bài đăng·yết (post) của “Business Insider” có khoảng·độ hơn nửa triệu Website trên “Liên·mạng·toàn·cầu” (Internet) với số·lượng vài tỉ trang wép (web pages). Trong thời·đại thông·tin (information age), con·người nói chung, người Việt·nam nói riêng phải đối·diện với dung·lượng thông·tin khổng·lồ và luôn biến·đổi. Hầu·hết mọi công·ty, tổ·chức, cơ·sở giáo·dục, vv., với quy·mô từ nhỏ đến lớn đều có những website riêng với đầy·đủ mọi thông·tin để quảng·bá việc kinh·doanh, thương·mại, nghiên·cứu khoa·học, giáo·dục, vv., của mình. Muốn nắm·bắt cơ·hội kinh·doanh, nghiên·cứu, vv., muốn tìm ra hướng đi thích·hợp về mọi phương·diện, đặc·biệt trong lãnh·vực giáo·dục từ mầm·non đến đại·học thuộc mọi ngành, nghề, và nghiên·cứu khoa·học… các chuyên·gia (expert), chuyên·viên (specialist) và nhà chuyên·môn (professional), vv., thường·xuyên bị choáng, ngộp… khi phải đối·diện với số·lượng thông·tin cần·thiết nhưng quá thừa·mứa và ở nhiều mức·độ tin·cậy khác nhau; do·đó, họ thường bị rối·trí trong việc tìm·ra căn·nguyên, cũng như đề·ra các giải·pháp hữu·hiệu bằng phương·pháp thủ·công để giải·quyết vấn·đề hiện·tại và phương·hướng phát·triển cho tương·lai.. Số·lượng từ·ngữ mới, thuật·ngữ mới trong mọi ngành nghề ra·đời hầu·như mỗi ngày (every day) và theo đó số·lượng “từ” và “âm·tiết” càng tăng vọt đáng·kể. Chúng·ta không thể hoặc khó có·thể khai·thác, xử·lý thông·tin bằng Tiếng Việt, hoặc ngôn·ngữ nước·ngoài với phương·pháp thủ·công vì dung·lượng khổng·lồ, tính luôn biến·đổi, phát·triển không ngừng của các thông·tin và mức·độ cập·nhật (update) có·khi được tính theo giây·đồng·hồ (second). Do·đó, việc xử·lý lượng thông·tin này bằng máy một·cách tự·động được đặt·ra và trở·thành vấn·đề vô·cùng nghiêm·trọng và cấp·bách trong công·cuộc phát·triển đất·nước ở hiện·tại cũng như trong tương·lai, thế·nhưng mấu·chốt của việc xử·lý tự·động này cũng bắt·đầu bằng việc phân·biệt “từ” và “âm·tiết”.

1. Việc phân·biệt tách·bạch “từ” và “âm·tiết” sẽ giúp việc dịch tự·động hoặc chuyển·ngữ tự·động nguồn thông·tin vô·cùng dồi·dào, phong·phú và miễn·phí về mọi vắn·đề thuộc mọi ngành khoa·học, kỹ·thuật, chính·trị, kinh·tế, giáo·dục, y·tế, vv., trên Liên·mạng·toàn·cầu (Internet) từ bất·cứ ngôn·ngữ nào trên thế·giới sang Tiếng Việt được nhanh·chóng·hơn và thêm chính·xác hoặc ít·nhất cũng giảm·thiểu thời·gian dịch·thuật; điều này sẽ giúp Người Việt·nam thuộc mọi tầng·lớp trong xã·hội có·thể trực·tiếp tiếp·cận mọi thông·tin (information), tin·tức (news) cập-nhật nhất (most up-to-date) về khoa·học-kỹ·thuật, chính·trị-kinh·tế, y·tế-giáo·dục, vv., trong thời·gian ngắn·nhất, từ ngay chính ngôn·ngữ và ngay chính quốc·gia đang diễn·ra sự·việc… nhằm phục·vụ cho việc giao·thương, nghiên·cứu, phát·triển, và hợp·tác quốc·tế… mở·mang dân-trí.
Thử xem·xét riêng lĩnh·vực “dịch tự·động” (automated translation or auto translation), công·việc đầu·tiên là phải giải·quyết vấn·đề nhập·nhằng như các ví·dụ được nêu ở trên, một công·việc tưởng·chừng đơn·giản nhưng thật·ra đằng·sau các chương·trình dịch tự·động, máy điện·toán phải làm·việc cật·lực, trãi·qua một quy·trình (process) phức·tạp so·sánh, đối·chiếu, phân·tích và tổng·hợp… nhằm xử·lý một số·lượng ngữ·liệu (corpus), thông·tin khổng·lồ để chọn·ra một câu·văn dịch tương·đối đúng. Một·số công·việc điển·hình cơ·bản trong xử·lý ngôn·ngữ tự·nhiên (Natural Language Processing), ví·dụ như: phân·tích hình·thái (morphological analysis); phân·tích ngữ·pháp (parser); xử·lý văn·bản, chẳng·hạn như kiểm·lỗi chính·tả, kiểm·lỗi văn·phạm (grammar), phân·loại văn·bản, tóm·tắt văn·bản, hiểu văn·bản, khai·thác văn·bản, vv. Tất·cả đều phải khởi·đầu từ việc xác·định ranh·giới — mấu·chốt đầu·tiên phải giải·quyết, phải khai·thông — của các từ trong câu·văn.
Ngoài·ra, chúng·ta còn cần phân·biệt (distinguish) các cách nói hay cách diễn·đạt khác nhau, chẳng·hạn như: “dịch một·cách tự·động” (translate automatically) hoặc “tự·động-dịch” (auto-translation) hoặc “tự·động·dịch” (autotranslation), vv.; “trước·khi chiến·tranh” (before war) và tiền·chiến (prewar) là hai cách nói khác nhau, tuy mang cùng một ý·nghĩa nhưng hàm·chứa một sự khác·biệt tinh·tế, tương·tự như·thế, chúng·ta có “sau·khi chiến·tranh” (after war) và “hậu·chiến” (postwar), vv., và nhiều vấn·đề khác trong lãnh·vực dịch máy (machine translation)… trong thời·đại điện·toán·hoá (computerize), tự·động·hoá (automatize), vv. cũng rất quan·trọng.
2. Việc phân·biệt từ và âm·tiết là tiền·đề cho việc thiết·lập một cơ·chế thích·hợp nhằm giúp ngôn·ngữ Việt được ổn·định và rõ·ràng, tạo điều·kiện để Tiếng Việt trở·thành một ngôn·ngữ mang tính khoa·học, và sánh·vai cùng các ngôn·ngữ phát·triển khác trên thế·giới.
Tính ổn·định và rõ·ràng là nền·tảng (fundamental), là gốc (root)… của việc phát·triển ngôn·ngữ Việt hay Việt-ngữ (Vietnamese language) — “tiếng Việt”+”chữ Việt”+”văn·hoá” Việt — của việc giao·tiếp bằng Tiếng Việt trong mọi lãnh·vực khoa·học và trong mọi ngành nghề của xã·hội, vv.
* Muốn đạt được mục·tiêu này, việc xác·định, quy·định… nhằm thiết·lập một·cách rõ·ràng một cơ·chế mang tính·cách mặc·nhiên (de facto) hoặc pháp·quy (de jure) tương·ứng với các quy·luật vân·động của Tiếng Việt, thích·ứng với các tiêu·chuẩn (standard), các tiêu·chí (criteria) của cấu·trúc từ·ngữ — từ·pháp ngược và xuôi, ngữ·pháp (parser) xuôi và ngược — nhằm giúp ngôn·ngữ Việt được ổn·định và rõ·ràng mà nhân·tố mang tính quyết·định này cũng chính là sự tách·bạch giữa từ và âm·tiết.
* Văn·phạm (grammar) Việt đương·nhiên phải tuân·thủ và phát·triển theo quy·luật riêng của ngôn·ngữ Việt, tuy·nhiên chúng·ta cũng cần tuân·thủ theo các quy·định (regulation), quy·tắc (rule), nguyên·tắc (principal), chính·sách (policy), luật·lệ (law), vv., mang tính toàn·cầu (globality), tính hoàn·vũ (universality) chung cho hệ·thống chữ·viết biểu·âm trên toàn thế·giới mà Tiếng Anh, Tiếng Pháp, vv., là hai ngôn·ngữ điển·hình, bởi·lẽ Tiếng Việt cũng nằm trong hệ·thống biểu·âm do sử·dụng hệ·thống chữ·cái La·tinh để ghi tiếng Việt. Hơn·nữa (moreover), Tiếng Anh là ngôn·ngữ giao·tiếp mặc·nhiên (de facto language) chung của nhân·loại (humankind) — dù người·ta thích/muốn hoặc không·thích/không·muốn — trên nhiều lãnh·vực với số·lượng (quantity) từ·ngữ lên đến trên-dưới một triệu từ; vì·thế, việc chọn Tiếng Anh làm ngôn·ngữ tham·chiếu sẽ giúp chúng·ta hệ·thống·hoá Tiếng Việt theo tiêu·chuẩn ngôn·ngữ khoa·học Tây·phương (Western scientific language standard), sẽ giúp chúng·ta dịch một·cách tự·động hàng trăm ngôn·ngữ nước·ngoài hay ngoại-ngữ (forange language) sang ngôn·ngữ Việt hay Việt-ngữ (Vietnamese language) được chính·xác, nhanh·chóng và dễ·dàng hơn.
* Vị·trí và ranh·giới từ·ngữ (word boundary) Việt thường được nối·kết (connect) chặt·chẽ với văn·phạm Việt — bao·gồm mọi mối quan·hệ (relationship) giữa từ·pháp Việt, ngữ·pháp (parser) Việt và cú·pháp (syntax) Việt.
3. Ngoài·ra, việc tách·bạch từ và âm·tiết còn giữ một vai·trò vô·cùng quan·trọng trong việc định·hình cho hướng phát·triển của ngôn·ngữ Việt trong nhiều lãnh·vực khác nhau, nhất là lãnh·vực tự·động·hoá (automatize) và rô·bô·hoá (robotize) trong tương·lai.
Tính minh·bạch, rõ·ràng của Tiếng Việt là nhân·tố vô·cùng quan·trọng, là mấu·chốt trong việc xử·lý bằng Tiếng Việt (tiếng·nói & chữ·viết; voice & script) tất·cả thiết·bị, dụng·cụ, đồ gia·dụng, máy·móc các loại, vv., vận·hành, điều·khiển… đặt căn·bản trên máy điện·toán đơn·giản hay phức·tạp trong kỷ·nguyên thông·tin toàn·cầu, kỷ·nguyên tự·động·hoá (automatize) và rô·bô·hoá (robotize).
Tất·cả mọi chuyện được trình·bày ở trên, chúng·ta chỉ nhìn, chỉ xét vấn·đề theo một chiều nghĩa·là xử·lý các từ·ngữ Việt hay “chữ Việt” bằng máy điện·toán (computer), còn phần ngược·lại, “làm cho máy điện·toán”, hoặc “làm cho máy rô·bô” hiểu được “tiếng Việt”, chẳng·hạn một việc đơn·giản như ra·lệnh bằng tiếng Việt để rô·bô quét hoặc hút·bụi nền/thảm nhà, rô·bô phải nghe và hiểu đúng “tiếng Việt” để có·thể làm đúng mà mấu·chốt của sự hiểu đúng này là sự tách·bạch giữa từ và âm·tiết; do·đó, việc phân·biệt từ và âm·tiết càng trở·nên nghiêm·trọng và cấp·cách. Một cơ·chế tương·tác hai chiều có khả·năng phân·biệt từ và âm·tiết Việt một cách tự·động và thích·hợp sẽ rút·ngắn thời·gian nghiên·cứu cũng như tiền·bạc, công·sức phải bỏ·ra trong hàng chục năm nhằm biến ước·mơ xử·lý điện·toán bằng “Tiếng Việt” — tương·tác hai chiều giữa nói/nghe (tiếng Việt) và viết/đọc (chữ Việt) — trở·thành hiện·thực. Khi nói về xử·lý điện·toán bằng “Tiếng Việt” hay “Tiếng·việt” — tôi viết·hoa (capitalize) từ đơn “Tiếng” trong “Tiếng Việt” hoặc âm·tiết “Tiếng” trong từ lưỡng·âm·tiết (disyllabic word) “Tiếng·việt” để chỉ “Tiếng Việt” = <“tiếng Việt”+”chữ Việt”> (Vietnamese=”Viet phonetic”+“Viet alphabetic script”).

C. Tóm·lại.
Chúng·ta may·mắn áp·dụng được hệ·thống chữ·viết dùng chữ·cái (alphabetic script system) thay·vì sử·dụng hệ·thống chữ·viết dùng Hán-tự (Chinese character script system) để ghi “tiếng nói Việt” (Vietnamese spoken sound) hoặc “tiếng·nói Việt (Vietnamese voice). Điều này có·nghĩa·là chúng·ta chỉ sử·dụng 29 chữ·cái (letter) — ký·tự in·được (printable character) được sử·dụng để đại·diện cho mỗi âm·vị (phoneme); những ký·tự khác chẳng·hạn như (␠, !, @, “, #, $, %, ^, &, *, )… hoặc các ký·tự điều·khiển (control character)… không đại·diện cho âm·vị nào cả nên không phải là chữ·cái — thay·vì dùng 31.577 ký·tự Nôm hay Nôm-tự (Nôm character) và 9.812 ký·tự Hán hay Hán·tự (Chinese character) để ghi tiếng Việt, âm Việt gồm 7.164 tiếng/âm Việt·nôm đơn (có·ý·nghĩa và không·ý·nghĩa) và 2.033 tiếng/âm Việt·nồm đơn (tất·cả đều là tiếng có·ý·nghĩa). Và một may·mắn nữa là Tiếng Việt tự ngàn·xưa đã là ngôn·ngữ đa·âm·tiết (polysyllabic language) — do những nghiệt·ngã lịch·sử để lại, ngày·nay, phần lớn (a big portion) từ·ngữ Việt là từ lưỡng·âm·tiết (disyllabic word) hoặc từ song·âm·tiết (bisyllabic word) thay·vì là ngôn·ngữ đa·âm·tiết theo đúng ý·nghĩa trọn·vẹn của từ. Chỉ tiếc là “tiếng nói Việt” hoặc “tiếng·nói Việt” hoặc “Tiếng Việt” (Vietnamese) đã bị các nhà ngôn·ngữ Người Việt (?) có tâm-trí (heart & mind) Hán-vọng lạc·dẫn (misleading) nên Tiếng Việt đã không được Người Việt ghi đúng, phản·ánh đúng ngôn·ngữ đa·âm·tiết của chính dân·tộc mình bằng cách viết đa·âm·tiết, theo đó mỗi tiếng đa·âm·tiết đã không được biểu·thị” (denote) bằng một từ đa·âm·tiết gồm·có nhiều âm·tiết (multiple syllables), và nhất là hệ·thống giáo·dục của ta từ mầm·non đến đại·học đã không chú·trọng đến giảng·dạy tính đa·âm·tiết của ngôn·ngữ Việt? Có·lẽ do hệ·quả của hằng ngàn năm Bắc-thuộc, chúng·ta vẫn còn chưa gột·rữa được ảnh·hưởng quá nặng·nề của lối viết đơn·âm·tiết (monosyllabic) và theo khuôn·phép của Hán-tự để ghi Tiếng Việt·nam đa·âm·tiết, vì·thế chúng·ta đã bị một·số nhà·ngôn·ngữ (linguist) và nhà·làm·văn·hoá Hán-vọng quyền-thế này thao·túng… lạc·dẫn? Nếu đúng như vậy, Người Việt·nam (Vietnamese) thật quá bất·hạnh!

Chúng·ta phải làm gì để có·thể giải·quyết vấn·đề nhập·nhằng về ý·nghĩa của từ·ngữ Việt, câu·văn Việt? Giữ·gìn và phát·triền ngôn·ngữ Việt như thế·nào để Tiếng Việt (“tiếng·nói” & “chữ·viết”) vẫn trong sáng trong “cách nói” cũng như trong “cách viết”? Mơ·ước của chúng·ta chỉ có·thể thành hiện·thực (reality) một·khi (once) đa·số (majority) hay phần·lớn (a big portion) Người Việt ý·thức được tầm quan·trọng của sự tách·bạch giữa từ và âm·tiết mà hạt·mầm hay khởi·đầu cho sự lan·toả ý·thức này là nhà trường. Điều vô·cùng quan·trọng, những người cầm-cân-nảy-mực, những người có·thẩm·quyền, vv., có nhận·biết và ý·thức rằng đây là nhiệm·vụ và trách·nhiệm của chúng·TA thay·vì của chúng·TÔI — Việc áp·đặt thay·thế “y” bằng “i” đã không được xã·hội đồng·tình (tình), đồng·thuận (lý) là một bài·học đáng·giá mà chúng·ta cần học-hỏi! Một sự lãng·phí tiền·bạc, thời·gian, công·sức, vv., và làm cho Tiếng Việt trở nên nghèo·nàn…

Phân·biệt “từ” và “âm·tiết” trong Tiếng Việt là rất quan·trọng, là phù·hợp với cấu·trúc đa·âm·tiết của Ngôn·ngữ Việt và cũng là xu·thế phát·triển tất·yếu của ngôn·ngữ loài·người. Cần có cách viết phù·hợp với cấu·trúc đa·âm·tiết của tiếng Việt nhằm phân·biệt “từ” và “âm·tiết” trong Tiếng Việt. Sử·dụng dấu chấm·lơ “·” (intrapunct) với một cơ·chế thích·hợp để phân·cách từ và âm·tiết, phối·hợp cùng với việc sử·dụng dấu·ngang·nối (hyphen) và dấu·ngang·cách (dash) theo quy·định của văn·phạm Tây·phương (Western grammar) — đương·nhiên phải có những thay·đổi thêm-bớt để phù·hợp với ngôn·ngữ Việt — với những bước đi chập·chững, đầy gian·truân phía trước, có là câu trả·lời, một giải·pháp thoả·đáng hay không, còn tuỳ·thuộc vào ý·thức xây·dựng và sự dang·tay đón nhận bằng lý·trí phán·đoán khách·quan và khoa·học, bằng tình·cảm mến·yêu, ước-mơ (wish & dream) — ước·mơ (ước, ước·ao: wish) và mơ·ước (mơ: dream) — Tiếng Việt·nam “trong” như pha·lê, “sáng” tựa ánh·nắng mặt·trời của mỗi Người Việt·nam!?

Tham·khảo:

Internet World Stats.
http://www.internetworldstats.com/stats.htm)

Business Insider
http://www.businessinsider.com/how-many-web-sites-are-are-there-2012-3

Morphemes and Words
http://www-rohan.sdsu.edu/dept/chinese/old_site/aspect/morphemeword.html

Human–computer interaction (Sự tương·tác con·người-máy·điện·toán hay Sự tương·tác giữa con·người và máy điện·toán).
http://en.wikipedia.org/wiki/Human%E2%80%93computer_interaction

Introducing Scientific Language.
http://www.education.vic.gov.au/school/teachers/teachingresources/discipline/science/continuum/pages/scilang.aspx

Từ Việt·nồm hay từ Nồm là gì?
https://tiengvietmenyeu.wordpress.com/2013/07/14/tu-viet-nom-hay-tu-nom-la-gi/#more-1690

Thuật toán tách từ
http://viet.jnlp.org/kien-thuc-co-ban-ve-xu-ly-ngon-ngu-tu-nhien/thuat-toan-tach-tu-tokenizer/thuat-toan-tach-tu

Phân·biệt intrapunct (intraword separation mark) và  interpunct (interword separation mark).
http://www.unicode.org/L2/L2009/09332-n3694.pdf

Dấu·chấm·lơ (intrapunct) trong Tiếng Việt (Vietnamese) còn có tên chính·thức trong Unicode là “middle dot” (“điểm giữa”, U+00B7)
http://unicodelookup.com/#·/1

Mid-spaced dot character (Unicode official name is “katakana middle dot”, codepoint U+30FB) in Japanese language.
http://unicodelookup.com/#・/1

Middle dots.
http://ja.wikipedia.org/wiki/中黒

http://en.wikipedia.org/wiki/Interpunct
http://en.wikipedia.org/wiki/Interword_separation

http://grammarist.com/

Advertisements

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Đăng xuất / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Đăng xuất / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Đăng xuất / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Đăng xuất / Thay đổi )

Connecting to %s

%d bloggers like this: