Những bất·lợi của cách viết chữ Việt luông·tuồng rập theo khuôn·phép của Hán-tự

Những bất·lợi của cách viết chữ Việt luông·tuồng rập theo khuôn·phép của Hán-tự.
Tác·giả: Đặng Hải Nguyên.

Trong cải·cách văn·tự (writing reform), chúng·ta chỉ hoàn·tất một nửa chặng đường: Thay·thế hệ·thống chữ·viết dùng Hán-tự (Chinese character script system) bằng hệ·thống chữ·viết dùng chữ·cái (alphabetic script system) để ghi tiếng Việt, nhưng cái gốc, cốt·lõi, nền·tảng của vấn·đề là cách viết luông·tuồng không đầu, không đuôi của lối viết đơn·âm·tiết (monosyllabic) và theo khuôn·phép Hán-tự độc·âm của Trung·hoa để ghi Tiếng Việt·nam đa·âm vẫn không hề thay·đổi. Có·lẽ do ảnh·hưởng quá nặng·nề của hằng ngàn năm Bắc-thuộc Trung·hoa còn vương·vãi lại. Cách viết luông·tuồng không phân·biệt từ và âm·tiết này chỉ thích·hợp với ngôn·ngữ độc·âm Trung·hoa với hệ·thống chữ·viết dùng ký·tự. Chữ·viết Việt, cách viết Việt phải phù·hợp với ngôn·ngữ đa·âm của Tiếng Việt, và đây cũng là xu·thế phát·triển tất·yếu của ngôn·ngữ loài người (human race) hay nhân·loại (humankind).

Chúng·ta phải làm gì để tháo·gở tất·cả mọi ảnh·hưởng Hán-Hoa tiêu·cực, chúng đã bám quá chặt, quá sâu, làm tiêu·hao sinh·khí của cây ngôn·ngữ Đại-Việt? Trên hết tất·cả, cần giải·độc những ý·nghĩ không còn phù·hợp với thời·đại, không còn đúng hoặc lạc·hậu so với những tiến·bộ của ngôn·ngữ·học thế·giới; cần thanh-tẩy những ý·nghĩ lệch·lạc về ngôn·ngữ Việt đã bị một·số nhà·ngôn·ngữ (linguist) và nhà·làm·văn·hoá Hán-vọng quyền-thế thao·túng… lạc·dẫn?

Tiếng·nói Trung·hoa là tiếng·nói độc·âm, do·đó sử·dụng ký·tự Hán để ghi tiếng/tiếng·nói độc·âm thuộc hệ·thống chữ·viết biểu·ý là thích·hợp đối với họ. Mỗi tiếng·nói Trung·hoa được phát·ra đều là tiếng đơn có·ý·nghĩa đầy·đủ được biểu·thị bằng một ký·tự Hán hoặc một tổ·hợp ký·tự Hán— tương·đương với “từ” (word) trong hệ·thống chữ·viết biểu·âm— ngoại·trừ một·số ít tiếng vay·mượn (khoảng·chừng 11%) là tiếng-hai-âm và tiếng-ba-âm chằng·hạn như [玻璃, bōlí] {pha li} (glass, thủy·tinh), [葡萄, pútáo] {bồ đào} (grape, nho), vv., thế·nhưng khi tách·rời chúng ra, mỗi tiếng đều là độc·âm và mang ý·nghĩa đầy·đủ riêng, trong·khi tiếng Việt·nam là tiếng·nói đa·âm vì phần lớn tiếng·nói Việt là những tiếng đôi, tiếng ba để chỉ một ý hoặc một nghĩa, và gồm·có cả tiếng đơn (hay tiếng một·âm) có·ý·nghĩa lẫn·cả những tiếng đơn không·ý·nghĩa, nhưng các tiếng đơn không·ý·nghĩa này có·khả·năng (capable) kết·hợp lại thành một “tiếng gồm một chuỗi âm·thanh liên·tục” (hay tiếng nhiều·âm) có·ý·nghĩa nhưng cũng chỉ một ý hoặc một nghĩa… chẳng·hạn như các từ ‘bâng·khuâng’, ‘lu·xu·bu’, ‘xấc·bấc·xang·bang’, vv., là những tiếng nhiều·âm. Hệ·luỵ của việc rập·khuôn cách viết không đầu, không đuôi của một nhóm ký·tự Hán (group of Han characters) đã dẫn đến việc không phân·biệt rõ·ràng từ (word) và âm·tiết (syllable) trong ngôn·ngữ Việt, làm cản·trở việc phát·triển ngôn·ngữ Việt cũng như trong giao·tiếp bằng Tiếng Việt, làm cho Tiếng Việt trở·nên kém chính·xác, kém trong sáng, và khó có·thể hiểu đúng để có·thể làm đúng. Thật vậy!

Trong đời·sống thường·ngày (everyday) chung·quanh ta, ắt·hẳn chúng·ta đều đã nghe, đã đọc rất nhiều câu·nói, câu·văn, vv., có ý·nghĩa mơ·hồ, nhập·nhằng do ranh·giới giữa các từ không được tách·biệt rõ·ràng. Có·lẽ trong cuộc·sống tất·bật (on-the-go), thông·thường chẳng·ai (nobody) câu·mâu từng lời·nói để làm gì trong·khi còn nhiều việc khác phải lo, chuyện cơm·áo vặt·vảnh, chẳng·có·gì (nothing) nghiêm·trọng; chúng·ta đều dễ·dãi cho·qua và cho rằng đại·khái hiểu nhau là được rồi. Có·lẽ tính xuề·xoà của Người Việt chúng·ta cũng góp·phần không nhỏ trong vấn·đề kém chính·xác và kém trong sáng của Tiếng Việt? Thế·nhưng nếu có chút·ít thì·giờ rảnh·rổi để suy·nghĩ, kiểm·nghiệm lại những gì đã diễn·ra mỗi ngày (every day), chúng·ta sẽ thấy rằng lý·do chính·yếu của câu·văn Việt không rõ·ràng là do chúng·ta không phân·biệt “từ” và “âm·tiết”. Tôi xin đơn·cử một·vài ví·dụ sau đây để chúng·ta cùng suy·ngẫm:

1. Ý·nghĩa câu·văn không rõ·ràng, tối·nghĩa, gây hiểu·lầm…

a) Câu·văn “Tôi thích hoa hồng” có·thể được hiểu là:
* Tôi thích “hoa hồng” (I like “roses”), từ “hoa hồng” (rose là một loại hoa, chứ không phải bất·kỳ “cái hoa có màu hồng”). Hoặc,
* Tôi thích “hoa·hồng” (I like “commission”), từ “hoa·hồng” có·nghĩa·là “tiền·cò” hay “tiền mối·lái” (commission). Xin mở ngoặc nói thêm, nó khác với “tiền·bo” — “tiền·boa” (từ phiên·âm của “pourboire” trong Tiếng Pháp) hay “tiền·típ” (từ phiên·âm của từ “tip” trong Tiếng Anh).

b) Câu·văn “Anh ấy đi săn sóc mẹ” có·thể được hiểu là:
* Anh·ấy “đi·săn” sóc mẹ (He “hunts” the mother squirrel). Hoặc,
* Anh·ấy đi “săn·sóc” mẹ (He goes to “take care” of his mother).

c) “sửa sai” có·thể được hiểu là:
* “Sửa·sai” (to correct): sửa sự/vật đang sai thành đúng. Hoặc,
* “Sửa sai” (incorrect repair): sửa sự/vật đang đúng, hoặc chưa đúng thành sai, từ trái·nghĩa với “sửa sai”/”sửa·chữa sai” là “sửa đúng”/“sửa·chữa đúng” (correct repair).

d) “Ông già đi nhanh quá” có·thể được hiểu là:
* Ông già đi nhanh quá (The old man walks too fast). Hoặc,
* Ông già·đi nhanh quá (You got much older)

2. Không phân·biệt “từ” và “âm·tiết” làm·giảm·đi (reduce) tính chính·xác, tốc·độ đọc và hiểu của người·đọc (reader), tuỳ·theo nó được đặt trong ngữ·cảnh (context) nào, tâm·trạng của độc·giả (reader) lúc đó như thế·nào và người đọc (people who read) đang suy·nghĩ hay đang quan·tâm về vấn·đề gì, câu·văn có·thể được hiểu theo nhiều ý·nghĩa khác·biệt (different meaning). Chẳng·hạn, câu·văn “Nhà mới được dọn sạch sẽ làm vừa lòng chủ nhà” có·thể được hiểu theo nhiều ý, nhiều nghĩa khác nhau (different from each other):

a) Nhà “mới” được “dọn·sạch” sẽ “ làm·vừa·lòng” chủ nhà.
<–> The new house being “cleaned out” (burglarized) will “please” the house owner.
<–> Nhà mới bị (trộm) “lấy hết” sẽ “làm·vừa·lòng” chủ nhà. Hoặc,

b) Nhà “mới” được “dọn sạch·sẽ” “làm·vừa·lòng” chủ nhà.
<–> The “new” house being “cleaned up” “pleases” the house owner.
<–> Nhà “mới” được “dọn·`dẹp` sạch·sẽ” “làm·vừa·lòng” chủ nhà. Hoặc,

c) Nhà “mới·được” “dọn·sạch” sẽ “làm·vừa·lòng” chủ nhà.
<–> The house being “recently” “clean out” (burglarized) will “please” the house owner.
<–> Nhà “vừa·mới·bị” (trộm) “lấy hết” sẽ “làm·vừa·lòng” chủ nhà. Hoặc,

d) Nhà “mới·được” “dọn sạch·sẽ” “làm·vừa·lòng” chủ nhà.
<–> The house being “recently” “cleaned up” “please” the house owner.
<–> Nhà “vừa·mới·được” “dọn·`dẹp` sạch·sẽ” “làm·vừa·lòng” chủ nhà.

Một ngôn·ngữ tuỳ·thuộc quá nhiều vào ngữ·cảnh (context), phải suy·nghĩ sau·khi đọc cả/toàn·bộ (whole) một câu·văn (sentence), một đoạn·văn (paragraph), vv.,  mới có·thể hiểu rõ ý·nghĩa của một từ·ngữ, một cụm·từ (phrase), vv., thì không thể là một·ngôn·ngữ trong sáng.

3. Tiếng Trung·hoa là ngôn·ngữ độc·âm— mỗi Hán-tự phần lớn (big portion) đều biểu·thị một tiếng một·âm, hoặc đôi·khi biểu·thị cho nhiều tiếng một·âm khác nhau (đồng-tự-dị-âm), thế·nhưng tất·cả đều là “tiếng có·ý·nghĩa” (meaningful sound) và mỗi tiếng một·âm này đều mang nhiều ý, nhiều nghĩa khác nhau— và hệ·thống chữ·viết dùng ký·tự đã buộc chặt họ vào cách viết rời·rạc không phân·biệt từ và âm·tiết, thế·nhưng khi bính·âm (pinyin) các Hán-tự, họ viết liền mỗi nhóm bính·âm (pinyin) chuyển·tự (transliterate) mỗi nhóm Hán-tự để biểu·thị (denote) một từ. Người Nhật·bản (Japanese) khi chuyển·tự tiếng Nhật·bản bằng hệ·thống chữ·viết rōmaji (Romanized Japanese) thay·vì Nhật-tự, họ viết liền các âm·tiết của một từ, và dùng dấu·cách (space) để phân·cách các từ·ngữ một·cách rõ·ràng.
Ví·dụ: Hãy khảo·sát câu·văn dưới·đây (below) bằng Tiếng Anh được dịch sang Tiếng Trung·hoa, Tiếng Nhật·bản và Tiếng Việt·nam:

Network computing is a generic term in computing which refers to computers or nodes working together over a network.

“Điện·toán mạng là thuật·ngữ phiếm·dụng (generic) trong (việc, lãnh·vực, ngành, vv.) điện·toán, nhằm·chỉ các máy điện·toán hoặc các nốt điện·toán làm·việc với·nhau qua mạng”.

Dưới đây là bản dịch của “Google translate”:

a. Tiếng Nhật·bản.
Nhật-tự: <ネットワークコンピューティングは、コンピュータまたはノードがネットワークを介して一緒に仕事を意味コンピューティングの一般的な用語です。>
rōmaji: <nettowākukonpyūtingu wa, konpyūta matawa nōdo ga nettowāku o kaishite issho ni shigoto o imi konpyūtingu no ippantekina yōgodesu.>

Nhận·xét: Người Nhật·bản chuyển·tự thẳng từ·ngữ computer thành <コンピューター, Konpyūtā>, và computing thành <コンピューティング, konpyūtingu> không qua trung·gian Hán-tự— tránh được sự lệ·thuộc vô·lý vào Trung·hoa và làm cho số·lượng âm của Tiếng Nhật·bản thêm phong·phú về ngữ·âm. Người Nhật·bản cũng viết liền các âm·tiết tạo·thành từ·ngữ như Người·tây·phương (Westerner) hay người Tây·phương (Western people).

b. Tiếng Trung·hoa.
Hán-tự: [網絡計算是計算一個通用術語,它指的是計算機或節點一起工作在網絡上。]
Pinyin: [wǎngluò jìsuàn shì jìsuàn yīgè tōngyòng shùyǔ, tā zhǐ de shì jìsuànjī huò jiédiǎn yīqǐ gōngzuò zài wǎngluò shàng.]
Việt·nồm: {võnglạc kếtoán thị kếtoán nhấtcá thôngdụng thuậtngữ, tha chỉ đích thị kếtoáncơ hoặc tiếtđiểm nhấtkhởi côngtác tại võnglạc thượng}

Nhận·xét: mỗi nhóm bính·âm được viết liền nhau để chuyển·tự (transliterate) mỗi nhóm ký·tự biểu·thị một từ·ngữ. Ví·dụ: “computer” được dịch là [計算機]— bính·âm là [jì suàn jī]— nhưng chúng được viết liền nhau là [jìsuànjī] thành một từ, trong·khi·đó Người Việt viết thành một cụm·từ cố·định và viết rời·rạc là {kế toán cơ}. Từ {điện não cơ} (máy não điện) để chỉ “computer” không còn thông·dụng nữa.

c. Tiếng Việt·nam.
Tiếng Việt·nam hiện·nay vẫn được viết theo lối viết Hán-tự rời·rạc— không phân·biệt từ·ngữ và âm·tiết— của Trung·hoa cách đây vài ngàn năm. Câu·văn C1: “Mạng máy tính là một thuật ngữ chung trong tính toán trong đó đề cập tới máy tính hay các nút làm việc với nhau qua mạng.
Tiếng Việt·nồm, dịch sát-từng-ký·tự (character-by-character) câu·văn bằng Hán-tự (Chinese character) nêu ở phần trên. Câu·văn C2: {võng lạc kế toán thị kế toán nhất cá thông dụng thuật ngữ, tha chỉ đích thị kế toán cơ hoặc tiết điểm nhất khởi công tác tại võng lạc thượng.}

Nhận·xét:
— Nếu đem so·sánh câu·văn C1 với C2 nêu trên, cải·cách văn·tự Việt·nam chỉ đơn·giản là thay·thế mỗi Hán-tự bằng một âm·tiết (syllable) hoặc một từ đơn·âm·tiết (monosyllabic word), và vẫn theo khuôn·phép Hán-tự độc·âm của Trung·hoa để ghi Tiếng Việt·nam.
— Trong·khi Người Trung·hoa viết liền các nhóm bính·âm (pinyin) chuyển·tự các nhóm ký·tự Trung·hoa tạo·nên một từ, và Người Nhật·bản cũng viết liền các các rōmaji tạo·nên một từ, chỉ riêng Người Việt·nam vẫn trung·thành với lối viết rời·rạc của Hán-tự cách đây vài ngàn năm.
— Bản dịch Tiếng Việt·nam có nhiều lỗi và không chính·xác do không phân·biệt từ và âm·tiết. Chẳng·hạn như “network computing” (điện·toán mạng) không phải là “mạng máy tính” (computer network, mạng máy điện·toán), vv.

Qua các ví·dụ trên, hẳn·nhiên chúng·ta đều thấy rằng xác·định ranh·giới của các từ trong câu·văn Tiếng Việt (Vietnamese sentence) là vấn·đề vô·cùng quan·trọng: hiểu đúng để có·thể làm đúng, đồng·thời tránh được biết·bao hệ·luỵ tai·hại do sự hiểu·lầm gây·ra! Việc bê nguyên·si cách viết luông·tuồng không đầu, không đuôi các văn·tự Trung·hoa một·cách vô·ý·thức vào cách viết chữ Việt, từ·ngữ Việt cần nên dẹp·bỏ hoặc tránh xa dần?

Việc chuyển·đổi từ hệ·thống chữ·viết dùng Hán-tự (Chinese character script system) sang hệ·thống chữ·viết dùng chữ·cái (alphabetic script system) để ghi tiếng Việt đòi·hỏi (require) một cơ·chế mới thích·hợp (appropriate) và đáp·ứng thoả·đáng (adequate) các nhu·cầu (need) mới. Chúng·ta cần hoàn·tất một nửa chặng đường cải·cách văn·tự còn lại bằng cách viết chữ Việt, Tiếng Việt đa·âm·tiết theo khuôn·phép mang tính toàn·cầu (globality), tính hoàn·vũ (universality) chung cho hệ·thống chữ·viết biểu·âm trên toàn thế·giới mà Tiếng Anh, Tiếng Pháp, vv., là hai ngôn·ngữ điển·hình. Đây là bước đi chiến·lược trong thời·đại thông·tin (information age), thời·đại điện·toán (computer age), thời·đại toàn·cầu·hoá (globalized age)… và cũng là một khởi·đầu cho việc thoát·khỏi sự lệ·thuộc, nô·lệ văn·hoá Trung·hoa, tạo cơ·hội để văn·hoá Việt·nam sinh·sôi nảy·nở với bản·sắc riêng của dân·tộc Việt·nam.

Chữ·viết Việt, cách viết Việt phải phù·hợp với ngôn·ngữ đa·âm của Tiếng Việt, và đây cũng là xu·thế phát·triển tất·yếu của ngôn·ngữ loài người (human race) hay nhân·loại (humankind) nói·chung, Tiếng Trung·hoa, Tiếng Nhật·bản nói·riêng.

– – · o O o · – –

Thuật·vựng (Glossary)

1. Chữ, chữ·viết hay mã (script): được dùng để chỉ tất·cả các phương·tiện cụ·thể— bao·gồm hình vẽ (drawing picture), biểu·tượng (symbol) hoặc dấu·hiệu (sign), ký·tự (character), chữ·cái (letter), từ·ngữ (word), vv.— được sử·dụng để biểu·thị (denote) hoặc đại·diện (represent) cho một âm·thanh (sound), một âm (phone), một ý (idea), hoặc một nghĩa (meaning) nào·đó gắn·liền với tiếng·nói (voice), lời·nói (speech) được con·người (human) sử·dụng để giao·tiếp.

2. Ký·tự (character):
Ký·tự: tất·cả hình vẽ (drawing picture), biểu·tượng (symbol), ký·hiệu (notation), dấu hiệu (sign), vv. nhằm giúp con·người giao·tiếp.

Hán-tự hay ký·tự Hán (Chinese character): Hệ·thống chữ·viết Trung·hoa (Chinese script system): Trong hệ·thống này, thay·vì sử·dụng một vài chục chữ·cái, người·ta sử·dụng hơn tám ngàn hình vẽ (drawing picture), biểu·tượng (symbol), dấu·hiệu (sign) phức·tạp hoặc “ký·tự” (character) để ghi tiếng·nói và ý-nghĩa (idea & meaning) của lời·nói (speech), để đại·diện cho hình·vị (morpheme) và từ·ngữ (word).

Nôm-tự hay ký·tự Nôm (Nôm character), hoặc chữ Nôm (Nôm script): Quốc-ngữ xưa (Vietnamese ancient national language), hệ·thống chữ·viết đặt·căn·bản trên ký·tự Trung·hoa (Chinese charater-based script system) để ghi tiếng (sound) Việt, phát·âm (pronounciation) Việt, âm (phone) Việt và tiếng·nói (voice) Việt. Nôm-tự đã hoàn·thành sứ·mạng lịch·sử là giữ·gìn và truyền·lại được tiếng·nói Việt, phong·tục, tập·quán, vv., của Người Việt cho các thế·hệ sau qua các tác·phẩm dân·gian, văn·chương truyền·khẩu, các tác·phẩm văn·chương Việt…
Ngày·nay, chữ Nôm (Quốc-ngữ xưa)— hệ·thống chữ·viết Việt sử·dụng chữ Hán để ghi âm Việt— đã tự-nhường·chỗ cho chữ Việt·nam (Quốc-ngữ nay)— hệ·thống chữ·viết Việt sử·dụng chữ·cái La·tinh và chữ·cái Việt để ghi âm Việt·nam. Nôm-tự đã tự·đào·thải và trở·thành di·sản văn·hoá.

3. Chữ·cái (letter): ký·tự in·được (printable character) được sử·dụng để đại·diện cho mỗi âm·vị (phoneme)— hay âm·thanh gốc, hay âm·thanh cái. Ví·dụ như từ “tôi” do ba chữ·cái hợp·lại, trong đó mỗi chữ·cái “t”, “ô” và “i” theo thứ·tự lần·lượt đại·diện cho các đơn·vị âm·thanh nhỏ·nhất /t/, /ô/ và /i/ hợp·thành tiếng /tôi/. Các ký·tự khác, chẳng·hạn như !, @, #, $, %, ^, &, *, (, ), _, +, vv., không phải là chữ·cái vì không đại·diện cho âm·vị nào·cả (any), nhưng ngược·lại, tất·cả chữ·cái đều là ký·tự.

– – · o O o · – –

** Thống·kê Số·lượng các Từ·ngữ của Toàn Bài·viết **
** Statistics of the Amount of Words of the Entire Article **

Thuật·ngữ “ký·tự” (character) được dùng trong bài·viết này được dùng để chỉ tất·cả ký·hiệu, dấu hiệu, vv. Ví·dụ như:
* Các ký·tự đặc·biệt (special character) !, @, #, $, %, ^, &, *, (, ), _, +, vv.
* Các dấu câu (punctuation mark) ví·dụ như “.”, “;”, “…”, “[“, “]”, vv., được kể là các ký·tự.
* Ký·tự Trung·hoa (Hán-tự, Chinease character) ví·dụ như 網, 絡, 計, 算, vv.
* Chữ·cái (letter)— ký·tự in·được (printable character) được sử·dụng để đại·diện cho mỗi âm·vị (phoneme)— được kể là ký·tự.
* “Một tổ·hợp chữ·cái nguyên·âm (a, ă, â, e, ê, o, ô) và dấu·thanh” được kể là “một ký·tự”, ví·dụ á, à, ả, ã và ạ; ằ, ẳ, ẵ, ắ và ặ, vv., được kể là ký·tự (ký·tự Việt). Trong unicode, chẳng·hạn, từ·ngữ “Hòa” và “Hoà” là hai từ khác nhau. “H-ò-a” được biểu·thị bằng “0x48-oxF2-0x391”, trong·khi·đó “H-o-à” được biểu·thị bằng “0x48-0x3BF-0xE0″.

Tôi sử·dụng chương·trình đếm từ·ngữ trên máy điện·toán (word counting program on the computer) để đếm số·lượng từ·ngữ trong bài này.

A. Nếu chúng·ta viết Tiếng Việt (Vietnamese) theo cách không phân·biệt từ·ngữ và âm·tiết như hiện·nay— trung·thành tuyệt·đối với cách viết luông·tuồng, không-đầu-không-đuôi, rời·rạc, vv., của lối viết Hán-tự cách đây vài ngàn năm… Chúng·ta được kết·quả là toàn bài·viết có:
— 67 câu·văn (sentences).
— 11.769 ký·tự (characters), nếu bao·gồm (included) cả dấu·cách·từ (space).
— 9.443 ký·tự, nếu không·bao·gồm (excluded) 2.326 dấu·cách·từ.
— 2.301 chữ (scripts) gồm·có các âm·tiết (syllable), hình·vị (morpheme) hoặc từ đơn·âm·tiết (monosyllablic word), và chúng được coi như nhau.

B. Nếu chúng·ta phân·biệt từ·ngữ và âm·tiết bằng cách dùng:
— dấu·chấm·lơ (intrapunct) để nối·liền các âm·tiết
— dấu·ngang·nối “-” (hyphen) đề nối liền một·số từ-tố (word element) và từ thành·phần của từ ghép hoặc cụm·từ cố·định
— dấu·cách·từ (space) hay khoảng trắng (white space) để phân·cách các từ·ngữ

Toàn bài·viết được máy điện·toán đếm và phân·chia kết·quả như·sau:
— 67 câu·văn (sentences)
— 11.769 ký·tự (characters) nếu bao·gồm (included) cả dấu·cách·từ (space)
— 9.973 ký·tự nếu không·bao·gồm (excluded) 1.796 dấu·cách·từ— còn được gọi là “khoảng trắng” (white space)
— 1.795 từ·ngữ (word), cụ·thể gồm:
a. từ đơn·âm·tiết (monosyllabic word), ví·dụ: tổng·cộng các từ·ngữ gồm “những”, “của”, “việc”, “ghi”, và “theo” được tính là năm từ.
b. từ lưỡng·âm·tiết (disyllabic word), ví·dụ: tổng·cộng các từ·ngữ gồm “bất·lợi”, “luông·tuồng”, “văn·tự”, và “khuôn·phép” được tính là bốn từ.
c. song·âm·tiết (bisyllabic word), ví·dụ: tổng·cộng các từ·ngữ gồm “hoàn·tất” và “xinh·đẹp” được tính là hai từ.
d. đa·âm·tiết (polysyllabic word), ví·dụ: tổng·cộng các từ·ngữ gồm “lí·la·lí·lắc” và “lu·xu·bu” được tính là hai từ.
e. “từ ghép dạng kín” (closed form compound word), ví·dụ: tổng·cộng các từ·ngữ gồm “áo·dài” (Vietnamese ao-dai), “cà·chua” (tomato), và “sung·sướng” (happy) được tính là ba từ.
f. “từ ghép dạng mở” (open form compound word), ví·dụ: tổng·cộng các từ·ngữ gồm “cách viết chữ Việt” và “máy cắt cỏ” được tính là bảy từ. Tổng·cộng các từ·ngữ gồm “áo dài” (long dress) và “cà chua” (loại cà có vị chua) được máy điện·toán đếm là bốn từ.
g. “từ ghép dạng viết·nối·ngang” (hyphenated form word), ví·dụ: tổng·cộng các từ·ngữ gồm “ăn-bao-bụng” (all-you-can-eat) và “sát-từng-ký·tự” (character-by-character) được tính là hai từ.
h. cụm·từ cố·định (fixed phrase), ví·dụ như “máy bay lên thẳng”— không dùng dấu·ngang·nối (hyphen)— được máy điện·toán coi·như (consider) “một nhóm từ” (a group of word), và đếm là bốn từ, nhưng nếu viết theo dạng viết·nối·ngang, ví·dụ như “máy-bay-lên-thẳng”; cụm·từ này sẽ được máy điện·toán đếm là một từ (cụm·từ) thay·vì một nhóm từ. Như·vậy, tổng·cộng các từ·ngữ “helicopter”, “trực·thăng” và “máy-bay-lên-thẳng” sẽ được chương·trình đếm từ·ngữ trên máy điện·toán cho kết·quả tổng·cộng là ba từ khi chúng·ta sử·dụng dấu·chấm·lơ “·” hoặc dấu·ngang·nối “-“.

Tham·khảo:

Morphemes and Words

http://www-rohan.sdsu.edu/dept/chinese/old_site/aspect/morphemeword.html

Introducing Scientific Language.

http://www.education.vic.gov.au/school/teachers/teachingresources/discipline/science/continuum/pages/scilang.aspx

Từ Việt·nồm hay từ Nồm là gì?

Từ Việt·nồm hay từ Nồm là gì?

Thuật toán tách từ
http://viet.jnlp.org/kien-thuc-co-ban-ve-xu-ly-ngon-ngu-tu-nhien/thuat-toan-tach-tu-tokenizer/thuat-toan-tach-tu

Phân·biệt intrapunct (intraword separation mark) và  interpunct (interword separation mark).
http://www.unicode.org/L2/L2009/09332-n3694.pdf

Dấu·chấm·lơ (intrapunct) trong Tiếng Việt (Vietnamese) còn có tên chính·thức trong Unicode là “middle dot” (“điểm giữa”, U+00B7)
http://unicodelookup.com/#·/1

Mid-spaced dot character (Unicode official name is “katakana middle dot”, codepoint U+30FB) in Japanese language.
http://unicodelookup.com/#・/1

Middle dots.
http://ja.wikipedia.org/wiki/中黒

Home

http://www.medieval.org/emfaq/misc/homophony.html

Ngày 5 Tháng·sáu (June) 2014

Published by

tiengvietmenyeu

Tiếng Việt mến yêu

Bình luận về bài viết này