Những lợi·ích của cách viết Tiếng Việt theo khuôn·phép chung của hệ·thống chữ·viết biểu·âm.

Những lợi·ích của việc hoàn·tất một nửa chặng đường cải·cách văn·tự còn lại bằng cách viết Tiếng Việt theo khuôn·phép chung của hệ·thống chữ·viết biểu·âm.

Tác·giả: Đặng Hải Nguyên.
Cập·nhật: Ngày 27 Tháng·mười·hai (December) 2015

Chúng·ta đã hoàn·tất được một nửa chặng đường dài trong cải·cách văn·tự (writing reform): Đó là thay·thế hệ·thống chữ·viết dùng Hán-tự (Chinese character script system) bằng hệ·thống chữ·viết dùng chữ·cái (alphabetic script system) để ghi tiếng Việt. Chúng·ta đã và đang tự·mãn với những thành·quả vô·cùng to·lớn của bước đầu cải·cách chữ·viết (script reform) vì sức lan·toả của hệ·thống chữ Việt mới, hệ·quả của cải·cách văn·tự theo chiều rộng; nói cách khác, chúng·ta phát·triển Tiếng Việt về lượng hay số·lượng (quantity). Ví·dụ như xoá·bỏ được quốc-nạn mù·chữ; để ghi tiếng Việt, chúng·ta chỉ phải nhớ và sử·dụng 29 ký·tự, nói chính·xác·hơn là 29 chữ·cái (letter)— ký·tự in·được (printable character) được sử·dụng để đại·diện cho mỗi âm·vị (phoneme)— thay·vì phải nhớ hơn 9.450 ký·tự Nôm hay Nôm-tự (Nôm character) được dùng để ghi tiếng Việt, âm Việt gồm 14.519 tiếng/âm Việt·nôm đơn, và 9.812 ký·tự Hán hay Hán-tự (Chinese character) được dùng để ghi 2.033 tiếng/âm Việt·nồm đơn (tất·cả đều là tiếng có·ý·nghĩa).

Chúng·ta đã và đang quên·đi một nửa chặng đường còn lại vô·cùng quan·trọng của cải·cách văn·tự: Đó là cải·cách Tiếng Việt theo chiều sâu; nói cách khác, đó là phát·triển về phẩm hay phẩm·chất (quality) của Tiếng Việt, là thay·thế cách viết chữ Việt luông·tuồng theo khuôn·phép Hán-tự bằng cách viết chữ Việt đa·âm·tiết. Đây là bước đi chiến·lược trong thời·đại mới (new age), thời·đại của thông·tin, điện·toán·hoá và toàn·cầu·hoá; bước đi bằng đôi hia bảy dặm này đòi·hỏi (require) một cơ·chế thoả·đáng mới (new adequate mechanism), thích·hợp (appropriate) đáp·ứng được các nhu·cầu (need) mới nhằn thay·thế khuôn·phép cũ đã lỗi·thời và không phù·hợp với cấu·trúc của Tiếng Việt; việc thay·thế này cũng là xu·thế phát·triển tất·yếu của ngôn·ngữ loài người.

Việc hoàn·tất một nửa chặng đường cải·cách văn·tự còn lại bằng cách viết chữ Việt đa·âm·tiết (polysyllabic), tách·bạch rõ·ràng giữa từ·ngữ và âm·tiết, biểu·thị tiếng·nói Việt đa·âm theo khuôn·phép mang tính toàn·cầu (globality), tính hoàn·vũ (universality) chung cho hệ·thống chữ·viết biểu·âm trên toàn thế·giới sẽ mang đến nhiều lợi·ích cho công·cuộc phát·triển đất·nước: Xem tiếp

Thuật·toán tách từ

Thuật toán tách từ
Tác giả: Lưu Tuấn Anh.

Nội dung

1. Các hướng tiếp cận
2. Các phương pháp được sử dụng
3. Ứng dụng bài toán tách từ
4. Thuật toán phổ biến
5. Một số vấn đề mở rộng

Tách từ là một quá trình xử lý nhằm mục đích xác định ranh giới của các từ trong câu văn, cũng có thể hiểu đơn giản rằng tách từ là quá trình xác định các từ đơn, từ ghép… có trong câu. Đối với xử lý ngôn ngữ, để có thể xác định cấu trúc ngữ pháp của câu, xác định từ loại của một từ trong câu, yêu cầu nhất thiết đặt ra là phải xác định được đâu là từ trong câu. Vấn đề này tưởng chừng đơn giản với con người nhưng đối với máy tính, đây là bài toán rất khó giải quyết.

Chính vì lý do đó tách từ được xem là bước xử lý quan trọng đối với các hệ thống Xử Lý Ngôn Ngữ Tự Nhiên, đặc biệt là đối với các ngôn ngữ thuộc vùng Đông Á theo loại hình ngôn ngữ đơn lập, ví dụ: tiếng Trung Quốc, tiếng Nhật, tiếng Thái, và tiếng Việt. Với các ngôn ngữ thuộc loại hình này, ranh giới từ không chỉ đơn giản là những khoảng trắng như trong các ngôn ngữ thuộc loại hình hòa kết như tiếng Anh…, mà có sự liên hệ chặt chẽ giữa các tiếng với nhau, một từ có thể cấu tạo bởi một hoặc nhiều tiếng. Vì vậy đối với các ngôn ngữ thuộc vùng Đông Á, vấn đề của bài toán tách từ là khử được sự nhập nhằng trong ranh giới từ. Xem tiếp

Nguyên·tắc tạo từ mới

Nguyên·tắc tạo từ mới.
Tác·giả: Đặng Hải Nguyên.

Nhờ chữ quốc-ngữ viết bằng chữ·cái La·tinh, chúng·ta không bị đóng·khung trong phép “lục thư” trong việc tạo từ mới. Trong cái rủi có cái may. Người Pháp đã mang chữ·viết, dùng chữ·cái (letter) abc để ghi âm Việt, thông·qua các cha·cố với mục·đích truyền·bá đạo Công·giáo La·mã (Roman Catholic). Song·song với việc đánh đuổi ngoại·xâm, chúng·ta có được vũ·khí quốc-ngữ vô·cùng lợi·hại (powerful) và kho chữ Việt·nồm (Nho-Việt) vô cùng phong·phú. Một chân·trời mới với khả·năng vô·hạn. Giới·hạn có·chăng là ở trí tưởng·tượng, tinh·thẩn sáng·tạo, khả·năng của mỗi chúng·ta trong việc sử·dụng chúng một·cách nghiêm·chỉnh, một·cách hệ·thống với một tinh·thần khoa·học; giới hạn là ở tính không bao·dung, không cởi·mở, bè·phái, kẻ·cả, tự·ái, kỳ·thị, cố·chấp, tị·hiềm, bài·ngoại.

Mong rằng từ·ngữ Việt nào đúng, chính·xác, chúng·ta sử·dụng mà không phân·biệt chúng thuộc vùng, miền nào; những gì không đúng, không chính·xác sẽ bị đào·thải với thời·gian. Chúng·ta không thể dùng cường·quyền, phe·phái áp·đặt những gì vô·lý vào ngôn·ngữ , vì nếu được đi chăng nữa, chúng chỉ là một mớ hổ·lốn, sẽ làm mất đi tính trong·sáng, tính hệ·thống và tính nhất·quán của Tiếng Việt. Sử·dụng, phổ·biến, giữ·gìn tính hệ·thống và nhất·quán của Tiếng Việt là nhiệm·vụ của mỗi Người Việt·nam (Vietnamese).

Xem tiếp

Cách phân·tích và giải·thích thuật·ngữ

Gốc từ Hi lạp và La-tinh trong Hệ thống Thuật ngữ Pháp – Anh
Tác giả: Nguyễn Hỹ Hậu

B. Danh pháp khoa học Anh, Pháp và tiếng Hy-lạp, La-tinh (tiếp theo)
I. Nguồn gốc thuật ngữ khoa học Anh, Pháp và lý do vay mượn tiếng Hy-lạp, La-tinh
II. Cấu tạo thuật ngữ khoa học dùng yếu tố từ thuộc các cổ ngữ
III. Cách phân tích và giải thích thuật ngữ

Bình thường, ít ai nghĩ đến chuyện tìm cách đặt từ ngữ, thuật ngữ khoa học mới. Thỉnh thoảng người làm khoa học phải gặp chuyện đó, nhất là khi họ nghiên cứu trong một lĩnh vực đang tiến triển mạnh.
Ðôi lúc người sản xuất dụng cụ hay hóa chất, dược phẩm mới, cần tìm một tên “kêu”, hấp dẫn và dễ nhớ, ….
Trái lại, thường xuyên ta cần phải tìm hiểu nghĩa của một thuật ngữ. Ngay cả người làm khoa học cũng có thể gặp từ mới do đồng nghiệp đặt ra, hoặc gặp từ lạ ở lĩnh vực khác.
Sinh viên thường gặp những thuật ngữ mới, phải tìm để hiểu, nhớ và dùng, như vậy mới có tiến bộ được trong chuyện học.

Ngày nay, dù không làm khoa học, ta cũng thường gặp thuật ngữ mới trong báo chí, quảng cáo, truyền hình, truyền thanh.
Phải nói ngay rằng, thật khó lòng mà hiểu một vấn đề nếu ta không chuẩn bị trước.
Ðây là điều cần thiết ở trong bất cứ lĩnh vực nào.

Tìm hiểu một từ mới bắt ta phải hiểu biết một phần nào đề tài, những vấn đề liên quan đến lĩnh vực đó.
Ví dụ nếu ta không biết cấu trúc phân tử thì khó lòng hiểu được khái niệm về hiện tượng đồng phân lập thể (điều này không có nghĩa là mình không thể hiểu những gì nằm ngoài tầm hiểu biết hiện tại và kinh nghiệm của mình).
Kiến thức của mỗi người có thể tăng dần bằng cách thâu thập thêm từ vựng cơ bản. Khái niệm về hiện tượng đồng phân lập thể chẳng hạn, có thể giải thích được cho người thường nếu bắt đầu tăng thêm hiểu biết của họ dần để họ có những khái niệm cần thiết.
Xem tiếp

Phương·châm trong việc tạo từ mới

Phương·châm trong việc tạo từ mới.
Tác·giả: Đặng Hải Nguyên.

Cập·nhật: 4 Tháng·giêng 2014.

1. Tính dân·tộc:

1.1 Thuần Việt (Việt·nôm) :
Sử·dụng những từ Việt·nôm (Nôm word) hay từ thuần Việt— gồm·có tiếng Kinh (Việt) và tiếng gốc Nam-Á— là thứ tiếng có ngữ·pháp xuôi.
Ví dụ:
Monosodium Glutamate (MSG): bột·ngọt hay vị·tinh.
stomach: dạ·dày hay bao·tử

1.2 Nho-Việt (Việt·nồm):
Những từ Việt·nồm (post-Nôm word) hay từ Nho-Việt do Người Việt (Vietnamese) tạo ra, là đặc·trưng riêng của Tiếng Việt (Vietnamese).
Ví dụ:
Người Trung·hoa dùng ký·kiệu (notation) hay ký·tự (character) “胃” để chỉ “stomach”, có nghĩa là “dạ·dày” của Tiếng Việt, họ đọc “胃”  theo âm Hán – Bắc·kinh là “wèi”; Người Việt ghi theo chữ·cái (letter) La·tinh là “vị” và đọc theo âm Việt lả ‘vị’. Từ Việt·nồm (Nho-Việt) “bao·tử”, Nho-tự là “包死” nghĩa là “dạ·dày” trong Tiếng Việt, khác với Hán-tự “包子” (bao tử) theo từ·điển ký·tự hay tự-điển (character dictionary) của Trung·hoa có nghĩa là “bánh bao” trong Tiếng Việt; Tiếng Anh không có từ tương·đương và được giải·thích là “steamed stuffed bun”, nghĩa·là “bánh hấp có nhưn bên trong”. Nếu dịch sát-từng-từ (word-by-word) từ Nho-Việt “bao tử” (包死), bao là cái bao, tử là chết; từ “bao·tử” không có ý·nghĩa cao xa gì·cả trong tiếng Trung·hoa; theo ngữ·pháp Trung·hoa, họ nói ngược lại là “死包” (tử bao: dead bag) dịch sát-từng-ký·tự (character-by-character) là “chết bao”, có nghĩa·là “cái bao chết”. Từ Việt·nồm (Nho-Việt) “bao tử” mang một ý·nghĩa thâm·thuý và triết·lý trong đó, là cái vô·cùng quan·trọng, cái gắn·liền với sự sinh·tồn, sự sống-chết.

Từ “vị·tinh” ghi theo Hán-tự (Chinese character) hoặc Nho-tự (Nho character) là “味 菁”. Nếu phiên·âm theo giọng·nói của tiếng Quảng·đông là ‘mì chính’. Nếu đọc “味 菁” theo âm Việt và ghi theo chữ·cái (letter) La·tinh thì từ Nho-Việt là “vị·tinh”. Từ “vị·tinh” thể·hiện rõ nghĩa của từ là tinh·chất của vị.

Please make yourself as home: xin tự·nhiên như ở nhà bạn: xin đừng “khách·sáo”— nói theo cách nói Trung·hoa và ghi theo Hán-tự là “客氣”; đọc theo âm Việt, tiếng Việt, và ghi theo hệ·thống chữ·cái Việt là “khách khí”. Từ “sáo” lột·tả được nhiều ý·nghĩa hơn là từ “khí” (氣). Hơn nữa, ta có những từ gần với nó như sáo·ngữ, nói như sáo.
Xem tiếp

Không nên dạy chữ Hán (Hán-tự) cho tất·cả học·sinh phổ·thông với tư·cách là một môn·học bắt·buộc

Nên hay không nên dạy chữ Nho (Hán tự – Chinese characters) cho học sinh phổ thông?

Tôi xin chép thêm phần kết và đặt ở đầu của bài viết nhằm giúp các độc·giả (reader) không có nhiều thời·giờ để đọc cả bài viết:

Chúng tôi cho rằng không nên, không cần thiết phải dạy chữ Nho cho học sinh phổ thông với tư cách là một môn học bắt buộc, có tính chất đại trà. Tất nhiên, những em học sinh phổ thông nào thích học chữ Nho mà nhà trường có điều kiện thì cũng có thể theo học ở những giờ ngoại khóa. Và chúng tôi cũng không phản đối việc giảng dạy cho học sinh phổ thông hiểu thế nào là chữ Nho, thế nào là chữ Nôm và học nhận diện một số lượng chữ Nho nào đó mà không bắt buộc phải nhớ như GS. Nguyễn Quang Hồng đề nghị.

Nội·dung chi·tiết: Xem tiếp

Thêm bốn Chữ·cái F, J, W và Z vào bảng·chữ·cái Tiếng Việt không nhằm mục·đích phục·vụ cho lối khõ Telex trên máy điện·toán.

Thêm bốn Chữ·cái F, J, W và Z vào bảng·chữ·cái Tiếng Việt không nhằm mục·đích phục·vụ cho lối khõ Telex trên máy điện·toán.

Tác·giả: Đặng Hải Nguyên.

Viện·dẫn lý·do để bác·bỏ việc thêm W, J, F và Z vào Tiếng Việt chỉ vì những chữ·cái này được sử·dụng cho bộ khõ Telex trên máy điện·toán cần nên xem·xét lại!? Lối khõ (type, typing) Telex– a way to type out Vietnamese– ngày càng được ít người sử·dụng. Nó sẽ trở·nên lỗi·thời (obsolete) trong tương·lai gần. Xem tiếp

Từ Hán-Việt là gì?

Từ Hán-Việt là gì?
Tác·giả: Đặng Hải Nguyên.

“Từ Hán-Việt” (Chinese-Vietnamese word) là những từ mà Người Việt chúng·ta vay·mượn của Người Trung·hoa, nói đúng hơn là các từ phiên·âm tiếng Quảng·đông, ghi bằng chữ·cái La·tinh và theo·cách Việt Nam, chẳng·hạn các tiếng như “tỉm xắm”, “hủ tíu”, “mì chính”, “xì dầu”, “cản tán”, vv., là những tiếng mà Người Việt·nam phát·âm lơ·lớ hay nhái gần·đúng tiếng Trung·hoa; Người Trung·hoa (Chinese), ngay·cả đứa con·nít, khi nghe chúng·ta nói những tiếng Hán-Việt này, họ hiểu ngay ta nói gì. Đây chính là  “tiếng Hán-Việt” đích·thực. Nói chính·xác hơn, tiếng Hán được đọc theo âm Hán (Quảng·đông) và được Người Việt bê nguyên·si vào ngôn·ngữ Việt. Xem tiếp

Tiếng·nói và Chữ·viết của Người Việt cổ.

Tiếng Nói Và Chữ Viết Của Người Việt Cổ.

Cung Đình Thanh

Bài này nhắm trình bầy điểm phức tạp nhất của con người Việt cổ là tiếng nói và chữ viết. Người Hoà Bình đã có tiếng nói như thế nào? Và khi họ tiến vào địa phận nay là Trung Hoa thì họ đã đem tiếng nói đó đóng góp thế nào trong sự phát triển tiếng nói và nhất là đã đóng góp gì trong việc hình thành chữ viết tại Trung Hoa?

Thực sự đây là vấn đề phức tạp, thuộc lãnh vực chuyên môn của các nhà ngôn ngữ học. Nhưng người viết lại không thể không đề cập đến bởi vấn đề tiếng nói dính liền với con người.

Muốn tìm hiểu con người thì không thể không tìm hiểu tiếng nói của họ và ngược lại tìm hiểu tiếng nói tức là biết được gốc tích của con người: tiếng nói là một đặc điểm của con người. Chỉ có con người mới có ngôn ngữ. Ta có thể nói tiếng nói hay ngôn ngữ là vấn đề thiên phú chỉ riêng cho con người mà không động vật nào khác có được. Theo cách dùng rộng rãi, người ta có thể nói ngôn ngữ của tình yêu, của hoa hồng hay của loài cá voi. Nhưng nói như vậy nếu không là thậm xưng thì cũng mang nặng tính lãng mạng thi phú bởi như trên đã nói, ngôn ngữ là một thiên phú được dành riêng cho con người. Điểm này sẽ được trình bầy rõ hơn ở phần dưới đây. Nếu nói cho đúng thì cái gọi là ngôn ngữ của tình yêu hay của loài cá voi thực sự phải hiểu đó chỉ là một hình thức truyền đạt ý tưởng theo cách nào đó chứ không hẳn đó là một ngôn ngữ đúng theo nghĩa của danh từ này. Xem tiếp

Một đề·nghị cải·cách chính·tả : viết liền, chính·xác và trong sáng

Một đề nghị cải cách chính tả : viết liền, chính xác và trong sáng

Hà Dương Tuấn

Viết liền một số từ phức(*) trong tiếng Việt không phải là một ý tưởng mới. Theo hiểu biết của người viết thì học giả Hoàng Xuân Hãn đã đề xướng việc này từ những năm 40, và cho đến gần cuối đời còn có những bài trong đó ông đã viết liền nhiều từ phức. Trong những năm 60 một tập san tại Việt Nam cũng thử nghiệm việc này, và nói chung đã không được hưởng ứng. Hiện nay trên mạng Internet tại Việt Nam, Mỹ, Pháp, Đức… một số ý kiến về việc viết liền đã lại nảy ra.

Tại sao đặt lại vấn đề ? Với sự phát triển của các ngành học thuật, yêu cầu có một ngôn ngữ viết chính xác và dễ hiểu càng ngày càng tăng, trong khi ngôn ngữ viết trên báo chí và truyền thông ngày càng thiếu chặt chẽ, chỉ cần thấy hiện nay không còn gạch nối trong các từ phức là đủ rõ tại sao. Bài viết này hy vọng hâm nóng lại cuộc thảo luận với một vài luận cứ mới, và những đề nghị cụ thể để giải quyết một số chi tiết còn tồn tại.

Ở đây bàn về các văn bản có tính học thuật, vì vậy quan tâm đầu tiên của tác giả là sự chính xác trong ngôn ngữ, tránh đa nghĩa đến mức tối đa, chứ không như trong thơ văn, có khi đa nghĩa là một ưu điểm. Xem tiếp

Những bất·lợi của cách viết chữ Việt luông·tuồng rập theo khuôn·phép của Hán-tự

Những bất·lợi của cách viết chữ Việt luông·tuồng rập theo khuôn·phép của Hán-tự.
Tác·giả: Đặng Hải Nguyên.

Trong cải·cách văn·tự (writing reform), chúng·ta chỉ hoàn·tất một nửa chặng đường: Thay·thế hệ·thống chữ·viết dùng Hán-tự (Chinese character script system) bằng hệ·thống chữ·viết dùng chữ·cái (alphabetic script system) để ghi tiếng Việt, nhưng cái gốc, cốt·lõi, nền·tảng của vấn·đề là cách viết luông·tuồng không đầu, không đuôi của lối viết đơn·âm·tiết (monosyllabic) và theo khuôn·phép Hán-tự độc·âm của Trung·hoa để ghi Tiếng Việt·nam đa·âm vẫn không hề thay·đổi. Có·lẽ do ảnh·hưởng quá nặng·nề của hằng ngàn năm Bắc-thuộc Trung·hoa còn vương·vãi lại. Cách viết luông·tuồng không phân·biệt từ và âm·tiết này chỉ thích·hợp với ngôn·ngữ độc·âm Trung·hoa với hệ·thống chữ·viết dùng ký·tự. Chữ·viết Việt, cách viết Việt phải phù·hợp với ngôn·ngữ đa·âm của Tiếng Việt, và đây cũng là xu·thế phát·triển tất·yếu của ngôn·ngữ loài người (human race) hay nhân·loại (humankind). Xem tiếp

Tại·sao chúng·ta cần xác·định ranh·giới của các từ·ngữ trong câu·văn Việt.

Xác·định ranh·giới của các từ·ngữ trong câu·văn để Tiếng Việt trở·nên trong sáng để làm gì?
Tác·giả: Đặng Hải Nguyên.

Nội·dung:

Xác·định ranh·giới của các từ·ngữ trong câu·văn Tiếng Việt (tiếng·nói & chữ·viết) được hiểu là phân·biệt rõ·ràng từ đơn, từ kép và từ ghép. Nói cách khác, xác·định ranh·giới từ (word boundary) là xác·định từ (word) và âm·tiết (syllable).

A. Những bất·lợi (disadvantage) của việc không phân·biệt từ và âm·tiết:
Việc không phân·biệt rõ·ràng từ (word) và âm·tiết (syllable) trong ngôn·ngữ Việt dẫn đến nhiều vấn·đề về phát·triển ngôn·ngữ Việt cũng như trong giao·tiếp bằng Tiếng Việt (tiếng·nói & chữ·viết), làm cho Tiếng Việt trở·nên kém chính·xác, kém trong sáng và khó có·thể hiểu đúng để có·thể làm đúng:
1. Ý·nghĩa câu·văn không rõ·ràng, tối·nghĩa, gây hiểu·lầm…
2. Làm·giảm·đi (reduce) tính chính·xác, tốc·độ đọc và hiểu của người·đọc (reader).

B. Những lợi·ích (advantage) của việc phân·biệt từ và âm·tiết:
1. Giúp việc dịch tự·động hoặc chuyển·ngữ tự·động nguồn thông·tin vô·cùng dồi·dào, phong·phú và miễn·phí về mọi vắn·đề thuộc mọi ngành khoa·học, kỹ·thuật, chính·trị, kinh·tế, giáo·dục, y·tế, vv., trên Liên·mạng·toàn·cầu (Internet) từ bất·cứ ngôn·ngữ nào trên thế·giới sang Tiếng Việt được nhanh·chóng·hơn và thêm chính·xác hoặc ít·nhất cũng giảm·thiểu thời·gian dịch·thuật.
2. Tiền·đề cho việc thiết·lập một cơ·chế thích·hợp nhằm giúp ngôn·ngữ Việt được ổn·định và rõ·ràng, tạo điều·kiện để Tiếng Việt trở·thành một ngôn·ngữ mang tính khoa·học, và sánh·vai cùng các ngôn·ngữ phát·triển khác trên thế·giới.
3. Định·hình cho hướng phát·triển của ngôn·ngữ Việt trong nhiều lãnh·vực khác nhau, nhất là lãnh·vực tự·động·hoá (automatize) và rô·bô·hoá (robotize) trong tương·lai.

– · o o O o o · – Xem tiếp