Archive for the ‘Làm sao để Việt-ngữ trở·nên một ngôn·ngữ chính·xác và khoa·học.’ Category

Thêm bốn Chữ·cái F, J, W và Z vào bảng·chữ·cái Tiếng Việt không nhằm mục·đích phục·vụ cho lối khõ Telex trên máy điện·toán.

Thêm bốn Chữ·cái F, J, W và Z vào bảng·chữ·cái Tiếng Việt không nhằm mục·đích phục·vụ cho lối khõ Telex trên máy điện·toán.

Tác·giả: Đặng Hải Nguyên.

Viện·dẫn lý·do để bác·bỏ việc thêm W, J, F và Z vào Tiếng Việt chỉ vì những chữ·cái này được sử·dụng cho bộ khõ Telex trên máy điện·toán cần nên xem·xét lại!? Lối khõ (type, typing) Telex– a way to type out Vietnamese– ngày càng được ít người sử·dụng. Nó sẽ trở·nên lỗi·thời (obsolete) trong tương·lai gần. Tiếp tục đọc

Một đề·nghị cải·cách chính·tả : viết liền, chính·xác và trong sáng

Một đề nghị cải cách chính tả : viết liền, chính xác và trong sáng

Hà Dương Tuấn

Viết liền một số từ phức(*) trong tiếng Việt không phải là một ý tưởng mới. Theo hiểu biết của người viết thì học giả Hoàng Xuân Hãn đã đề xướng việc này từ những năm 40, và cho đến gần cuối đời còn có những bài trong đó ông đã viết liền nhiều từ phức. Trong những năm 60 một tập san tại Việt Nam cũng thử nghiệm việc này, và nói chung đã không được hưởng ứng. Hiện nay trên mạng Internet tại Việt Nam, Mỹ, Pháp, Đức… một số ý kiến về việc viết liền đã lại nảy ra.

Tại sao đặt lại vấn đề ? Với sự phát triển của các ngành học thuật, yêu cầu có một ngôn ngữ viết chính xác và dễ hiểu càng ngày càng tăng, trong khi ngôn ngữ viết trên báo chí và truyền thông ngày càng thiếu chặt chẽ, chỉ cần thấy hiện nay không còn gạch nối trong các từ phức là đủ rõ tại sao. Bài viết này hy vọng hâm nóng lại cuộc thảo luận với một vài luận cứ mới, và những đề nghị cụ thể để giải quyết một số chi tiết còn tồn tại.

Ở đây bàn về các văn bản có tính học thuật, vì vậy quan tâm đầu tiên của tác giả là sự chính xác trong ngôn ngữ, tránh đa nghĩa đến mức tối đa, chứ không như trong thơ văn, có khi đa nghĩa là một ưu điểm. Tiếp tục đọc

Những lợi·ích của cách viết Tiếng Việt theo khuôn·phép chung của hệ·thống chữ·viết biểu·âm.

Những lợi·ích của việc hoàn·tất một nửa chặng đường cải·cách văn·tự còn lại bằng cách viết Tiếng Việt theo khuôn·phép chung của hệ·thống chữ·viết biểu·âm.

Tác·giả: Đặng Hải Nguyên.
Cập·nhật: Ngày 27 Tháng·mười·hai (December) 2015

Chúng·ta đã hoàn·tất được một nửa chặng đường dài trong cải·cách văn·tự (writing reform): Đó là thay·thế hệ·thống chữ·viết dùng Hán-tự (Chinese character script system) bằng hệ·thống chữ·viết dùng chữ·cái (alphabetic script system) để ghi tiếng Việt. Chúng·ta đã và đang tự·mãn với những thành·quả vô·cùng to·lớn của bước đầu cải·cách chữ·viết (script reform) vì sức lan·toả của hệ·thống chữ Việt mới, hệ·quả của cải·cách văn·tự theo chiều rộng; nói cách khác, chúng·ta phát·triển Tiếng Việt về lượng hay số·lượng (quantity). Ví·dụ như xoá·bỏ được quốc-nạn mù·chữ; để ghi tiếng Việt, chúng·ta chỉ phải nhớ và sử·dụng 29 ký·tự, nói chính·xác·hơn là 29 chữ·cái (letter)— ký·tự in·được (printable character) được sử·dụng để đại·diện cho mỗi âm·vị (phoneme)— thay·vì phải nhớ hơn 9.450 ký·tự Nôm hay Nôm-tự (Nôm character) được dùng để ghi tiếng Việt, âm Việt gồm 14.519 tiếng/âm Việt·nôm đơn, và 9.812 ký·tự Hán hay Hán-tự (Chinese character) được dùng để ghi 2.033 tiếng/âm Việt·nồm đơn (tất·cả đều là tiếng có·ý·nghĩa).

Chúng·ta đã và đang quên·đi một nửa chặng đường còn lại vô·cùng quan·trọng của cải·cách văn·tự: Đó là cải·cách Tiếng Việt theo chiều sâu; nói cách khác, đó là phát·triển về phẩm hay phẩm·chất (quality) của Tiếng Việt, là thay·thế cách viết chữ Việt luông·tuồng theo khuôn·phép Hán-tự bằng cách viết chữ Việt đa·âm·tiết. Đây là bước đi chiến·lược trong thời·đại mới (new age), thời·đại của thông·tin, điện·toán·hoá và toàn·cầu·hoá; bước đi bằng đôi hia bảy dặm này đòi·hỏi (require) một cơ·chế thoả·đáng mới (new adequate mechanism), thích·hợp (appropriate) đáp·ứng được các nhu·cầu (need) mới nhằn thay·thế khuôn·phép cũ đã lỗi·thời và không phù·hợp với cấu·trúc của Tiếng Việt; việc thay·thế này cũng là xu·thế phát·triển tất·yếu của ngôn·ngữ loài người.

Việc hoàn·tất một nửa chặng đường cải·cách văn·tự còn lại bằng cách viết chữ Việt đa·âm·tiết (polysyllabic), tách·bạch rõ·ràng giữa từ·ngữ và âm·tiết, biểu·thị tiếng·nói Việt đa·âm theo khuôn·phép mang tính toàn·cầu (globality), tính hoàn·vũ (universality) chung cho hệ·thống chữ·viết biểu·âm trên toàn thế·giới sẽ mang đến nhiều lợi·ích cho công·cuộc phát·triển đất·nước: Tiếp tục đọc

Những bất·lợi của cách viết chữ Việt luông·tuồng rập theo khuôn·phép của Hán-tự

Những bất·lợi của cách viết chữ Việt luông·tuồng rập theo khuôn·phép của Hán-tự.
Tác·giả: Đặng Hải Nguyên.

Trong cải·cách văn·tự (writing reform), chúng·ta chỉ hoàn·tất một nửa chặng đường: Thay·thế hệ·thống chữ·viết dùng Hán-tự (Chinese character script system) bằng hệ·thống chữ·viết dùng chữ·cái (alphabetic script system) để ghi tiếng Việt, nhưng cái gốc, cốt·lõi, nền·tảng của vấn·đề là cách viết luông·tuồng không đầu, không đuôi của lối viết đơn·âm·tiết (monosyllabic) và theo khuôn·phép Hán-tự độc·âm của Trung·hoa để ghi Tiếng Việt·nam đa·âm vẫn không hề thay·đổi. Có·lẽ do ảnh·hưởng quá nặng·nề của hằng ngàn năm Bắc-thuộc Trung·hoa còn vương·vãi lại. Cách viết luông·tuồng không phân·biệt từ và âm·tiết này chỉ thích·hợp với ngôn·ngữ độc·âm Trung·hoa với hệ·thống chữ·viết dùng ký·tự. Chữ·viết Việt, cách viết Việt phải phù·hợp với ngôn·ngữ đa·âm của Tiếng Việt, và đây cũng là xu·thế phát·triển tất·yếu của ngôn·ngữ loài người (human race) hay nhân·loại (humankind). Tiếp tục đọc

Tại·sao chúng·ta cần xác·định ranh·giới của các từ·ngữ trong câu·văn Việt.

Xác·định ranh·giới của các từ·ngữ trong câu·văn để Tiếng Việt trở·nên trong sáng để làm gì?
Tác·giả: Đặng Hải Nguyên.

Nội·dung:

Xác·định ranh·giới của các từ·ngữ trong câu·văn Tiếng Việt (tiếng·nói & chữ·viết) được hiểu là phân·biệt rõ·ràng từ đơn, từ kép và từ ghép. Nói cách khác, xác·định ranh·giới từ (word boundary) là xác·định từ (word) và âm·tiết (syllable).

A. Những bất·lợi (disadvantage) của việc không phân·biệt từ và âm·tiết:
Việc không phân·biệt rõ·ràng từ (word) và âm·tiết (syllable) trong ngôn·ngữ Việt dẫn đến nhiều vấn·đề về phát·triển ngôn·ngữ Việt cũng như trong giao·tiếp bằng Tiếng Việt (tiếng·nói & chữ·viết), làm cho Tiếng Việt trở·nên kém chính·xác, kém trong sáng và khó có·thể hiểu đúng để có·thể làm đúng:
1. Ý·nghĩa câu·văn không rõ·ràng, tối·nghĩa, gây hiểu·lầm…
2. Làm·giảm·đi (reduce) tính chính·xác, tốc·độ đọc và hiểu của người·đọc (reader).

B. Những lợi·ích (advantage) của việc phân·biệt từ và âm·tiết:
1. Giúp việc dịch tự·động hoặc chuyển·ngữ tự·động nguồn thông·tin vô·cùng dồi·dào, phong·phú và miễn·phí về mọi vắn·đề thuộc mọi ngành khoa·học, kỹ·thuật, chính·trị, kinh·tế, giáo·dục, y·tế, vv., trên Liên·mạng·toàn·cầu (Internet) từ bất·cứ ngôn·ngữ nào trên thế·giới sang Tiếng Việt được nhanh·chóng·hơn và thêm chính·xác hoặc ít·nhất cũng giảm·thiểu thời·gian dịch·thuật.
2. Tiền·đề cho việc thiết·lập một cơ·chế thích·hợp nhằm giúp ngôn·ngữ Việt được ổn·định và rõ·ràng, tạo điều·kiện để Tiếng Việt trở·thành một ngôn·ngữ mang tính khoa·học, và sánh·vai cùng các ngôn·ngữ phát·triển khác trên thế·giới.
3. Định·hình cho hướng phát·triển của ngôn·ngữ Việt trong nhiều lãnh·vực khác nhau, nhất là lãnh·vực tự·động·hoá (automatize) và rô·bô·hoá (robotize) trong tương·lai.

– · o o O o o · – Tiếp tục đọc

Cần quan·tâm đến thuật·ngữ khoa·học phổ·thông trong sách báo nói·chung và sách khoa·học cho trẻ·em nói·riêng.

Thuật ngữ khoa học phổ thông trong sách báo nói chung và sách khoa học cho trẻ em nói riêng.
Tác giả: Nguyễn Việt Long.

Các bạn từng nghe đến loài cá voi sát thủ chưa? Cứ nghe tên thì chắc rất nhiều người là nạn nhân của nó. Nhưng tìm mãi trên báo mạng và sách vở gần như không thấy nói “gã sát thủ” ấy ăn thịt người, mà chỉ chuyên ăn thịt các loài cá khác, kiểu như “cá voi sát thủ xé xác cá mập” hay “cá voi sát thủ săn sư tử biển”… Quả là thiên vị và bất công: đây là loài duy nhất được phong danh xưng “sát thủ”, mặc dù nó không ăn thịt người (trừ vài trường hợp cá biệt), trong khi bao nhiêu loài cá dữ ăn thịt người lại không đạt được “tước hiệu” đình đám ấy. Thật chả khác nào phong danh hiệu đại kiện tướng cờ vua cho một người thỉnh thoảng mới chơi vài nước cờ đơn giản. Ngoài cái tên dữ tợn đó, nó còn có một cái tên khác cũng ấn tượng không kém: cá hổ kình! (Có nhiều loài cá khác cũng được gọi là cá hổ không thuộc lớp Thú như cá voi). Tra cứu thêm ta biết rằng thậm chí cá hổ kình không phải là cá voi, mà là cá heo (thuộc họ Cá heo Delphinidae, bộ Cá voi Cetacea). Thì ra thủ phạm của những danh xưng ngoáo ộp ấy là việc cắm đầu cắm cổ dịch cái tên tiếng Anh killer whale và tên tiếng Hán (trong tiếng Hán thì kình chỉ động vật thuộc bộ Cá voi, nếu Việt hóa thì lẽ ra phải là cá kình hổ). Chả lẽ mình cứ bắt chước một cách máy móc ngôn ngữ khác (họ dùng đã quen đến mức khó đổi dù có khi không hợp lý lắm)? Chúng ta nên gọi đúng tên của nó là cá heo voi hoặc cá heo hổ. Tiếp tục đọc

Dấu·ngang·cách (dash), dấu·ngang·nối (hyphen): nhận·diện và sử·dụng

DẤU GẠCH NGANG (–), DẤU GẠCH NỐI (-): NHẬN DIỆN VÀ SỬ DỤNG

Tác giả: ỨNG QUỐC CHỈNH (NXB Đại học Sư phạm)

Gạch ngang và gạch nối tưởng như đã rõ ràng và không có gì phải bàn thêm. Tuy nhiên trong thực tế, vẫn còn nhiều lẫn lộn khi sử dụng, kể cả trong các xuất bản phẩm. Những nhầm lẫn đó đó do nhiều nguyên nhân: có thể do tác giả, do người nhập dữ liệu, do biên tập, do chế bản hoặc do diện tích nhỏ trong khi trình bày ở các sản phẩm quảng cáo,… Do vậy, những vấn đề về dấu gạch ngang và dấu gạch nối cần được phân tích lại, phân tích thêm và đưa ra hướng giải quyết hợp lí.

I. KHÁI NIỆM

1. Dấu gạch ngang

Theo Đại từ điển tiếng Việt (Nguyễn Như Ý chủ biên, trang 701, NXB Văn hóa – Thông tin, 1999): “Gạch ngang dt. Dấu (–), dài hơn gạch nối; thường dùng để tách riêng ra thành phần chú thích thêm trong câu; viết ghép một tổ hợp hai hay nhiều tên riêng, hai hay nhiều số cụ thể; đặt ở đầu dòng nhằm viết các phần liệt kê, các lời đồi thoại; còn gọi là Dấu gạch ngang”.

Một vài vấn đề nảy sinh và lưu ý: Không nhầm giữa dấu gạch ngang với đường gạch ngang (gạch thành một đường dài, ngang). Phân biệt dấu gạch ngang giữa (–) với dấu gạch ngang dưới (_). ­­Có lẽ do dấu gạch ngang dưới ít được sử dụng trong thực tế nên người ta thường dùng dấu gạch ngang thay cho cách gọi đầy đủ là: dấu gạch ngang giữa. (?)

2. Dấu gạch nối

Theo Đại từ điển tiếng Việt, (Nguyễn Như Ý chủ biên, trang 701, NXB Văn hóa – Thông tin, 1999): “Gạch nối dt. Dấu (-), ngắn hơn gạch ngang; thường dùng để nối những thành tố đã được viết rời của từ đa tiết phiên âm; còn gọi là Dấu gạch nối”.

Cần chú ý phân biệt dấu gạch nối với dấu nối trong âm nhạc (không có chữ gạch) – Dấu nối – dấu nhạc có hình cung nối hai hay nhiều nốt cùng cao độ, cùng tên, chỉ sự kéo dài trường độ của một âm. Tiếp tục đọc

Người Nhật tuy sử·dụng một phần Hán-tự trong chữ·viết Kanji của họ, nhưng văn·hoá Nhật không hề bị vẩn·đục với những lợn·cợn Trung·hoa.

Hãy trả·lại ý·nghĩa đích·thực của “từ Hán-Việt”

1. Tiếng/từ Hán-Việt theo đúng ý·nghĩa là gì?
2. Tiếng/từ Việt·nồm hay tiếng/từ Nồm là gì? Chúng khác với tiếng/từ Hán-Việt ra·sao?
3. Người Nhật tuy sử·dụng một phần Hán-tự trong chữ·viết Kan·ji của họ, nhưng văn·hoá Nhật không hề bị vẩn·đục với những lợn·cợn Trung·hoa.

Chúng·ta có·thể học-hỏi gì nơi Người Nhật trong việc đưa đất·nước thoát·khỏi vòng kiềm·toả của văn·hoá Hán-tự — Nền văn·hoá nô·dịch đi·kèm·theo thứ chữ ô·vuông mang tính áp·đặt một chiều?

Chúng·ta cần hỏi và học cách đánh·giá văn·hoá Trung·hoa theo cái·nhìn của Người Nhật và cách nhìn, phân·tích cái hay, cái dở của Hán-tự, văn·hoá Trung·hoa theo nhãn·quan khoa·học của người Tây·phương (Western people). Người Nhật tuy sử·dụng một phần Hán-tự trong chữ·viết Kan·ji của họ do số âm·tiết hạn·hẹp của tiếng Nhật, thế·nhưng, văn·hoá Nhật không hề bị vẩn·đục với những lợn·cợn Trung·hoa. Người Nhật xem·xét, học-hỏi văn·hoá Trung·hoa bằng một tinh·thần “gần bùn nhưng chẳng hôi tanh mùi bùn” và với thái·độ “kính nhi viễn chi”. Tiếp tục đọc

Nên viết thế·nào cho đúng: “tiếng Việt” hoặc “Tiếng Việt”, “ngôn ngữ tiếng Việt” hoặc “ngôn ngữ Việt”?

Nên viết thế·nào cho đúng: “tiếng Việt” hoặc “Tiếng Việt”, “ngôn ngữ tiếng Việt” hoặc “ngôn ngữ Việt”?

Trong câu·văn “ngôn ngữ quốc gia là tiếng Việt”, từ “tiếng Việt” ở đây được hiểu (hoặc phải hiểu) là nó bao·gồm cả “tiếng·nói Việt” và “chữ·viết Việt”. Thế·nhưng, từ “tiếng” thường khiến người·ta chỉ liên·tưởng đến hoặc chỉ nghĩ đến “tiếng·nói” mà·thôi, vậy chúng·ta phải làm gì và viết như thế·nào để nó bao·gồm luôn cả phần chữ·viết?
Tiếp tục đọc

Thuật·toán tách từ

Thuật toán tách từ
Tác giả: Lưu Tuấn Anh.

Nội dung

1. Các hướng tiếp cận
2. Các phương pháp được sử dụng
3. Ứng dụng bài toán tách từ
4. Thuật toán phổ biến
5. Một số vấn đề mở rộng

Tách từ là một quá trình xử lý nhằm mục đích xác định ranh giới của các từ trong câu văn, cũng có thể hiểu đơn giản rằng tách từ là quá trình xác định các từ đơn, từ ghép… có trong câu. Đối với xử lý ngôn ngữ, để có thể xác định cấu trúc ngữ pháp của câu, xác định từ loại của một từ trong câu, yêu cầu nhất thiết đặt ra là phải xác định được đâu là từ trong câu. Vấn đề này tưởng chừng đơn giản với con người nhưng đối với máy tính, đây là bài toán rất khó giải quyết.

Chính vì lý do đó tách từ được xem là bước xử lý quan trọng đối với các hệ thống Xử Lý Ngôn Ngữ Tự Nhiên, đặc biệt là đối với các ngôn ngữ thuộc vùng Đông Á theo loại hình ngôn ngữ đơn lập, ví dụ: tiếng Trung Quốc, tiếng Nhật, tiếng Thái, và tiếng Việt. Với các ngôn ngữ thuộc loại hình này, ranh giới từ không chỉ đơn giản là những khoảng trắng như trong các ngôn ngữ thuộc loại hình hòa kết như tiếng Anh…, mà có sự liên hệ chặt chẽ giữa các tiếng với nhau, một từ có thể cấu tạo bởi một hoặc nhiều tiếng. Vì vậy đối với các ngôn ngữ thuộc vùng Đông Á, vấn đề của bài toán tách từ là khử được sự nhập nhằng trong ranh giới từ. Tiếp tục đọc