Posts Tagged ‘việt nam’

Từ Việt·nồm hay từ Nồm là gì?

Từ Việt·nồm hay từ Nồm là gì?
Đặng Hải Nguyên.

Người Việt (Vietnamese) từ ngàn xưa đã có tiếng·nói riêng của mình. Tiếng Việt (Vietnamese) có từ·pháp riêng, ngữ·pháp riêng, cú·pháp riêng, văn·phạm riêng và có cả chữ·viết (script) riêng— đó là chữ “nòng·nọc”— trước khi bị Trung·hoa đô·hộ.

Tiếng Nôm là tiếng thường được chúng·ta gọi là tiếng thuần Việt— gồm tiếng Kinh (Việt) và tiếng gốc Nam-Á— chúng·ta có 7.164 tiếng Nôm đơn (chỉ tính những tiếng có·ý·nghĩa và  chưa tính những tiếng không·ý·nghĩa) và được ghi bằng 31.577 Nôm-tự hay ký·tự Nôm (Nôm character) tuỳ theo ý·nghĩ của mỗi tiếng. Ví·dụ:
Tiếng (sound) ‘lu·xu·bu’ là một tiếng Nôm có·ý·nghĩa, do ba tiếng không·ý·nghĩa ‘lu’, ‘xu’ và bu’ hợp·thành. Các nhà ngôn·ngữ (linguist) gọi “lu·xu·bu” là từ đa·âm·tiết (polysyllabic word), nói chính·xác hơn là từ tam·âm·tiết (trisyllabic word) gồm·có ba âm·tiết (syllable) ‘lu’, ‘xu’ và bu’.
Tiếng ‘rực·rỡ’ là một tiếng Nôm có·ý·nghĩa, do hai tiếng ‘rực’ và ‘rỡ’ hợp·thành. Các nhà ngôn·ngữ gọi từ “rực·rỡ” là từ lưỡng·âm·tiết (disyllabic word) gồm·có ‘rực’ là âm·tiết có·ý·nghĩa (meaningful syllable) và ‘rỡ’ là âm·tiết  không·ý·nghĩa (meaningless syllable).
Cùng một tiếng (sound) ‘rực·rỡ’, nhưng ngày nay và ngày xưa ghi bằng hai loại chữ·viết (script) khác nhau. Ngày nay, sử·dụng hệ·thống chữ·viết dùng chữ·cái (quốc-ngữ nay) để ghi tiếng Việt, chúng·ta ghi là “rực·rỡ”. Ngày xưa, sử·dụng “hệ·thống chữ·viết dùng ký·tự Hán” (Chinese character script system) để ghi tiếng Việt, chúng·ta  ghi là “𤊧 𠒦”; đây là Nôm-tự (quốc-ngữ xưa), chữ Việt, do Người Việt·nam tạo·ra, không phải chữ Hán. Người Trung·hoa (Chinese) có xem cũng chẳng hiểu là gì. Nó chẳng khác gì khi ta so·sánh từ “rực·rỡ” với “rucro” trong “hệ·thống chữ·viết dùng chữ·cái (alphabetic script system) La·tinh hoặc hy·lạp! Người Anh, Người Pháp có đọc, hoặc xem “rucro” cũng chẳng hiểu gì cả! Tiếp tục đọc

Khái·lược Về Văn·học Chữ Nôm Ở Việt Nam

Khái Lược Về Văn Học Chữ Nôm Ở Việt Nam – GS. TSKH. Nguyễn Quang Hồng
 

Ngay từ đầu Công nguyên cho đến suốt 1000 năm Bắc thuộc sau đó, các dân tộc trên đất nước Việt Nam đã sống trong quá trình cộng cư với nhau và cả với người Hán từ phương Bắc đến. Trải qua quá trình cộng cư này cùng với sự tiếp xúc với chữ Hán và văn hóa Hán, các dân tộc Việt Nam đã dần dần chủ động sử dụng chữ Hán trước hết là trong hành chính và trong giáo dục, rồi cả trong sáng tác văn học, hình thành một nền văn học chữ Hán của chính dân tộc mình. Và từ khi thoát li khỏi sự đô hộ trực tiếp của phong kiến phương Bắc, thì bên cạnh chữ Hán vẫn tiếp tục được coi trọng, người dân bản địa Việt Nam còn sáng tạo ra chữ viết cho bản ngữ của mình. Đó là các hệ thống chữ viết ô vuông theo hình mẫu chữ Hán, được gọi là chữ Nôm: Người Kinh (tộc người Việt) có chữ Nôm Việt, người Tày có chữ Nôm Tày, v.v.

Với chữ Nôm Việt, ở Việt Nam đã hình thành nên một nền văn chương chữ Nôm (bên cạnh văn chương chữ Hán). Và chính trong lĩnh vực sáng tạo văn học, chữ Nôm gắn liền với ngôn ngữ dân tộc đã tạo nên những tác phẩm có giá trị, chiếm những vị trí cao nhất trong văn học cổ điển Việt Nam. Xin trình bày đôi nét khái quát về những chặng đường hình thành các thể thức và thể loại cùng với những tác giả và tác phẩm tiêu biểu của nền văn học chữ Nôm tiếng Việt.

Tiếp tục đọc

Hãy trả·lại ý·nghĩa đích·thực của “từ Hán-Việt”

Hãy trả·lại ý·nghĩa đích·thực của “từ Hán-Việt”

1. Tiếng/từ Hán-Việt theo đúng ý·nghĩa là gì?
2. Tiếng/từ Việt·nồm hay tiếng/từ Nồm là gì? Chúng khác với tiếng/từ Hán-Việt ra·sao?
3. Người Nhật tuy sử·dụng một phần Hán-tự trong chữ·viết Kan·ji của họ, nhưng văn·hoá Nhật không hề bị vẩn·đục với những lợn·cợn Trung·hoa.

Hãy trả·lại ý·nghĩa đích·thực của “từ Hán-Việt” và gọi các tiếng Hán đã được Việt·hoá với âm·hưởng Việt hoàn·toàn bằng tên mới là “tiếng Việt·nồm” hay tiếng Nồm (post-Nôm), và chữ·viết dùng chữ·cái La·tinh — cách viết khác hoàn·toàn với chữ Trung·hoa (Hán-tự) —để biểu·thị “tiếng Việt·nồm” hay “tiếng Nồm” là “từ Việt·nồm” hay “từ Nồm” (post-Nôm). Tiếp tục đọc

Cần tiếp·tục giải·mã chữ Việt cổ

Cần tiếp tục giải mã chữ Việt cổ
Trần Thi

Khái lược về chữ Việt cổ:

Từ hàng nghìn năm qua, các nhà khoa học trong và ngoài nước đều khẳng định: Việt Nam có chữ viết từ rất sớm, trước chữ Hán cả nghìn năm và hoàn toàn khác chữ Hán. Các nhà nghiên cứu, Anh, Tiệp xác nhận: “Ngay từ trước công nguyên, người Việt đã có chữ tượng thanh – loại chữ ghép chữ cái thành từ”. Điều này được thể hiện trên các di chỉ khảo cổ đồ gốm, đồ đồng của thời kỳ Đông Sơn như: lưỡi cày, lưỡi xéo, đặc biệt là trống đồng…cùng các hình vẽ chữ viết trên đá cổ Sa Pa, Xín Mần. Pá Màng… theo một hệ thống nhất quán, tất cả đều thể hiện đó là những chữ viết cổ từ thời kỳ tiền văn tự, phát triển và hoàn thiện dần thành bộ chữ “khoa đẩu”. Tiếp tục đọc

Chữ Việt cổ đã được giải·mã.

Chữ Việt cổ đã được giải mã.

Chiều 29/1/2013, tại 80 Lý Thường Kiệt, Hà Nội, nhà nghiên cứu Đỗ Văn Xuyền đã có buổi mắt cuốn sách “Cuộc hành trình đi tìm chữ Việt cổ” và giao lưu với các nhà nghiên cứu, những người say mê chữ Việt cổ.
Năm 2011, Báo điện tử VTC News đã có loạt phóng sự về hành trình gian nan nửa thế kỷ nghiên cứu chữ Việt cổ của ông Đỗ Văn Xuyền.

Ông Xuyền tuyên bố rằng đã giải mã được chữ Việt cổ – thứ chữ của một nền văn minh rực rỡ từ thời các Vua Hùng dựng nước Văn Lang. Tiếp tục đọc

Bỏ Hán-tự là một tai·hoạ hay một đại-phước?

Bỏ Hán-tự là một tai·hoạ hay một đại-phước?

Người Việt bỏ Hán-tự quả·thật là một tai·hoạ chăng? Hán-tự có·thể sẽ trở·thành chữ·quốc·tế, một thứ esparento cho cả nhân·loại? Việc đem Hán-tự (Chinese character) hay chữ Hán (Chinese script) trở·lại Nước Việt Nam (Vietnam) nếu thành·công sẽ là một đại-phước cho… dân Việt?

Tiếng·nói của loài·người đã có từ·lúc con·người còn ăn·lông-ở·lổ, sống cuộc·sống bầy·đàn, là phương·tiện giao·tiếp để sinh·tồn, chống·lại thú dữ và tai·hoạ tự·nhiên. Thời·kỳ sơ·khai, con·người chỉ biết đến bản·thân như ăn, uống, mắt, mũi, vui, buồn, vv. (etc.), và những hình·ảnh cụ·thể quanh mình như nước, sông, đất, núi, vv., cùng những hiện·tượng tự·nhiên ảnh·hưởng trực·tiếp đến mình như mưa, gió, sấm, sét, vv. Con·người vẫn·còn sống cuộc·sống bầy·đàn như những loài·vật khác nếu không có tiếng·nói. Tiếng·nói đã góp·phần không nhỏ trong việc hình·thành xã·hội loài·người; khi cuộc·sống xã·hội của loài·người, trong·đó có cả phần tiếng·nói, phát·triển cao·hơn, chữ·viết được phát·minh, khởi·đầu bằng những hình·vẽ mang tính tượng·trưng như sông, núi, đực, cái, vv., mà chúng·ta thấy nhiều vết·tích còn lưu·lại trong hệ·thống chữ·viết biểu·ý, chẳng·hạn ký·tự “馬, mã” là hình·vẽ tượng·trưng cho con ngựa có bờm và bốn chân, ký·tự “女, nữ” là hình·vẽ khó nói nên lời… dần·dà sau·đó một hệ·thống chữ·viết dựa trên âm·thanh xuất·hiện, khởi·đầu bằng những âm·thanh đơn·giản, mỗi âm·thanh được con·người gán·cho một ý·nghĩa nào·đó, sau·đó  những tiếng gồm hai âm·thanh, rồi ba âm·thanh…  xuất·hiện trong tiếng·nói, nhưng cũng để chỉ một nghĩa, một khái·niệm, vv. Khi con·người sống thành xã·hội, nhiều nhu·cầu được đặt·ra, điều này đã khiến nảy·sinh ra nhiều khái·niệm mới cần·thiết trong giao·tiếp xã·hội, ngôn·ngữ mới phức·tạp hơn với những quy·định (regulation), quy·tắc, nguyên·tắc… giúp người khác hiểu rõ, hiểu đúng sự·vật, sự·việc, khái·niệm, ý muốn, vv., mà người này muốn truyền·đạt cho người kia. Tiếp tục đọc

Nên viết thế·nào cho đúng: “tiếng Việt” hoặc “Tiếng Việt”, “ngôn ngữ tiếng Việt” hoặc “ngôn ngữ Việt”?

Nên viết thế·nào cho đúng: “tiếng Việt” hoặc “Tiếng Việt”, “ngôn ngữ tiếng Việt” hoặc “ngôn ngữ Việt”?

Trong câu·văn “ngôn ngữ quốc gia là tiếng Việt”, từ “tiếng Việt” ở đây được hiểu (hoặc phải hiểu) là nó bao·gồm cả “tiếng·nói Việt” và “chữ·viết Việt”. Thế·nhưng, từ “tiếng” thường khiến người·ta chỉ liên·tưởng đến hoặc chỉ nghĩ đến “tiếng·nói” mà·thôi, vậy chúng·ta phải làm gì và viết như thế·nào để nó bao·gồm luôn cả phần chữ·viết?
Tiếp tục đọc

Ứng·dụng phương·pháp Pointwise vào bài·toán tách từ cho Tiếng Việt

Ứng dụng phương pháp Pointwise vào bài toán tách từ cho tiếng Việt

Lưu Tuấn Anh, Yamamoto Kazuhide

Natural Language Processing Laboratory Department of Electrical Engineering
Nagaoka University of Technology 940-2188, Nagaoka City, Niigata, Japan

Abstract
Trong tiếng Việt, dấu cách (space) không được sử dụng như 1 kí hiệu phân tách từ, nó chỉ có ý nghĩa phân tách các âm tiết với nhau. Vì thế, để xử lý tiếng Việt, bài toán tách từ (word segmentation) là 1 trong những bài toán cơ bản và quan trọng bậc nhất. Ngoài tiếng Việt, có khá nhiều các ngôn ngữ châu Á khác cũng cần bước tách từ, ví dụ như: tiếng Nhật, tiếng Trung, tiếng Hàn,… do đó vấn đề này nhận được sự quan tâm rộng rãi và có nhiều hướng tiếp cận khác nhau. Bài viết này sẽ tập trung phân tích hướng tiếp cận pointwise dựa trên máy học SVM: phân loại từng dấu cách một cách độc lập vào 2 loại: SPACE (kí hiệu tách từ) và UNDERSCORE (kí hiệu liên kết 2 âm tiết). Với phương pháp này, chúng tôi đã đạt được độ chính xác 98.2% trong thực nghiệm. Tất cả mã nguồn của nghiên cứu này được ứng dụng để tạo ra công cụ mang tên Đông Du.

Keywords: xứ lý ngôn ngữ tự nhiên, xử lý tiếng Việt, bài toán tách từ, pointwise estimation

I. INTRODUCTION

Trong tiếng Việt, dấu cách không mang ý nghĩa phân tách các từ mà chỉ mang ý nghĩa phân tách các âm tiết với nhau. Ví dụ: từ “đất nước” được tạo ra từ 2 âm tiết “đất” và “nước”, cả 2 âm tiết này đều có nghĩa riêng khi đứng độc lập, nhưng khi ghép lại sẽ mang một nghĩa khác. Vì đặc điểm này, bài toán tách từ trở thành 1 bài toán tiền đề cho các ứng dụng xử lý ngôn ngữ tự nhiên khác như phân loại văn bản, tóm tắt văn bản, máy dịch tự động,…

Ngoài tiếng Việt, có khá nhiều các ngôn ngữ khác cũng gặp phải bài toán này, ví dụ như: tiếng Nhật, tiếng Trung, tiêng Hàn,… Mỗi một ngôn ngữ có 1 đặc điểm cú pháp khác nhau, nhưng nhìn chung, hướng tiếp cận chủ đạo ở tất cả các ngôn ngữ này là sử dụng máy học.
Tiếp tục đọc

Cần minh-định một số từ·ngữ trọng·yếu trong việc xác·lập tính chính-danh của Việt-ngữ

Cần minh-định một số từ·ngữ trọng·yếu (essential word) trong việc xác·lập chủ·quyền và tính chính-danh của Việt-ngữ.

Tác·giả: Đặng Hải Nguyên

Nội·dung

1. Đặt vấn·đề.
2. Hán-tự hay Hoa-Hán-tự hay Ký·tự Hoa-Hán.
3. Nho-tự hay Việt-Hán-tự hay ký·tự Việt-Hán.
4. Từ Hán-Việt hay từ Hoa-Việt, từ Pháp-Việt, từ Nga-Việt, từ Anh-Việt.
5. Từ Việt·nồm hay từ Nồm khác với từ Hán-Việt; Nho-tự khác với Hán-tự.
6. Nôm-tự (Nôm character) còn được gọi là chữ Nôm (Nôm script) là quốc-ngữ xưa của Người·việt.
7. Cần phân·biệt rạch·ròi các từ·ngữ: Nôm, Nồm và Hán-Việt.
8. Tóm·lược.

Tiếp tục đọc

Hợp·thức·hoá việc thêm chữ·cái F, J, W và Z vào bảng·chữ·cái Tiếng Việt

Nên hợp·thức·hoá việc thêm chữ·cái F, J, W và Z vào bảng·chữ·cái Tiếng Việt.
Đặng Hải Nguyên.

NỘI·DUNG.

I. Bốn ký·tự (character) F, J, W và Z là bốn chữ·cái (letter) chính·thức nằm trong hệ·thống chữ biểu·âm La·tinh tiêu·chuẩn và tự·thân·chúng (themselves) không là ký·hiệu toán·học, ký·hiệu hoá·học, vv.

II. Thêm bốn chữ·cái F, J, W, Z vào bảng·chữ·cái Tiếng Việt là cần·thiết và nên làm vì các lý·do sau·đây:
1. Bốn chữ·cái F, J, W và Z ảnh·hưởng mật·thiết đến giao·tiếp xã·hội và cuộc·sống hằng·ngày.
2. Giúp dễ·dàng hơn việc phiên·âm tên gọi của các đơn·vị đo·lường, các thuật·ngữ khoa·học mới.
3. Việt·hoá một số·lượng khá lớn các thuật·ngữ quốc·tế được dễ·dàng hơn, hoà·nhập chúng vào như một phần của Tiếng Việt nhưng vẫn giữ được tính quốc·tế.
4. Giúp thống·nhất việc phiên·âm tên riêng, địa-danh nước·ngoài, giúp việc giao·tiếp, hợp·tác quốc·tế được dễ·dàng hơn.
5. Giúp Người Việt·nam sinh·sống ở nước ngoài, cũng như người nước·ngoài giao·tiếp bằng Tiếng Việt được dễ·dàng hơn.

III. Bốn chữ·cái F, J, W và Z sẽ mang tên gì, dùng để ghi âm gì và được ráp·vần như thế·nào trong Tiếng Việt?

IV. Chúng·ta thêm các chữ·cái F, J, W và Z vào bảng·chữ·cái Tiếng Việt nhưng vẫn giữ nguyên như cũ các phụ·âm kép truyền·thống “Ph”, “Gi”, “Qu” và “D”. Thêm bốn chữ·cái F, J, W và Z nhằm mục·đích phiên·âm tên riêng nước·ngoài, làm·cho Tiếng Việt thêm chính·xác và thêm phong·phú, chứ không nhằm cải·tiến (improve), hoặc cải·cách (reform) Việt-ngữ.

V. Nhật·bản đã phải thêm 48 mẫu·tự katakana cách đây khá lâu để giải·quyết cùng một vấn·đề hội·nhập, trong·khi chúng·ta chỉ cần thêm 4 chữ·cái (letter) F, J, W và Z vào trong cùng bảng·chữ·cái (alphabet) hiện·hành.

VI. Thêm bốn Chữ·cái F, J, W, Z vào bảng·chữ·cái Tiếng Việt không nhằm mục·đích phục·vụ cho lối khõ Telex trên máy điện·toán.

— o O o — Tiếp tục đọc