Chuyên trang về thống kê ứng dụng và ngôn ngữ R.

Nên xem bằng Firefox (tại đây) hoặc Google Chrome (tại đây).

Mọi góp ý, đóng góp xin gởi về statisticsvn@ gmail.com.

Nhóm điều hành: Gs. Nguyễn Văn Tuấn, Bs. Trần Quý Phi, Bs. Hà Tấn Đức

clip_image002Chúng tôi một dự án dịch thuật ngữ thống kê sang tiếng Việt. Chúng tôi sẽ lần lượt thực hiện và đăng trên trang web này. Trong bài này chúng tôi bàn về nguyên lí và cách dịch thuật ngữ thống kê.

Vài nhận xét và một số điểm có tính định hướng

Thống kê là ngành học có nhiều ứng dụng trong thực tiễn nhưng chưa được chú ý phát triển ở nước ta. Hiện nay, nhiều cấp, nhiều ngành đã bắt đầu thấy được tính hữu ích của thống kê và đang dò dẫm ứng dụng thống kê phục vụ cho quản lí và nghiên cứu. Từ đó nẩy sinh nhu cầu học hỏi và phổ biến kiến thức thống kê bằng tiếng Việt. Trong nỗ lực đáp ứng nhu cầu này, nhiều nhóm, nhiều người đã cố gắng sáng tạo ra các thuật ngữ để dịch các khái niệm thống kê từ tiếng nước ngoài, đặc biệt là từ tiếng Anh. Điều này làm tình trạng thuật ngữ không thống nhất, kém hệ thống, thiếu chọn lọc... là không thể tránh khỏi. Tình trạng này xảy ra giữa các nhóm tác giả và ngay cả chính ở mỗi tác giả. Thật ra, đây cũng là tình trạng chung của thuật ngữ khoa học, kĩ thuật nói chung ở nước ta, đặc biệt là ở các ngành mới hay mới được quan tâm chẳng hạn như tin học mà báo chí trong nước cũng đã đề cập nhiều.

Một hệ thống thuật ngữ thống nhất sẽ giúp những người trong ngành trao đổi các vấn đề học thuật dễ dàng hơn, giúp người học giảm thiểu khó khăn không đáng có khi tham khảo tài liệu đồng thời cũng làm việc phổ biến kiến thức tới công chúng thuận lợi hơn vì không có cảnh “ông nói gà, bà nói vịt”. Như vậy việc sưu tập các thuật ngữ đang dùng, chọn lọc / đề xuất dùng một hệ thống thuật ngữ thống kê thống nhất là một việc làm cần thiết và có ý nghĩa. Để chọn lựa một thuật ngữ mới hoặc đã có nhưng dùng chưa thống nhất, có lẽ trước hết cũng cần thống nhất với nhau một số điều có tính cách định hướng cho việc chọn lựa này. Trên cơ sở

tham khảo các tài liệu và quy định liên quan đến việc này, đặc biệt là cách tiếp cận của giáo sư Hoàng Xuân Hãn (trong lời dẫn bộ Danh từ Khoa học 1942), chúng tôi xin tạm tóm tắt thành một số tiêu chí có tính định hướng cho việc chọn lựa thuật ngữ như sau:

1. Tính đơn nhất: mỗi thuật ngữ chỉ tương ứng với một khái niệm và ngược lại nên phải đơn nghĩa ví thế cố tránh hiện tượng đồng nghĩa, đồng âm và trùng lập với thuật ngữ môn khác, đặc biệt là môn Toán vốn là cơ sở của Thống kê.

2. Tính tinh gọn: cố dùng những từ ngữ quen thuộc mà gợi được ý chính của khái niệm và càng gọn gàng càng tốt theo xu thế tiết kiệm ngôn ngữ nhưng đồng thời phải bảo đảm tính chính xác của khái niệm.

3. Tính hệ thống : tất cả các thuật ngữ phải làm thành một toàn thể duy nhất có liên hệ lẫn nhau.

4. Tính "Việt": thuật ngữ mang âm hưởng Việt và có cấu tạo theo từ pháp tiếng Việt nếu phải sử dụng từ Hán Việt, chỉ chấp nhận vay mượn cả cấu trúc để đảm bảo sự tinh gọn và không gây hiểu lầm khi dùng cấu trúc tiếng Việt. Tuy nhiên; đối với một số thuật ngữ khó tìm từ tương đương trong tiếng Việt đồng thời cũng để đảm bảo tính quốc tế ta chấp nhận lối phiên chuyển như vectơ (vector), logarit (logarithm), logistic (logistic) ...

5. Tôn trọng tập quán: thuật ngữ nào tuy không dễ nắm bắt hoặc không thật phản ánh đúng khái niệm nhưng đã quen dùng thì giữ nguyên như cũ.

Di nhiên khi chọn từ cũng phải căn cứ vào định nghĩa của từng khái niệm từ những nguồn mang tính học thuật cao.

Những điểm nêu trên chỉ có tính cách định hướng và có thể cũng còn có chỗ cần bàn bạc thêm bớt để trở nên hoàn chỉnh hơn nên rất cần sự đóng góp ý kiến của nhiều người trong ngành, nhất là các nhà chuyên môn thống kê và các chuyên gia ngôn ngữ. Ngay cả khi đã được đóng góp thống nhất, chúng ta vẫn phải linh hoạt, dung hòa, gia giảm trong vận dụng vì thật ra trong đó có những điều loại trừ lẫn nhau, ví dụ điểm 3 và điểm 5.

II. Phân loại các trường hợp không thống nhất và hướng giải quyết

Tình trạng không thống nhất thuật ngữ trong thống kê biểu hiện đa dạng và ở nhiều cấp độ, Dưới đây xin tạm phân loại ra một số trường hợp ghi nhận được và đề xuất hướng giải quyết cho một vài thuật ngữ điển hình cho mỗi trường hợp trên cơ sở các tiêu chí nêu ở phần trên:

1. Dùng các từ có từ tố hơi khác nhau nhưng có nghĩa tương tự hoặc gần tương tự để chỉ cùng một khái niệm: đây là những dị biệt nhỏ nhặt, không ảnh hưởng lắm về mặt học thuật, có thể vận dụng các tiêu chí trên cho từng thuật ngữ một để chọn ra một thuật ngữ thống nhất có lẽ không quá khó khăn. Chẳng hạn như:

- Điều hoà / hài hoà (harmonic) trong trung bình điều hoà: mặc dù từ điều hoà không phản ánh thật đúng lịch sử của khái niệm nhưng đã dùng thành thói quen trong toán học nên có lẽ cũng không cần chỉnh lại thành hài hoà (tiêu chí 5).

- Thông số / tham số (parameter): nếu truy nghĩa hai từ tham 參(xen vào, can dự vào, gia nhập) và thông 通 (không tắt nghẽn, xuyên qua được) và dựa vào định nghĩa của khái niệm thì có vẻ dùng tham số phù hợp hơn. Truy tìm bằng google cho thấy có khoảng 17 triệu cho thông số so với 26,6 triệu cho tham số,

tuy nhiên gần như có một sự thống nhất trong việc dùng thuật ngữ phi tham số (non-parametric) với tỉ lệ áp đảo 1 460 000 / 40 6000 (dĩ nhiên đây chỉ là những con số có tính tham khảo vì trong đó có thể có nhiều trùng lập và chưa tính đến các tài liệu in trên giấy). Dựa vào phân tích trên và nếu vận dụng các tiêu chí nêu trên, đặc biệt là tiêu chí 2 và 3 thì có lẽ nên chọn tham số làm thuật ngữ thống nhất.

- Bệnh - chứng /ca - đối chứng (case-control): thuật ngữ đầu gọn nhưng gắn với một ngành cụ thể, thuật ngữ sau có thể dùng trong mọi trường hợp nên có lẽ có ưu điểm hơn và cũng có thể làm gọn hơn thành ca - chứng nếu không gây nhầm lẫn.

2. một phía dùng nguyên xi từ vay mượn gốc Hán không thay đổi cấu trúc: đây cũng là loại dị biệt không lớn, nếu thống nhất với các tiêu chí trên, đặc biệt là tiêu chí 4 thì dễ đi đến giải pháp ổn thỏa. Ví dụ như:

- Trung bình bình phương / bình phương trung bình (mean square): theo đúng cấu trúc tiếng Việt (chính trước-phụ sau) từ đầu để chỉ clip_image004 còn từ sau để chỉ clip_image006 nên dựa vào định nghĩa thì bình phương trung bình phản ánh đúng khái niệm mean square hơn (vì có lẽ hơi trái bình thường khi cho rằng trung bình bình phương là nói tắt của trung bình của các bình phương)

- Hiệp phương sai / hiệp biến / phương sai hợp (covariance): từ đầu và từ thứ hai (vay mượn nguyên xi) có lẽ cũng không tinh gọn, rõ nghĩa và dễ nắm bắt hơn từ cuối cùng (theo đúng cấu trúc tiếng Việt), hơn nữa từ thứ hai có từ tố biến dễ gây ngộ nhận đồng thời cũng không nhất quán với thuật ngữ phương sai (variance), do đó dùng phương sai hơp có vẻ hợp lí hơn.

3. một phía dùng thêm từ tố có thể lược bớt đi được: sự khác nhau này cũng không gây ảnh

hưởng đáng kể về học thuật, nếu lưu ý tới tính tiết kiệm trong ngôn ngữ và tiềm năng mở rộng của thuật ngữ thì cũng dễ đi đến thống nhất. Ví dụ như:

- thể tích phân được / tích phân được / khả tích (integrable): rõ ràng hai từ sau là gọn hơn và cũng có đầy đủ ý nghĩa như từ đầu; từ cuối cùng gọn nhất nhưng quá cô đọng, khó hiểu trực tiếp như từ thứ hai, hơn nữa lại vay mượn nguyên xi từ chữ Hán, ngoài ra từ tích phân được cũng thống nhất với các từ cùng dạng như đo được (measurable), đếm được (countable) ... nên có vẻ là một ứng viên phù hợp nhất.

- Số yếu vị / yếu vị (mode): ở đây một phía coi yếu vị như phần bổ nghĩa, phía khác coi là danh từ nên về mặt ngôn ngữ đều có thể chấp nhận được, tuy nhiên nếu để ý tới tính gọn gàng, đơn giản thì có vẻ dùng yếu vị tốt hơn, việc này càng thỏa đáng trong trường hợp dữ liệu định tính (không là số). Ngoài ra, việc bỏ bớt này cũng phù hợp với xu hướng chung của ngôn ngữ hiện nay, chẳng hạn trong bộ môn toán việc bỏ bớt các từ chỉ loại (hoặc “từ phụ”) khi không gây nhầm lẫn gần như đã thành tập quán (thay vì tử số, mẫu số, tỉ số, tổng số, hàm số, tập hợp... người ta dùng ngắn gọn tử, mẫu, tỉ, tổng, hàm, tập... và hơn nữa, cách dùng này cũng có lợi khi mở rộng khái niệm, ví dụ tử mẫu của f/g với f và g là hai hàm...)

4. Có một phía dùng từ hoặc từ tố có nghĩa hoặc thường được hiểu theo nghĩa khác: khác biệt loại này cũng không quan trọng lắm nhưng không đáng có. Nếu thống nhất các tiêu chí nêu trên thì giải quyết bất đồng có lẽ không quá khó. Chẳng hạn:

- Ước số /ước lượng (estimate): ước số (divisor) đã được dùng trong toán học để chỉ số chia hết số khác vì thế có lẽ dùng ước lượng ổn thoả hơn

- Giả thiết / giả thuyết (hypothesis): ở đây có việc nhầm lẫn trong việc dùng từ vì giả thiết (assumption) là điều cho trước trong một định lí hay một bài toán để căn cứ vào đó mà suy ra kết luận của định lí hay để giải bài toán / điều coi như là có thật, nêu ra làm căn cứ để phân tích, suy luận (giả 假 : ví phỏng,

nếu, thiết 設 :đặt nên,dựng nên), còn giả thuyết là điều nêu ra trong khoa học để giải thích một hiện

tượng tự nhiên nào đó và tạm được chấp nhận, chưa được kiểm nghiệm, chứng minh (thuyết 說 : chủ trương, ngôn luận). Những trường hợp như thế này có lẽ dễ dàng thống nhất theo chính tả.

- Tần số / tần suất (frequency): tần (nhiều lần, dồn dập, thường, nói tắt của tần suất, tần số), suất

(tỉ lệ, mức, cái chuẩn tắc nhất định) , như vậy cả hai thuật ngữ đều có vẻ thoả đáng về mặt ngôn ngữ. Tuy nhiên, từ suất thường được hiểu ở nghĩa thứ hai như trong hiệu suất, lãi suất, công suất, do đó dùng tần số có lẽ làm người đọc ít hiểu sai định nghĩa hơn.

5. Dùng từ giống nhau nhưng để chỉ các khái niệm không thật giống nhau: khác biệt loại này rất đáng chú ý và cần giải quyết sớm vì có ảnh hưởng không tốt về mặt học thuật, làm người đọc/học lẫn lộn khái niệm. Ví dụ như:

- Tỉ số / tỉ suất (ratio) và ngược lại tỉ suất /tỉ số (rate): như đã nêu trên, từ suất thường được hiểu ở nghĩa thứ hai (cái chuẩn tắc nhất định) như trong hiệu suất, lãi suất, công suất … do đó căn cứ vào định nghĩa của hai khái niệm ratio rate (xem thêm bài viết “Tỉ số, tỉ lệ tỉ suất”) cùng các tiêu chí đã nêu, đặc biệt là tiêu chí 2 và 4 thì có vẻ nên chọn tỉ hoặc tỉ số cho ratio tì suất cho rate.

6. Dùng từ [có từ tố] có nghĩa khác nhau (kể cả giữ nguyên thuật ngữ bằng tiếng nước ngoài) để chỉ cùng khái niệm: điều này có thể do chưa tìm ra được từ phù hợp để dùng nên có lẽ biện pháp giải quyết là cùng nhau chọn một từ phù hợp hơn. Chẳng hạn như:

- Không / vô hiệu (null) trong null hypothesis: từ “không” có vẻ phản ánh đúng khái niệm hơn tuy nhiên

lại dễ bị hiểu lầm là đi với các từ khác (thay vì bổ nghĩa cho “giả thuyết”), còn từ “ hiệu” tránh được hiểu lầm này nhưng hình như không phản ánh tốt khái niệm. Có thể nêu ra ba ứng viên khác là “linh” 零 (số không) và “khống” (không có trong thực tế, nhưng được tính, được xem như có thật; đây cũng là âm

khác của từ không 空- bỏ không, bỏ trống) và zero cho “null”. Cả ba từ đều có vẻ ổn về mặt ý và đều không gây nhầm lẫn đã nêu Tuy nhiên, từ linh ít được dùng, chẳng hạn chỉ trong số đếm (102 - trăm linh

hai) hoặc trong toán học có luỹ linh (phần tử khi luỹ thừa đến một bậc nào đó thì bằng “không”)... nên khi ghép với “giả thuyết” thành linh giả thuyết hay giả thuyết linh khó tạo được liên tưởng tới ý của “null” và hình như nghe cũng không được xuôi tai. Từ khống thông dụng hơn, đi với “giả thuyết” thành “giả thuyết khống” tạo liên tưởng tới nghĩa tiêu cực nhưng nghĩa này thật sự cũng phù hợp với nghĩa của null trong null hypothesis nên có vẻ là ứng viên sáng giá nhất bởi vì từ zero cũng phù hợp nhưng có vẻ “bạo” quá không đảm bảo tiêu chí 4.

- Tỉ số (số) chênh / tỉ số khả năng/ tỉ (lệ) cược (odds ratio): vấn đề chính ở đây không thống nhất cách dịch khái niệm odd, từ chênh (cao thấp khác nhau, không ngang nhau, không bằng nhau) phản ánh phần nào khái niệm odd, tuy nhiên thường hiểu theo nét nghĩa của hiệu, từ khả năng (cái vốn có về vật chất/tinh thần để làm được việc gì, cái có thể xuất hiện/xảy ra trong điều kiện nhất định) có nghĩa không trực tiếp, còn từ cược (cá cược) đúng theo lịch sử khái niệm odd nhưng có lẽ ít thông dụng đối với số đông. Một ứng viên khác chưa thấy dùng là chọi (chống lại, đối phó) thường được hiểu theo nét nghĩa của tỉ (như một chọi ba) nên có vẻ phù hợp hơn, như thế nên chăng dịch odd là tỉ chọi và odds ratio là tỉ đối chọi.

7. Dùng từ có nghĩa giống nhau hoặc tương tự (theo quan điểm khác nhau) để chỉ cùng một khái niệm: đây là loại không thống nhất không gây trở ngại lớn về học thuật nhưng giải quyết có thể khó hơn vì đây là loại khác biệt về quan điểm dùng từ. Một phía cho rằng một từ chỉ một khái niệm cụ thể cũng có thể hiểu mở rộng theo nghĩa khái quá, phía khác thì muốn dùng từ mang đúng nghĩa khái quát. Chẳng hạn với từ population có ít ra hai cách dịch là:

- Dân số: trong từ population có gốc là people (tiếng Pháp: peuple) chỉ người mặc dầu trong thống kê population có thể hiểu khái quát là một tập các đối tượng nào đó không nhất thiết là người. Ngôn ngữ gốc đã thế thì khi chuyển sang tiếng Việt theo nghĩa cụ thể là dân số thì chẳng có gì cản trở để không thể hiểu theo nghĩa khái quát như vậy, hơn nữa, ngôn ngữ có tính võ đoán nên dùng dân số với nghĩa mở rộng cũng có thể chấp nhận được.

- Quần/tổng thể: quần 群 (nhóm lại cho đông, đàn, lũ), tổng (góp lại, họp lại ), thể (hình trạng, bản chất sự vật), như vậy quần thể hay tổng thể đều phản ánh đúng bản chất khái niệm ở nghĩa khái quát của nó, tuy nhiên trong ngôn ngữ thường dùng tổng thể thường đươc hiểu theo nét nghĩa tổng quát/toàn cục (general/whole) như trong quy hoạch tổng thể, sơ đồ tổng thể... do đó, có lẽ nên dùng quần thể hơn.

Trong tiếng nước ngoài, như trong tiếng Anh cũng có tình trạng tương tự, chẳng hạn hai từ function (hàm) và mapping (ánh xạ) trong Toán học: có người chấp nhận dùng function để chỉ một ánh xạ tổng quát (giữa hai tập bất kì không nhất thiết là hai tập số) trong khi người khác thích dùng mapping trong trường hợp tổng quát này.

Do đó, nếu tôn trọng tiêu chí 1 triệt để thì nên thống nhất với nhau chọn một từ để dùng chung là điều lí tưởng nhưng nếu không thống nhất được thì cũng có thể thoả hiệp dùng như hiện hành.

Thật ra, do chưa tìm được ví dụ nào tương tự như trường hợp function mapping nên ở đây chúng tôi tạm dùng dân số và quần thể như ví dụ điển hình. Nếu xét kĩ hơn hai từ dân số quần thể về mặt ngữ nghĩa thì có lẽ cũng không khó để đi đến thống nhất cho trường hợp cụ thể này. Từ dân số đúng ra chỉ số

dân của một khu vực địa lí nào đó (một nghĩa của population) chứ không phải tập các người dân ở đó (một nghĩa khác của population) vì thế xem ra từ quần thể phản ánh đúng khái niệm hơn và do đó đáng được chọn hơn.

Nếu cách giải quyết những trường hợp “điển hình” trên là chấp nhận được, những bất đồng về thuật ngữ cùng loại như thế sẽ được giải quyết một cách tương tự.

Trên đây chỉ là những ý kiến và đề xuất cá nhân với tư cách là một người quan tâm tới Thống kê và việc áp dụng Thống kê ở Việt Nam ( không phải là một nhà chuyên môn về Thống kê hay Ngôn ngữ) nên chắc chắn không tránh được những suy nghĩ còn chủ quan, phiến diện. Sự bàn luận, đóng góp ý kiến của nhiều người để thống nhất về những điều có tính định hướng này là vô cùng cần thiết. Hiện nay trong chúng ta khó tìm được những người có tầm cỡ có uy tín cao như giáo sư Hoàng Xuân Hãn, có kiến thức rộng và sâu nhiều mặt nhiều ngành, nhưng với trí tuệ của số đông nhất là nhờ sự kết nối của hệ thống mạng toàn cầu, có nhiều hi vọng và khả năng chúng ta cũng sẽ giải quyết có kết quả bài toán về thống nhất thuật ngữ này.

Phan Văn Song

Tài liệu tham khảo:

1. Hoàng Xuân Hãn: Lời dẫn bộ Danh từ Khoa học 1942, wright.edu

2. Nguyễn Thiện Giáp, Vấn đề chuẩn hóa từ vựng tiếng Việt, ngongu.net

3. Nguyễn Thi Kim Thanh, Tham khảo nguyên tắc chuẩn hoá thuật ngữ khoa học ở các nước, vusta.vn

4. Bộ Giáo dục, Quy định về chính tả và thuật ngữ tiếng Việt (Quyết định 240 ngày 5/3/1984)

5. Nguyễn Đỗ Nguyên, Nguyễn Văn Dũng, Thống nhất Thuật ngữ trong Y tế Công cộng, ytecongcong.com

6. Đào Duy Anh, Từ điển Hán Việt, Minh Tân,1950

7. Hán Việt Từ Điển Trích Dẫn

8. Từ điển Hán Việt Thiều Chửu

9. Tra từ: Hệ thống từ điển chuyên ngành mở

Go to top