Thành viên:Laurent Bouvier/Free Vietnamese Dictionary Project Vietnamese-Vietnamese

Từ điển mở Wiktionary

Vietnamien[sửa]

Salut Laurent Bouvier,

Je suis un administrateur à vi:. Je viens de decouvrir que tu as un "bot" qui te permet à "aller plus vite" dans le transfert de [1] à Wiktionnaire. Je voudrais collaborer avec toi pour faire la même chose pour vi:, transferer le contenu de [2] à vi:. Comme vous avez déjà le license pour Wiktionnaire, et les "technologies"/"infrastructures" pour ce gens de travail, il y a un fort chance de appliquer les mêmes pour vi:.

Indique moi si tu est d'accord, si tu veux executer toi-même le "bot" (avec les "mots clés" vietnamiens au lieu de français, que je peux te fournir), ou si tu veux me donner les codes de "bot" (apparament Python) et les guides de tes savoirs faire.

Actuellement, nous avons seulement 1000 mots; si cette operation est reussite, ça va être une explosion dans la aspect utile de notre projet. Merci bien pour tes nouvelles,

Trần Thế Trung 6 juin 2006 à 17:54 (UTC)

P.S. Excuse moi de ma française de niveau User-fr-1 ou User-fr-2

May be, can continue this discussion in English? I have no problem to help you to import in your dictionary your content.

I have created two users (Laurent Bouvier and PiedBot) to support the import. Now, there are a couple of point that we will have agree:

  • Item structure: it seems that it is quite similar to the French wikt with names in English.
  • Category name: Can we define a list of categories?
  • Pronunciation: I have worked with a friend of mine to define a typical pronunciation which could be not so correct.

→ Can we define a list of words that we use as testing samples? Laurent Bouvier 11:19, ngày 7 tháng 6 năm 2006 (UTC)

Thank you for your kind collaboration! Here are the answers:
  • Item structure: I suspect it is highly similar to Dutch Wiktionary, because User:David, an administrator here, being a Dutch origin, had built many of them. It is also very similar to French Wiktionnaire and English Wiktionary, as far as I can tell. Basically, we use template to define the structure. The source code of a page should have:

First level : defining the language, e.g. {{-fr-}} for French (ISO 639)
Second level : defining the nature of word ({{-noun-}}, {{-verb-}}, {{-adj-}}, {{-adverb-}}...)
directly below is the word in bold, e.g. '''mot'''
Third level 0: {{-pron-}}, below is pronunciation, e.g. [[w:IAP|IAP]] /mot/ 
Third level 1: {{-etym-}} and the explaination of etymology below, if available
Third level 2: a numbered list of meaning (use code "#" for numbered listing)
Third level 3: translation: begin with {{-trans-}} then 
{{top}}
list of language and their translation (use code * for listing), e.g.
*{{vi}} : [[từ]]
We also use template here for language name (ISO 639).
The translation is enclosed in [[]]
If they are noun, there may be {{f}}, {{m}}, {{n}}, ... 
indicating their gender (masculin, feminin, ...) beside each translation
{{mid}}
the same content
{{bottom}}
Third level 4: derived word, related word, .... if available 

Repeat the same structure for other language/nature of word if available

Additional category code (the template above automatically add category)

Interwiki code

Here is the list of all templates: [3], many of their meaning can easily be deduced from their English names, feel free to ask if you need a clarification.
  • Category name: much of the categorization work is automatically done by the templates mentioned above. So far we only have about 166 categories [4]. Would you like a translation for the category name in some list that you would provide?
  • Pronunciation: w:IPA should be ok; well it may be better if we start testing the following word:
Vietnamese
cười (smile, verb) người (man, noun) xinh (beautiful, adjective) sẽ (auxiliary for verb in future, ), nói (say, verb, existed, to test if the bot can ignore existed word)
French
être, vous
Mixed
toi (having meaning in both vietnamese and french, not meantioning other if any)
For our project, I suggest adding a template Bản mẫu:Hồ Ngọc Đức to indicate the original source of the content (Hồ Ngọc Đức is the name of the author at Leipzig). This template add a line in references or even turn on/off a special category.Trần Thế Trung 15:40, ngày 7 tháng 6 năm 2006 (UTC)

OK. I am in Germany up to the end of the week.

My proposal:

  • Next week-end (June 10-11th): I prepare a list of a couple of samples.
  • During the following week: I let you comment out the modifications that you would like
  • On the following week end (June 17-18th): we import the validated parts of the dictionnary.
  • On July 15-16th: We finish the import.

Another question:

  • Which of the dictionnary would you like to import? I have used on English to Vietnamese and French to Vietnamese.
  • The German to Vietnamese seems to have a very bad quality ( for instance yêu chuộng is translated gernhaben "to like", gleich "as", wie "as", ähnlich "similar to" because that's a direct translation of te English "like" as verb and preposition)
  • The Từ điển tiếng Việt: I am not sure that it is importable (no grammatical section; bad format).
  • Russian Vietnamese: No idea if it is good.
  • Norvegian - Vietnamese: may be possible.




Laurent Bouvier 17:30, ngày 7 tháng 6 năm 2006 (UTC)

Hi Laurent, I wasn't aware of your work at the Wiktionnaire; I'm excited about your proposal.

  • Item structure: You can find our structural templates at Đặc biệt:Prefixindex/Tiêu bản:-. There are, however, some additional templates at the French Wiktionary that would be useful, such as "term".
  • Category name: How were categories handled at the French Wiktionary? It looks as if, for the most part, the entries there are just assigned categories based on their part of speech. In that case, our structural templates can take care of that.
  • Pronunciation: The pronunciation varies considerably from region to region. For example, northern speakers generally use one more tone than souther speakers do. You seem to have accounted for those differences in the entries I've seen. I am a bit puzzled as to why "đ" is represented as [ɗ] instead of plain ol' [d]. Wikipedia says it means the consonant is glottalized, and my phonetics book says that means it's an implosive, but at least in my family, "đ" is pronounced exactly the same as "d" in English.
  • Dictionaries: To me, Từ điển tiếng Việt is the most important of the dictionaries for this wiki, even if it's not formatted very well, since we should define Vietnamese words here before translating them. At the French Wiktionary, that's not necessary, since you only have to link to a French word where the user can find a suitable definition. As long as Hồ Ngọc Đức releases the dictionary under the GFDL, though, we can simply import the plain text definitions above the translations and stick a tag on the entries, then go through and manually wikify those definitions.

We should ask Đỗ Quốc Bảo to look over some of the Free Vietnamese Dictionary Project's entries to see if the database as a whole is worth importing, since he's been critical of the quality of our definitions in the past, and I regularly see poor translations or glaring omissions in the English↔Vietnamese dictionary.

I'd like to wait until PiedBot has made some edits before granting it bot status, so we can spot any problems early on; bot status would only make it harder to spot errors. I'll actually be studying for and taking final exams until the 15th, and I might not have Internet access from then to the 20th, so if you'd like to go ahead with the import while I'm away, Trung will have to work with you. I'm sure David would also be interested in helping out a bit with this import.

Again, thanks so much for approaching us. After the import, this Wiktionary might actually be useful! :^)

 – Minh Nguyễn (thảo luận, đóng góp) 07:32, ngày 8 tháng 6 năm 2006 (UTC)

Hi Laurent, your excellently proposed plan fits me well! For the bot status, only Minh Nguyễn can grant, as he is our only "Bueaucrat" (I am just "Sysop"). I agree that for the tests, it might be better to have the bot visible. About the questions over the dictionaries, if the import of Vietnamese words need extra works that might not be readily available, I suggest we can start with English to Vietnamese and French to Vietnamese. Those are also very useful as well, since many Vietnamese speakers do search for English/French terms. Looking forward to see your samples. Trần Thế Trung 08:03, ngày 8 tháng 6 năm 2006 (UTC)
Oh, about the quality of Free Vietnamese Dictionary Project's entries, for the 3 languages that I can speak, it is acceptable to me, and probably the best free source available on the entire Internet. I will contact Đỗ Quốc Bảo anyway for his advice. Trần Thế Trung 08:09, ngày 8 tháng 6 năm 2006 (UTC)

Hi everybody.

I'm certainly interested in importing TĐTV. I actually asked for help here once, but no one seems to have noticed.

As for which dictionaries to import: I believe vi-vi can be imported immediately. It may be we'll have to do more manual work afterwards, but if we don't import it, we'll have to invent definitions ourselves and that will be much more work. De-vi is indeed bad. Ru-vi is good enough as far as I'm concerned. I'm not a specialist, but to me it has been of use already. There are example phrases and such... I have encountered quite a few blank pages, though. They may have been filled up by now, but I'd still beware. No-vi seems to be pretty good too, but I only understand of Norwergian what is similar enough to Dutch, so I can't say for sure.

About the templates: With the startup of WiktionaryZ the language codes have been put to the question again. They switched to another standard and the Wikiontaries that use them, are discussing to change over too. English will ben -eng- instead of -en-, Dutch will be -nld- instead of -nl- etc. For the case of uniformity with the other language wikis we may consider following their example.

As for pronounciation: Whenever one writes words phonetically, one always has to make choices about what to represent and what not. According to Ishwar's work on Wikipedia, Vietnamese đ is pronounced as a preglottalised implosive [ʔɗ]. But if it's really unimportant, we can choose to represent it as /d/.

And for categories: I hadn't bothered about them yet because I first wanted a base of words. But if we start importing an entire dictionary now it may be useful to create new categories and integrate them on the fly.

And for me helping: I have exams at university :-(. I have worked harder during the year than other years (you may have remarked my recent inactivity), so I can enjoy the start of summer (and it started pretty unconvincingly, this year...). But I can't make any promises about what I will and will not be able to contribute to the import. I'll certainly do what I can and help where and when I can.

Greets, David Da Vit 12:24, ngày 8 tháng 6 năm 2006 (UTC)

Regarding the language templates, we actually need to rewrite most of them to be consistent with Wikipedia. For example, we no longer call it "Tiếng Ucraina" but rather "Tiếng Ukraina", and "Tiếng Hoa" or "Tiếng Trung Quốc" is now preferred over "Chữ Hán".
As for pronunciation, we need to decide how narrow or broad we want the IPA transcriptions to be. I'd prefer a broad transcription, since there's so much variation among speakers. My English "day" is identical to my Vietnamese "đây", except that there isn't an even tone and the /e/ is a bit longer. However, if linguists commonly acknowledge a [ʔɗ], I guess we can go with it. We'll need an IPA examples chart, though, since not everyone's familiar with that system. In fact, I met with some resistence at the Vietnamese Wikipedia when I added IPA to an article once.
If we decide to integrate categories into this import, are we going to tag entries by hand, or are we going to try and parse the word in parentheses before each definition?
 – Minh Nguyễn (thảo luận, đóng góp) 22:04, ngày 8 tháng 6 năm 2006 (UTC)
Also, the VietFun mirror of TĐTV has a "Hán Việt – Việt" dictionary. Could that be of use for this project, or would that belong in our new Vietnamese Wikisource instead? – Minh Nguyễn (thảo luận, đóng góp) 22:06, ngày 8 tháng 6 năm 2006 (UTC)
It looks pretty similar to the other project. How, I have noticed that for some not so obvious reasons the first letter in the definition is truncated. Laurent Bouvier 07:20, ngày 9 tháng 6 năm 2006 (UTC)
I will take care of the language templates this weekend (change the language codes, change the name of languages). This should not be a headache, since it does not affect any of the old article (or even the new articles created with old convention). Only categories need to be changed, but that also does not affect the content of articles.
About the IPA, I am not expert, so I leave you the free choices.Trần Thế Trung 10:00, ngày 9 tháng 6 năm 2006 (UTC)

VietFun is actually a mirror of Hồ Ngọc Đức's dictionary: it runs on the same software, and, for the most part, it uses the same dictionary files. If I remember correctly, Hồ Ngọc Đức's site had the same truncation issue awhile back, but he fixed it, whereas the folks at VietFun haven't. I was just wondering if Hán-Việt – Việt (Sino-Vietnamese to Vietnamese) dictionary such as that one would be useful for Wiktionary.

Also, I noticed that the French Wiktionary has a Paronymes section that lists words with different combinations of diacritical marks. That'd be a good idea here, too, but I'd recommend setting up a multicolumn layout, similar to our Dịch ("Translation") sections, so that the lists don't get unwieldy.

A final question: should we create redirects for minor differences in spelling (quý vs. quí or xóa vs. xoá), or should we create separate entries for each, like the English Wiktionary tends to do (although English doesn't have as many systematic spelling variations like Vietnamese does). This is important because, whereas the English→Vietnamese dictionary uses the new diacritic style (xoá), the Vietnamese→English and Vietnamese→Vietnamese dictionaries both use the traditional style (xóa), without any difference in meaning.

 – Nguyễn Xuân Minh (thảo luận, đóng góp) 22:32, ngày 9 tháng 6 năm 2006 (UTC)

Just a note on pronounciation: the table here doesn't seem too accurate to me. <iu> is written /ju/ and <uy> is written /yi/, for example. According to this (and that is, as far as I know, a good approximation) is would be /iw/ for <iu> and /wi/ for <uy>. Based on Ishwar's work, I made this tabel once. It's just Hà Nội accent, of course... Comments?
As for the spelling variation, I think we'd better have one page giving all information and another page redirecting (or saying: "Spelling variation of...", "Older/Newer spelling of..."), so that if there's a mistake somewhere, or someone edits something, we don't get two different pages about fundamentally the same thing.
Thân mến, David Da Vit 11:13, ngày 10 tháng 6 năm 2006 (UTC)
The note of David on pronunciation is right. Trần Thế Trung 13:54, ngày 11 tháng 6 năm 2006 (UTC)
I agree with redirecting spelling variation, instead of having articles of essetially the same thing. I have tried to list all cases of 2 styles ("old" and "new") of spelling at Thành viên:Trần Thế Trung#Vietnamese variation on spelling Trần Thế Trung 12:34, ngày 11 tháng 6 năm 2006 (UTC)

Import of Vietnamese - Vietnamese[sửa]

I have begun to think on the way to import this dictionnary.

These are the first examples:

etymology (closed)[sửa]

Can somebody tell me whether the comment (H. ...) in Thành viên:Laurent Bouvier/hạnh phúc or Thành viên:Laurent Bouvier/hào hứng is actually an etymology? Laurent Bouvier 13:20, ngày 25 tháng 6 năm 2006 (UTC)

Yes, I would consider the two comments to be etymologies. Since Vietnamese is an analytic language, compound words such as hạnh phúc and hào hứng are often composed of words that have meaning on their own or that "stand for" concepts, just as the A in "AIDS" stands for "acute". So the hạnh in hạnh phúc (happiness) means luck, and the hứng in hào hứng (elation) stands for hứng thú (pleasantness). Something like that. – Nguyễn Xuân Minh (thảo luận, đóng góp) 18:50, ngày 25 tháng 6 năm 2006 (UTC)
The examples that you have imported are good! Yes, the H. in (H. ...) are indicators of etymology. There are a lack of "," and "." to separate the examples in 1 line, as I have pointed out in the talk pages like Thảo luận Thành viên:Laurent Bouvier/hầu. Hope that this should not be too hard to fix, especially for "." as it is infront of capitalized word (I have checked out FVDP and, unfortunately they have the same problem, so for the ",", it could be hard to fix). Very nice work in general though, well done! Trần Thế Trung 08:49, ngày 26 tháng 6 năm 2006 (UTC)

Pronunciations (Close)[sửa]

  • I have not added any sections on pronunciations as I am not a native speaker and I don't have any trustable ressource. Does somebody know where to find some that can be GFDL compliant ? Laurent Bouvier 13:20, ngày 25 tháng 6 năm 2006 (UTC)
Pronunciation in Vietnamese follows these rules. Basically, you can create a function taking a Vietnamese word and give an IPA pronunciation code, based on the given GFDL article. In the article, there are Hanoi/Saigon/others variations, but there exist a standard Vietnamese (very close to Hanoi); we can start with Hanoi only pronunciation (other can be added later). If this sounds hard to you, and if David or Minh don't have better ideas, I will take the responsibility of doing quick research and creating the function in python code this weekend, which you may reuse for the bot. Sound like we are doing a bit of text-to-speech job.Trần Thế Trung 14:04, ngày 28 tháng 6 năm 2006 (UTC)
It sounds a good idea. This is what we did for the vietnamese in the French wiktionary but the codification selected may be difficult. My proposal is that we introduce the pronounciation in a second step. Laurent Bouvier 17:09, ngày 28 tháng 6 năm 2006 (UTC)
This sounds like something we could even do in wikisyntax: create a template that uses ParserFunctions to handle all the nuances of Vietnamese orthography, and have each entry pass the word to this template in the format {{IPA tiếng Việt|đ|à|n}}. It'd be one elephant of a template, but it looks like ParserFunctions has enough logic support for the job, allowing us to easily fix any logic errors as we go. Failing that, we could of course create a Python function. Has this been done before? If not, we'd need to do a lot of unit testing, right? – Nguyễn Xuân Minh (thảo luận, đóng góp) 03:36, ngày 29 tháng 6 năm 2006 (UTC)
Ok, we will do this in second step. Wiksysntax can be a good idea to me, in the case where a pronunciation is confirmed, we can always use "subst:" to unload the server. Trần Thế Trung 08:19, ngày 29 tháng 6 năm 2006 (UTC)
Please check out Tiêu bản:VieIPA. Try it and/or fix it if you like. :)Trần Thế Trung 09:10, ngày 1 tháng 7 năm 2006 (UTC)
Actually, I will use it ... and let you fix it;-) Laurent Bouvier 17:46, ngày 3 tháng 7 năm 2006 (UTC)

Authors (Open)[sửa]

I have noticed that some of you guys are replacing the author name acronyms by their actual name. I have therefore compiled a list of author name abbreviations so that we can directly import them with a proper name

Author name in short Occurrences Actual name Status
HCM 40 Hồ Chí Minh Confirmed
NgTuân 35 Nguyễn Tuân Confirmed
Tản-đà 35 Tản Đà Confirmed
Ai Tư Vãn 3 Ai tư vãn classical work (Avia)
b. ? ?
Bà huyện TQ 3 Nguyễn Thị Hinh Confirmed
BCKN 13 Bích câu kỳ ngộ classical work (Avia)
BĐGiang 2 Bảo Định Giang Confirmed by Avia
BNT 7 Bần nữ thán (This is a poem, not a author)
Bùi Kỉ 6 Bùi Kỷ Confirmed
Câu đối cổ 3 Câu đối cổ Confirmed (folk)
cd 268 ca dao Confirmed (folk)
cd. 77 ca dao Confirmed (folk)
CgO 31 Cung oán ngâm khúc (Avia's suggestion)
chỉ Thượng đế, Trời 3 N/A not an author/work (an incomplete explicative sentence)
Chinh phụ ngâm 5 Chinh phụ ngâm Confirmed (classical work)
ChMTrinh 5 Chu Mạnh Trinh Confirmed by Avia
Chp 12 Chinh phụ ngâm
Chu Văn 3 Chu Văn Confirmed
2 cổ not an author/work (explaining "old" [proverb?])
Cung oán ngâm khúc 8 Cung oán ngâm khúc Confirmed (classical work)
Đào Vũ 2 Đào Vũ Confirmed
DgQgHàm 9 Dương Quảng Hàm Confirmed
ĐgThMai 68 Đặng Thai Mai in documents before 1945: Đặng Thái Mai (Avia)
Đỗ Mười 3 Đỗ Mười Confirmed
GHC 8 Gia huấn ca xem
Hà-thành chính khí ca 3 Hà thành chính khí ca Confirmed (classical work)
HĐThuý, HgĐThúy, HgĐThuý 2, 4, 26 Hoàng Đạo Thúy Confirmed by Avia
HgTùng 5 Hoàng Tùng Confirmed by Avia
HgXHãn 9 Hoàng Xuân Hãn Confirmed
Hồ Xuân Hương 3 Hồ Xuân Hương Confirmed
Hoàng Trừu 5 Hoàng Trừu Confirmed
HThKháng 2 Huỳnh Thúc Kháng Confirmed
Huy Cận 15 Huy Cận Confirmed
Huỳnh Tịnh Của 3 Huỳnh Tịnh Của Confirmed
HXHương 24 Hồ Xuân Hương Confirmed (same as above)
K 240 Truyện Kiều Confirmed (classical work)
Lê Ngọc Hân 2 Lê Ngọc Hân Confirmed
Lê Thánh-tông 8 Lê Thánh Tông Confirmed
Lí Công 3 Lý Công Confirmed
LKPhiêu 4 Lê Khả Phiêu Confirmed
LQĐôn 3 Lê Quý Đôn Confirmed
Lục Vân Tiên 17 Lục Vân Tiên Confirmed (classical work)
LVT 19 Lục Vân Tiên
Ma Văn Kháng 4 Ma Văn Kháng Confirmed
Nam Cao 2 Nam Cao Confirmed
NĐM 21 Nông Đức Mạnh Confirmed by Avia
Ng- Hồng 2 Nguyên Hồng Confirmed
NgBính ? Nguyễn Bính Confirmed
NgBKhiêm 5 Nguyễn Bỉnh Khiêm Confirmed
NgCgHoan 68 Nguyễn Công Hoan Confirmed
NgCgTrứ 11 Nguyễn Công Trứ Confirmed
NgĐChiểu 2 Nguyễn Đình Chiểu Confirmed
NgĐThi 35 Nguyễn Đình Thi Confirmed
NgDu 3 Nguyễn Du Confirmed
NgHồng 2 Nguyên Hồng Confirmed (same as above)
Ng-hồng 115 Nguyên Hồng Confirmed (same as above)
NgHTưởng 49 Nguyễn Huy Tưởng Confirmed
NgKhải 30 Nguyễn Khải Confirmed by Avia
NgKhuyến 7 Nguyễn Khuyến Confirmed
Ngô Tất Tố 4 Ngô Tất Tố Confirmed
Ngô Văn Phú 2 Ngô Văn Phú Confirmed
Ngọc-hân công chúa 3 Lê Ngọc Hân Confirmed (same as above)
NgTrãi 10 Nguyễn Trãi Confirmed
Nguyễn Bá Học 3 Nguyễn Bá Học Confirmed
Nguyễn Bính 3 Nguyễn Bính Confirmed
Nguyễn Đình Chiểu 3 Nguyễn Đình Chiểu Confirmed (same as above)
Nguyễn Duy 3 Nguyễn Duy Confirmed
Nguyễn Quang Sáng 2 Nguyễn Quang Sáng Confirmed
Nguyễn Thế Phương 2 Nguyễn Thế Phương Confirmed
NgVBổng 5 Nguyễn Văn Bổng Confirmed
NgVLinh 2 Nguyễn Văn Linh Confirmed
NgVVĩnh 2 Nguyễn Văn Vĩnh Confirmed
NgXSanh 4 Nguyễn Xuân Sanh Confirmed
Nhị độ mai 6 Nhị độ mai Confirmed (classical work)
Phan Thanh Giản 3 Phan Thanh Giản Confirmed
Phan Trần 7 Phan Trần Confirmed (classical work)
Phan Tứ 8 Phan Tứ his pseudonym also: Lê Khâm
PhBChâu 12 Phan Bội Châu Confirmed
PhKBính 2 Phan Kế Bính Confirmed
PhTr 11 Phan Trần Confirmed (classical work) by Avia
PhVĐồng 91 Phạm Văn Đồng Confirmed
PhVKhải 8 Phan Văn Khải Confirmed
QÂTK 3 Quan âm thị kính classical work
QSDC 3 Quốc sử diễn ca classical work (Avia)
Quốc âm thi tập 6 Quốc âm thi tập Confirmed (classical work)
Sóng hồng, Sóng-hồng 3, 4 Sóng Hồng a pseudonym of Trường Chinh
Sơn-tùng 13 Sơn Tùng Confirmed
Tản Đà 2 Tản Đà Confirmed
TBH 3 Tỳ bà hành Po Chu-i poem with Vnamese transl. (Avia)
Tế Hanh 2 Tế Hanh Confirmed
Thế-lữ 4 Thế Lữ Confirmed
Thơ Vương Tường 3 Vương Tường one of Four Chinese Beauties
tng 295 tục ngữ Confirmed (folk)
tng. 227 tục ngữ Confirmed (folk)
Tô Hoài, Tô-hoài 6, 27 Tô Hoài Confirmed
Tố-hữu 60 Tố Hữu Confirmed
Trần Hiếu Minh 2 Trần Hiếu Minh a pseudonym of Nguyễn Văn Bổng (Avia)
Trần Tế Xương 3 Trần Tế Xương Confirmed
TrBĐằng 13 Trần Bạch Đằng Confirmed
Trê Cóc 10 Trê Cóc Confirmed (classical work)
Trg-chinh 111 Trường Chinh Confirmed
TrTXương 16 Trần Tế Xương Confirmed (same as above)
Trương Vĩnh Kí 2 Trương Vĩnh Ký Confirmed
Truyện Hoa tiên 6 Truyện Hoa tiên Confirmed (classical work)
Truyện Kiều 99 Truyện Kiều Confirmed (classical work) (same as above)
TrVGiàu 30 Trần Văn Giàu Confirmed
TrVTrà 2 Trần Văn Trà Confirmed
Tự tin, có đủ bản lịnh trong suy nghĩ, hành động 3 N/A An explicative sentence. Not author.
Tự tình khúc 4 Tự tình khúc Confirmed (classical work)
Tú-mỡ 51 Tú Mỡ Confirmed
Vè thất thủ kinh đô 3 Vè thất thủ kinh đô Confirmed (classical work)
VNgGiáp 65 Võ Nguyên Giáp Confirmed
vỡ bát 3 N/A not author nor title
Võ Văn Kiệt 3 Võ Văn Kiệt Confirmed
Vũ Đình Liên 2 Vũ Đình Liên Confirmed
XDiệu 5 Xuân Diệu Confirmed
X-thuỷ 27 Xuân Thủy Confirmed
HNĐ 9 ?
For the author/work that have not been recognized with full name, you may give the explicit word that cite them: that can help finding out the right author/work. Trần Thế Trung 08:52, ngày 29 tháng 6 năm 2006 (UTC)
I am quite impressed by the speed of the answer !!!! waoohh! Laurent Bouvier 12:49, ngày 29 tháng 6 năm 2006 (UTC)

Allwiki (closed)[sửa]

"Allwiki" is when every single word in a wiki page is wikilinked. Translationaries (including the FVDP) tend to do this, but Wiktionary has tended to keep the Wikipedia model by linking only to relevant words; otherwise, features like What Links Here get all cluttered up. "hầu" is a perfect example of allwiki, but what can we do about this? Are there any frequency lists for Vietnamese, so that we can at least filter out common words like "và", "các", and "đi"? Or maybe we should just remove all the links in definitions, so that we can manually add them in later? (The second option would be easy enough if we didn't have tens of thousands of entries to grapple with.)

Speaking of frequency lists, it'd be cool to get one or compile one ourselves. The English Wiktionary to find easy words that need to be defined well.

 – Nguyễn Xuân Minh (thảo luận, đóng góp) 03:50, ngày 29 tháng 6 năm 2006 (UTC)

I can foresee three ways to deal with that:
  • We wikify everything and then we have periodic updated to remove the wikification that does not sound useful. ==> This can be easily automated
  • We may a list of exceptions or of inclusions to decide which word to wikify and then all correct will be manual as it is difficult to decide.
  • The last option, I can imagine is that we decide to wikify only the word with more than one syllables.
Any comment/preferences/other ideas ? Laurent Bouvier 13:14, ngày 29 tháng 6 năm 2006 (UTC)
As a non native speaker, my preference is going towards the first and the third options. The option 3 is nearly the one taken on the French wiktionary where we don't wikifwy the words with less than 5 letters. Laurent Bouvier 08:16, ngày 30 tháng 6 năm 2006 (UTC)
Here is a list of Vietnamese words that is ignored in the search text of KDE document/help center (taken from Vietnamese translation of KDE). It is a rough translation of a similar list English. I give no guarantie that it is good for our purpose. For me any of your choice is OK, even allwiki style. "trên, về, theo, qua, sau, lại, tất cả, chỉ, đã, và, tuy, luôn, trong, nữa, bất cứ, là, quanh, thành, vì, đã là, trước, đầu, dưới, cạnh, giữa, tỷ, cả, nhưng, có thể, không thể, đã không, không, làm, đừng, từng, nơi khác, khác, cuối, đủ, mọi, bất cứ, trừ, ngoại trừ, cho, tìm, thêm, đã có, do đó, của, anh ta, cô ta, như nào, bao nhiêu, tuy nhiên, thay cho, vào, của nó, sau này, như, nhiều, triệu, đa số, nghĩa là, không bao giờ, không ai, bây giờ, thường xuyên, nếu không thì, chúng tôi, gần đây, giống như, có vẻ, vài, từ khi, cái gì đó, vẫn, dừng, phải là, họ, thì, này, đấy, nghìn, mẹo, quá, cũng, về, nếu không, cho đến khi, cập nhật, dùng, rất, muốn, cách, tốt, gì, khi, mỗi, cái gì, hay, ai, toàn bộ, tại sao, cùng, không có, sẽ không, sẽ, đang, có, chưa, bạn, của bạn, bạn đã"Trần Thế Trung 15:47, ngày 1 tháng 7 năm 2006 (UTC)
It sounds fair enough. By the way, there is also a second reason to use something close to all wiki style: the wiktionary in the official statistics are sorted by counting the intrawiki links. Laurent Bouvier 09:51, ngày 2 tháng 7 năm 2006 (UTC)
Are you referring to how the official count requires articles to have at least one interwiki link? If so, that shouldn't be a problem: except for the English and French words that exactly mean trên, về, etc., you can't form a definition using only these words. "Probably above front but after" is not a definition. :^) – Nguyễn Xuân Minh (thảo luận, đóng góp) 05:13, ngày 3 tháng 7 năm 2006 (UTC)

Request for delink (Open)[sửa]

I'd suggest removing the following words from your list (thus linking them in the entries), as they might be important in the context of the definition: tỷ/tỉ, triệu, họ, nghìn, mẹo, cập nhật, tốt, bạn. – Nguyễn Xuân Minh (thảo luận, đóng góp) 01:35, ngày 4 tháng 7 năm 2006 (UTC)
thường should also be delinked. We should link to the words in this list only when they're the only words in the definition. This way, at properly links to . – Nguyễn Xuân Minh (thảo luận, đóng góp) 02:53, ngày 5 tháng 7 năm 2006 (UTC)
xuống, làm cho, với, hoặc and một (outside the context of numbers; see previous message) should be delinked as well. Also, "nói tắt" appears at the end of a definition for vật; it means "for short" and should be a {{term}}. – Nguyễn Xuân Minh (thảo luận, đóng góp) 06:43, ngày 5 tháng 7 năm 2006 (UTC)
sự, cuộc, and nào should definitely be delinked. – Nguyễn Xuân Minh (thảo luận, đóng góp) 02:46, ngày 6 tháng 7 năm 2006 (UTC)
Also, delink bộ, bằng, thứ, nhỏ, lớn, to, but link these words if they're the only words in the definition. – Nguyễn Xuân Minh (thảo luận, đóng góp) 06:24, ngày 8 tháng 7 năm 2006 (UTC)
Delink các and làm. – Nguyễn Xuân Minh (thảo luận, đóng góp) 16:50, ngày 8 tháng 7 năm 2006 (UTC)
Delink được and bị. – Nguyễn Xuân Minh (thảo luận, đóng góp) 07:07, ngày 17 tháng 7 năm 2006 (UTC)
Delink ra. – Nguyễn Xuân Minh (thảo luận, đóng góp) 04:02, 3 tháng 8 2006 (UTC)

Terminology (Open)[sửa]

In Thành viên:Laurent Bouvier/én the terminology "động" (no valid meaning in this context) is actually a short form of "động vật học" (study of animal). So I think probably we will need to compile the following list of shortform->fullform for terminology.

And this is the full list ... Laurent Bouvier 09:39, ngày 6 tháng 7 năm 2006 (UTC)
I have add the fullforms for those I know. The others you can leave them as original source, they will be fixed in context (if needed).Trần Thế Trung 08:11, ngày 7 tháng 7 năm 2006 (UTC)
Short form Occurrences Full form Status
Động ? Động vật học Confirmed
Y ? Y học Confirmed
đph 187 Địa phương
kng. 127 Khẩu ngữ Confirmed
toán 109 Toán học Confirmed
96 Vật lý học Confirmed
ph. 77 Phương ngữ
id. 67 Ít dùng
kết hợp hạn chế 64 Kết hợp hạn chế
chm. 49 Hóa học
thực 44 Thực vật học Confirmed
thiên 35 Thiên văn học Confirmed
33 Từ cũ
hóa 29 Hóa học Confirmed
địa 28 Địa lý học Confirmed
thgt. 12 Thông tục
cũ; id. 12 Từ cũ; ít dùng
vch. 11 Văn chương Confirmed
vchg. ? Văn chương Confirmed
âm thanh 11 Âm thanh Confirmed
mắt 10 Nhãn khoa Confirmed
9 Vật lý học Confirmed (same as above)
thường dùng phụ sau đg. 7 dùng sau động từ
kng.; id. 7 Khẩu ngữ; ít dùng Confirmed
làm việc gì 6 ?
kng.; kết hợp hạn chế 6 Khẩu ngữ; kết hợp hạn chế Confirmed
cũ, hoặc ph. 6 Từ cũ hoặc địa phương
triết 5 Triết học Confirmed
id.; kết hợp hạn chế 5 Ít dùng; kết hợp hạn chế
dùng hạn chế trong một số tổ hợp 5 ?
động vật 5 Động vật học Confirmed
5 Cơ học Confirmed
tính 4 ?
thường viết hoa 4 ?
người 4 ?
ngữ 4 ?
hoặc t. 4 hoặc tính từ
hiện tượng 4 ?
cây cối 4 Thực vật học Confirmed
tính người 3 ?
thường dùng phụ cho đg. 3 Thường dùng phụ cho động từ
sinh 3 Sinh học Confirmed
ph.; kng. 3 Phương ngữ; khẩu ngữ Confirmed
nói năng 3 ?
nói 3 ?
bụng 3 ?
hay t. 3 hoặc tính từ
dùng trước d. 3 dùng trước danh từ
chất lỏng 3 Chất lỏng Confirmed
dùng trong một số tổ hợp 3 ?
dùng phụ sau đg. 3 dùng sau động từ
dùng phụ sau d., trong một số tổ hợp 3 dùng sau danh từ, trong một số tổ hợp
da 3 Da Confirmed
cơ thể 3 Cơ thể người Confirmed
2 Xã hội học
vật chất 2 Vật chất Confirmed
trẻ con 2 Trẻ em Confirmed
ăn uống 2 Ẩm thực Confirmed
chủ nghĩa 2 ?
tình cảm 2 Tình cảm Confirmed
tiếng khóc 2 ?
thuyết 2 ?
thường dùng sau có 2 thường dùng sau "có"
thường dùng phụ trước d. 2 dùng trước danh từ
thực vật 2 Thực vật học Confirmed (same as above)
thức ăn 2 ?
thiền 2 ?
thgt.; kết hợp hạn chế 2 thô tục; kết hợp hạn chế Confirmed
cây 2 Thực vật học Confirmed
quả 2 Hoa quả Confirmed
phật 2 Phật học Confirmed
ph.; id. 2 Phương ngữ; ít dùng
ph.; cũ 2 Phương ngữ; từ cũ
nơi 2 ?
chất 2 Hợp chất hóa học Confirmed
nhận thức 2 Nhận thức Confirmed
ngựa 2 Ngựa Confirmed
ngủ 2 ?
mùi 2 Mùi vị Confirmed
máy móc 2 Máy móc Confirmed
mặt 2 ?
lúa 2 Lúa Confirmed
lợn 2 Lợn Confirmed
khí hậu 2 Khí hậu học Confirmed
hoặc đg. 2 hoặc động từ
hoặc d. 2 hoặc danh từ
bệnh 2 Bệnh tật Confirmed
hoa 2 Hoa quả Confirmed (same as above)
hay đg. 2 hoặc động từ
giọng, tiếng 2 Giọng nói Confirmed
giải 2 ?
đường sá, sông ngòi 2 Giao thông Confirmed
đường sá 2 Đường sá Confirmed
dùng phụ sau d. 2 dùng sau danh từ
dùng làm phần phụ trong câu 2 ?
dùng hạn chế trong một vài tổ hợp 2 ?
đất đai 2 Đất đai Confirmed
đá 2 Đất đá Confirmed
cũ; dùng hạn chế trong một số tổ hợp 2 Từ cũ; dùng hạn chế trong một số tổ hợp
2 Confirmed
xe cộ 1 Xe cộ Confirmed
cứ: dựa vào; điểm: nơi 1 ?
cũ, hoặc vch. 1 ?
cũ; dùng hạn chế trong một vài tổ hợp 1 Từ cũ; dùng hạn chế trong một vài tổ hợp
cũ; dùng ở cuối câu 1 Từ cũ; dùng ở cuối câu
cũ; dùng phụ trước d., kết hợp hạn chế 1 Từ cũ; dùng phụ thuộc danh từ, kết hợp hạn chế
cũ; dùng trước một từ xưng hô 1 Từ cũ; dùng trước một từ xưng hô
biến âm của dâng 1 ?
cũ; kc. 1 ?
cũ; kết hợp hạn chế 1 Từ cũ; kết hợp hạn chế
cũ; kng. 1 Từ cũ; khẩu ngữ Confirmed
cũ; ph. 1 Từ cũ; phương ngữ
cũ; trtr.; dùng phụ sau d., trong một số tổ hợp 1 Từ cũ, trạng từ; dùng phụ sau danh từ, trong một số tổ hợp
cũ; vch.; dùng hạn chế trong một số tổ hợp 1 ?
cung 1 ?
cười 1 ?
chim, gà... 1 Chim chóc Confirmed
cũ, hoặc kng. 1 Từ cũ hoặc khẩu ngữ Confirmed
dã: đồng nội; cầm: chim 1 ?
đặc biệt là các tháng 6-7-8 1 ?
dân tộc 1 Dân tộc Confirmed
dáng đi 1 ?
dáng điệu, đường nét 1 ?
cử chỉ, nói năng 1 ?
đất trồng 1 Đất đai Confirmed (same as above)
đất trồng trọt sau khi đã được cày cuốc và phơi nắng 1 ?
đầu 1 ?
đầu tóc 1 ?
đgt. 1 động từ
(to distinguish from đại từ)
bia 1 Bia Confirmed
diễn đạt 1 ?
diễn viên 1 Diễn viên Confirmed
điều ước 1 ?
đồ dùng 1 ?
đồ mặc 1 ?
đội mũ 1 ?
dòng nước 1 ?
các vật nhọn 1 ?
động vật con được ấp đủ ngày trong trứng 1 ?
bộ phận của cơ thể động vật 1 ?
đức: mark 1 ?
các biến trong toán học 1 ?
beau 1 ?
dùng không có chủ ngữ 1 ?
dùng không có chủ ngữ, như một phần phụ hoặc phần chêm trong câu 1 ?
đừng lầm điển này với ấp cây. 1 ?
công: khéo léo; nghệ: nghề 1 công (sự khéo léo) + nghệ (nghề nghiệp)
dùng ở câu hỏi, và đi đôi với một đ. phiếm chỉ ai, gì, sao, nào, đâu 1 ?
dùng ở cuối câu 1 ?
dùng ở cuối vế câu, thường trong câu cầu khiến 1 ?
dùng ở đầu câu hoặc đầu phân câu 1 ?
dùng ở đầu một phân câu 1 ?
dùng phụ cho đg. 1 dùng phụ cho động từ
công việc 1 ?
dùng phụ sau d., hạn chế trong một số tổ hợp 1 dùng sau danh từ, hạn chế trong một số tổ hợp
chim, gà, vịt 1 Chim chóc Confirmed (same as above)
chim 1 Chim chóc Confirmed (same as above)
dùng phụ sau đg. trong một số tổ hợp, đi đôi với vay 1 ?
dùng phụ sau đg., t. 1 dùng sau động từ, tính từ
dùng phụ sau đg.; kết hợp hạn chế 1 dùng sau động từ; kết hợp hạn chế
dùng phụ sau một đg. khác hoặc ở đầu câu, đầu phân câu 1 dùng sau động từ khác hoặc ở đầu câu, đầu phân câu
dùng phụ trước đg. 1 dùng trước động từ
dùng phụ trước đg. hoặc dùng làm phần phụ trong câu 1 dùng trước động từ hoặc làm phần phụ trong câu
dùng sau đ. nghi vấn 1 dùng sau động từ nghi vấn
dùng sau sẽ, hẵng, hãy 1 dùng sau "sẽ", "hẵng", "hãy"
dùng tay 1 ?
dùng trong câu có hình thức nghi vấn 1 ?
dùng trong câu có ý phủ định 1 ?
dùng trong kết cấu càng... càng... 1 ?
chiết: gẫy; trung: giữa 1 ?
dùng trong một số tổ hợp, thường trước đg. 1 dùng trong một số tổ hợp, trước động từ
dùng trong một số tổ hợp, trước d. 1 dùng trong một số tổ hợp, trước danh từ
chất rắn 1 Chất rắn Confirmed
dùng trước d. chỉ đơn vị thời gian 1 dùng trước danh từ chỉ đơn vị thời gian
dùng trước d. số lượng 1 dùng trước danh từ số lượng
dùng trước d., trong một vài tổ hợp làm phần phụ của câu 1 dùng trước danh từ, trong một vài tổ hợp làm phần phụ của câu
dùng trước đg. 1 dùng trước động từ
dùng trước gì, chi trong câu nghi vấn hoặc phủ định 1 dùng trước "gì", "chi" trong câu nghi vấn hoặc phủ định
dùng trước một đg. khác 1 dùng trước một động từ khác
dùng trước một số d. chỉ bộ phận cơ thể 1 dùng trước một số danh từ chỉ bộ phận cơ thể
dùng trước một số d. số lượng 1 dùng trước một số danh từ số lượng
dùng với chủ ngữ là từ chỉ người 1 ?
dùng với chủ ngữ là từ chỉ sự vật, sự việc, và bổ ngữ là từ chỉ người 1 ?
dược 1 Dược khoa Confirmed
đường đạn, đường bóng 1 ?
côn trùng 1 Côn trùng Confirmed
con đực và con cái 1 ?
1 Confirmed
gia súc, gia cầm 1 gia súc, gia cầm Confirmed
con chiên 1 ?
giấy, vải... 1 vật liệu giấy, vải, ... Confirmed
gió 1 Gió Confirmed
gió thổi 1 Gió Confirmed (same as above)
giọng nói 1 Giọng nói Confirmed (same as above)
giọng nói, cách nói 1 Cử chỉ thể hiện Confirmed
giọng nói, mắt nhìn 1 Cử chỉ thể hiện Confirmed (same as above)
giọng nói, nét chữ 1 Cử chỉ thể hiện Confirmed (same as above)
cơm, canh 1 Ẩm thực Confirmed (same as above)
goòng, xe 1 Xe cộ Confirmed (same as above)
gương 1 Gương Confirmed
hai bên trai gái 1 ?
hai từ hoặc hai vế câu 1 ?
hai vật cùng loại 1 ?
hành động diễn ra 1 ?
hạt 1 ?
còi 1 ?
hay p. 1 ?
chất hữu cơ thực vật 1 ?
cát và cánh là tên cây 1 ?
hiện tượng các chất 1 Hóa học Confirmed (same as above)
hiện tượng vật lí 1 Vật lý học Confirmed (same as above)
hình phạt thời phong kiến 1 ?
hình thức học tập 1 ?
có tướng số 1 ?
cơ thể động vật 1 Động vật học Confirmed (same as above)
hoá 1 Hóa học Confirmed (same as above)
bánh xe 1 ?
cách ăn mặc 1 Thời trang Confirmed
hoặc đgt. 1 hoặc động từ
cấp trên 1 ?
hoạt động, nói năng 1 ?
học sinh, bệnh nhân 1 ?
hội 1 ?
hơi bị nén 1 ?
baht 1 ?
id.; dùng sau một số đg. 1 Ít dùng; dùng sau m ột số động từ
cable 1 ?
id.; thường đi đôi với đường 1 Ít dùng; thường đi đôi với "đường"
id.; thường dùng đi đôi với thân 1 Ít dùng; thường đi đôi với "thân"
bành là ghế ngồi trên lưng voi 1 ?
kết hợp hạn chế, chỉ dùng với trắng 1 ?
kết hợp hạn chế, dùng với bánh mì 1 ?
kết hợp với từ chỉ hướng như ra, vào, lên, xuống để tính 1 ?
khhc 1 ?
cn. xếp hàng 1 ?
khoảng không gian 1 ?
khu 1 ?
kinh 1 ?
âm thanh, hình 1 ?
kng., hoặc thgt.; dùng phụ sau t., hoặc đg., trong một số tổ hợp 1 khẩu ngữ, hoặc thô tục; dùng phụ sau tính từ, hoặc động từ, trong một số tổ hợp
kng.; dùng có kèm ý phủ định 1 khẩu ngữ; dùng có kèm ý phủ định
kng.; dùng có kèm ý phủ định, thường trước nào 1 khẩu ngữ; dùng có kèm ý phủ định, thường trước "nào"
kng.; dùng đi đôi với cũng 1 khẩu ngữ; dùng đi đôi với "cũng"
kng.; dùng hạn chế trong một số tổ hợp 1 khẩu ngữ; dùng hạn chế trong một số tổ hợp
kng.; dùng ở cuối câu 1 khẩu ngữ; dùng ở cuối câu
kng.; dùng ở cuối câu hoặc cuối phân câu 1 khẩu ngữ; dùng ở cuối câu hoặc cuối phân câu
kng.; dùng phụ sau đg. 1 khẩu ngữ; dùng sau động từ
kng.; dùng phụ trước đg. 1 khẩu ngữ; dùng trước động từ
kng.; dùng sau d., đg. 1 khẩu ngữ; dùng sau danh từ, động từ
kng.; dùng sau đg. 1 khẩu ngữ; dùng sau động từ
kng.; dùng sau đg.; kết hợp hạn chế 1 khẩu ngữ; dùng sau động từ; kết hợp hạn chế
kng.; dùng trong một số tổ hợp 1 khẩu ngữ; dùng trong một số tổ hợp
kng.; dùng trong một số tổ hợp, trước d. chỉ bộ phận cơ thể 1 khẩu ngữ; dùng trong một số tổ hợp, trước danh từ chỉ bộ phận cơ thể
kng.; dùng trước một số d. chỉ công cụ 1 khẩu ngữ; dùng trước một số danh từ chỉ công cụ
kng.; dùng trước tên người 1 khẩu ngữ; dùng trước tên người
kng.; dùng với chủ ngữ ở ngôi thứ nhất hoặc không có chủ ngữ 1 khẩu ngữ; dùng với chủ ngữ ở ngôi thứ nhất hoặc không có chủ ngữ
bổn là biến thể của bản tức là gốc, là vốn 1 ?
chất bài tiết 1 ?
kng.; thường dùng phụ trước d. 1 khẩu ngữ; dùng trước danh từ
la 1 ?
làm gì 1 ?
boxe 1 ?
bock 1 ?
linh hồn 1 ?
loài chim 1 Chim chóc Confirmed (same as above)
loài vật 1 loài vật Confirmed
loài vật cùng loại 1 ?
lối diễn đạt 1 ?
lời nói 1 ?
lời nói, cử chỉ, thái độ 1 ?
lời văn 1 ?
lối viết chữ 1 ?
lời, giọng, âm thanh 1 ?
cn. xăn 1 ?
lợn cái 1 ?
cn. võ 1 ?
lửa 1 ?
lực lượng quần chúng 1 ?
lưng 1 ?
lưỡi cắt 1 ?
ánh sáng 1 ?
ma quỷ, thần linh 1 ?
mảnh nhọn, sắc... 1 ?
bộ phận trong cơ thể 1 ?
cn. trả 1 ?
mắt nhìn 1 ?
mặt trăng, mặt trời 1 ?
mạt: xoá bỏ; sát: rất 1 ?
màu 1 ?
màu sắc 1 ?
cn. thông gia 1 ?
mi mắt 1 ?
mỗi bên đều được một bàn thắng 1 ?
món ăn 1 ?
mưa 1 ?
mực nước 1 ?
cn. ten-nít 1 ?
mùi thơm 1 ?
nét mặt 1 ?
ngày 1 ?
nghĩa tế 1 ?
ngtuân 1 ?
cn. táo 1 ?
cao 1 ?
cn. sượt 1 ?
cạnh, mặt 1 ?
người con trai 1 ?
người đàn bà goá 1 ?
người hoặc cấp có thẩm quyền 1 ?
người và động vật 1 ?
nhà 1 ?
nhà cửa 1 ?
cn. non sông 1 ?
nhân vật trong truyện thần thoại 1 ?
như 1968, 1972, 1976... 1 ?
cn. nhịp 1 ?
cn. nhà băng 1 ?
nói hoặc khóc 1 ?
cây trồng 1 ?
nói năng, cư xử 1 ?
nói năng, diễn đạt 1 ?
nói về nhà ở 1 ?
nói, viết 1 ?
nộp 1 ?
nước 1 ?
nước da 1 ?
nước hoặc dân tộc 1 ?
nước mũi 1 ?
nước này 1 ?
nước, chất lỏng 1 ?
ở cách xa 1 ?
ở một số địa phương, dân chài thờ cá voi nên gọi là ông 1 ?
ánh trăng 1 ?
cn. nệm 1 ?
cn. nề nếp 1 ?
ph.; kết hợp hạn chế 1 Phương ngữ; kết hợp hạn chế
cây cối, động vật 1 ?
pháo, đạn 1 ?
cn. mả, mộ 1 ?
phụ nữ 1 ?
phương pháp giảng dạy 1 ?
phương tiện vận tải đường thuỷ 1 ?
pomme 1 ?
pont 1 ?
poste 1 ?
pot 1 ?
poupée 1 ?
cn. lát 1 ?
quá trình 1 ?
quần áo, cách ăn mặc 1 ?
quân nhân đã xuất ngũ 1 ?
quăn, xoắn 1 ?
quặng 1 ?
quang cảnh, không khí 1 ?
quỷ thần 1 ?
sắc, rét 1 ?
sắp xếp 1 ?
sâu mọt 1 ?
cn. kiền 1 ?
sinh vật 1 Sinh vật Confirmed
số đông 1 ?
số phận 1 ?
sống 1 ?
sự kiện 1 ?
sự việc 1 ?
suy lí, suy luận 1 ?
suy nghĩ, tính toán 1 ?
tâm 1 ?
tam giác 1 ?
tàu 1 ?
thai 1 ?
thái độ, cử chỉ 1 ?
thái độ, ý kiến 1 ?
thanh thiếu niên, trẻ em 1 ?
biến âm của chữ hán hảo 1 ?
thgt.; dùng trước d., trong một số tổ hợp 1 thô tục; dùng trước danh từ, trong một số tổ hợp
cn. kích động; h. khích: khêu động; động: không yên 1 ?
bày ra, giăng ra 1 ?
cn. hoàng anh, hoàng oanh 1 ?
thời gian 1 ?
thời tiết 1 ?
thtục 1 thô tục Confirmed
thứ quả 1 ?
thục 1 ?
bàu, rạch 1 ?
cn. goá 1 ?
thức ăn uống đã nấu chín 1 ?
thức ăn, thức uống 1 ?
thực phẩm 1 ?
cn. giật 1 ?
thường có sắc thái ph. 1 thường có sắc thái phương ngữ
thường đi đôi với ngang 1 ?
thường đi với lại 1 ?
thường đi với ra 1 ?
thường dùng có kèm ý phủ định 1 ?
thường dùng đi đôi với cũng hoặc dùng trong câu phủ định 1 ?
cây cỏ, hoa lá 1 ?
thường dùng phụ sau d. 1 dùng sau danh từ
thường dùng phụ sau d. số lượng 1 dùng sau danh từ số lượng
bom và đạn là những vũ khí giết người 1 ?
cn. đậu tương 1 ?
cn. đậu dải áo 1 ?
thường dùng sau đg. 1 ?
thường dùng sau một đg. khác 1 ?
thường dùng sau những tổ hợp chỉ đơn vị giờ 1 ?
thường dùng trong câu cảm xúc hoặc câu có ý phủ định 1 ?
thường dùng trước d. 1 ?
thường dùng trước đg. 1 ?
thường dùng trước đg., t. 1 ?
thường dùng trước là, như 1 ?
thường dùng trước lên 1 ?
thường dùng trước một cấu trúc chủ ngữ - vị ngữ 1 ?
thường dùng trước ra 1 ?
thường dùng xen với động từ lặp trong một số tổ hợp 1 ?
thường nói bơm to, bơm phồng 1 ?
thường nói cỏ tranh 1 ?
thường nói đá tảng 1 ?
thường nói đơn đặt hàng 1 ?
thường nói reo lên 1 ?
thường nói về trẻ em 1 ?
cái của chính mình 1 ?
thuỷ triều 1 ?
thuyền chở 1 ?
cn. dăng 1 ?
tia sáng 1 ?
tiền 1 ?
tiếng cổ 1 ?
cn. cổi 1 ?
tiếng nói 1 ?
tiếng tăm 1 ?
tim, mạch 1 ?
cách nói năng 1 ?
cn. bệnh 1 ?
cây có 1 ?
tổ chức 1 ?
tòa 1 ?
chuyển động quay nhanh 1 ?
tôm 1 ?
chỗ hoặc lúc 1 ?
trẻ nhỏ nói 1 ?
cá, tôm, thịt 1 ?
trong khoa lí số 1 ?
trvgiàu 1 Trần Văn Giàu author
tt 1 ?
từ 1 ?
từ bên ngoài 1 ?
từ một điểm 1 ?
từ sênh đọc chạnh đi 1 ?
tư tưởng chính trị 1 ?
vật 1 ?
chm.; kết hợp hạn chế 1 ?
vật có hình khối 1 ?
vật hình khối 1 ?
vật hình ống 1 ?
biến âm của đường 1 ?
vch., hoặc chm. 1 ?
viết, vẽ 1 ?
vọt, nâng 1 ?
vua chúa 1 ?
chm.; dùng sau d., trong một số tổ hợp 1 ?
xã hội 1 ?
xảy ra 1 ?
Trgt nay Trạng từ Adverb, or adjective?
Địa lý,địa chất 76 Địa lý học, địa chất học
Thể dục,thể thao Thể dục, thể thao
Nh. {{like-entry}}
Tech ≈4,000 Kỹ thuật Confirmed
Gazetteer
h. ? huyện All words from end of this abbrev. to comma/fullstop should be considered one word.
t. ? tỉnh

Foreign etymology[sửa]

The source sometimes contains indications of the original language (mainly French and English). Can somebody make a proposal of what could be a correct translation for:

  • "From the English word XXX'"
  • "From the French word XXX'"

Many thanks Laurent Bouvier 11:27, ngày 6 tháng 7 năm 2006 (UTC)

I'd translate it this way:

From the English word foo meaning "foobar", from the French word baz meaning "bazbar" + the English word bar meaning "barbar".
Từ tiếng Anh foo (foobar), từ tiếng Pháp baz (bazbar) + tiếng Anh bar (barbar).

 – Nguyễn Xuân Minh (thảo luận, đóng góp) 15:54, ngày 6 tháng 7 năm 2006 (UTC)

  • "From the English word XXX" = "Bắt nguồn từ tiếng Anh XXX"
  • "From the French word XXX" = "Bắt nguồn từ tiếng Pháp XXX"
Trần Thế Trung 08:08, ngày 7 tháng 7 năm 2006 (UTC)

First import[sửa]

I am currently imported only items for which I haven't got any terminology. My initial list is based on the most wanted items and then I will perform of the whole dictionnary. Laurent Bouvier 11:27, ngày 6 tháng 7 năm 2006 (UTC)

Cg.[sửa]

In some of the item, beginning at the explanation of term, there is "Cg. xxx." This means the term is synonym with xxx. So we should convert it to "Đồng nghĩa với xxx".Trần Thế Trung 09:33, ngày 7 tháng 7 năm 2006 (UTC)

We have {{-syn-}} for this purpose. – Nguyễn Xuân Minh (thảo luận, đóng góp) 03:52, ngày 8 tháng 7 năm 2006 (UTC)
Any example? Laurent Bouvier 17:25, ngày 11 tháng 7 năm 2006 (UTC)
"nghề" is an example of cg, and "" is an example of {{-syn-}}. – Nguyễn Xuân Minh (thảo luận, đóng góp) 02:12, ngày 12 tháng 7 năm 2006 (UTC)
See example [5] Trần Thế Trung 09:47, ngày 13 tháng 7 năm 2006 (UTC)

-info- & -trans-[sửa]

I wonder if the bot could search vi.wikipedia for the article of the same name; if there is an vi.wikipedia article of the same name, then the bot could do 2 things:

  1. add {{-info-}} at the beginning
  2. add {{-trans-}} at the end with the information about the given word in other language is found from interwiki links of the vi.wikipedia article.

See the example edit I have done in đà điểu: I do exactly the same thing, especially the {{-trans-}} section is copied from w:đà điểu interwiki. Trần Thế Trung 09:02, ngày 13 tháng 7 năm 2006 (UTC)

We can even take care of "disambiguation naming style" as in đa giác (see Italian translation). Trần Thế Trung 09:14, ngày 13 tháng 7 năm 2006 (UTC)
Don't forget to turn the first letters into non-capitalized letters. Wiktionary makes a difference there, Wikipedia doesn't! David Da Vit 11:37, ngày 13 tháng 7 năm 2006 (UTC)

For words in English, French, and Dutch, we can turn to the other Wiktionaries for translations; that could be done automatically, no? – Nguyễn Xuân Minh (thảo luận, đóng góp) 05:19, ngày 14 tháng 7 năm 2006 (UTC)

I was actually thinking of importing some translations once the vietnamese articles are created. (I still miss a third of them...) and I did not thought that it has particularly useful to add {{-trans-}} in the meanwhile. I will however add it in the next load. For {{-info-}}, this should not be a problem. Laurent Bouvier 20:14, ngày 17 tháng 7 năm 2006 (UTC)

Proper noun >< Proverb[sửa]

Small problem: the bot can not distinguish between proper noun and proverb. In general, proper noun contains all Capitalized part (e.g. Cao Lỗ) while a proverb contains some parts not capitalized (e.g. Cao Biền dậy non) except when the part are joined by "-" (like Đơ-ro). For the proverb, we can remove {{-trans-}}, replace {{-pr-noun-}} by {{-proverb-}}, change the [[Category:Danh từ riêng tiếng Việt]] to [[Category:Thành ngữ tiếng Việt]]. And it seems that when the proverb has 2 meanings: actually the first is meaning, the second is etymology (we can add {{-etym-}} and "Theo điển tích " infront of the second). See example [6].Trần Thế Trung 12:55, ngày 28 tháng 7 năm 2006 (UTC)

Corrections (Open)[sửa]

For these Vietnamese entries, a few notes:

  • h. stands for huyện and t. stands for tỉnh. If you can, please expand these.
  • For a bit more context, , [[Việt Nam]] should be placed right before the full-stop.
  • All the words between h. and the comma, or between t. and the period, should be linked as one word.

Some time in the next couple months, I'd like to create a bot to insert coordinates for each of these placenames from the database I mentioned above.

 – Nguyễn Xuân Minh (thảo luận, đóng góp) 03:59, 8 tháng 8 2006 (UTC)

Come to think of it, definitions in this form:

  1. () H. foo, t. bar.

Should be changed to this form:

  1. Một thuộc huyện foo, tỉnh bar, Việt Nam.

 – Nguyễn Xuân Minh (thảo luận, đóng góp) 04:02, 8 tháng 8 2006 (UTC)

Some more corrections:

Original form Correct form Corrected
  1. Một Tx. FOO, tỉnh BAR, Việt Nam.
  1. Một thuộc thị xã FOO, tỉnh BAR, Việt Nam.
22:31, 9 tháng 8 2006 (UTC)
  1. (Quận) Tp. FOO.
  1. Một quận thuộc thành phố FOO, Việt Nam.
22:31, 9 tháng 8 2006 (UTC)
  1. (Thị trấn) H. FOO, t. BAR.
  1. Một thị trấn thuộc huyện FOO, tỉnh BAR, Việt Nam.
22:31, 9 tháng 8 2006 (UTC)
  1. (Quận) thuộc thành phố FOO, Việt Nam.
  1. Một quận thuộc thành phố FOO, Việt Nam.
Laurent Bouvier 06:10, 10 tháng 8 2006 (UTC)
  1. (Thị trấn) thuộc huyện FOO, tỉnh BAR, Việt Nam.
  1. Một thị trấn thuộc huyện FOO, tỉnh BAR, Việt Nam.
Not found
  1. (Ttnn) H. FOO, t. BAR.
  2. (Ttnn) thuộc huyện FOO, tỉnh BAR, Việt Nam.
  1. Một thị trấn nông nghiệp thuộc huyện FOO, tỉnh BAR, Việt Nam.
Laurent Bouvier 06:10, 10 tháng 8 2006 (UTC)
  1. (Thị xã) T. FOO.
  1. Một thị xã thuộc tỉnh FOO, Việt Nam.
Laurent Bouvier 20:22, 10 tháng 8 2006 (UTC)
  1. (Phường) Tx. FOO, t. BAR.
  2. (Phường) Tx. FOO, tỉnh BAR, Việt Nam.
  1. Một phường thuộc thị xã FOO, tỉnh BAR, Việt Nam.
Laurent Bouvier 20:22, 10 tháng 8 2006 (UTC)
  1. (Tỉnh) .
  1. Một tỉnh Việt Nam.
Laurent Bouvier 20:12, 10 tháng 8 2006 (UTC)
  1. () Tp. FOO, t. BAR.
  2. () thành phố FOO, tỉnh BAR, Việt Nam.
  1. Một thuộc thành phố FOO, tỉnh BAR, Việt Nam.
Laurent Bouvier 20:12, 10 tháng 8 2006 (UTC)
  1. (Phường) Q. FOO, tp. BAR, Việt Nam, Việt Nam.
  1. Một phường thuộc quận FOO, thành phố BAR, Việt Nam.
Laurent Bouvier 20:12, 10 tháng 8 2006 (UTC)
  1. Một phường Tp. FOO, FOO, Việt Nam, Việt Nam.
  1. Một phường thuộc thành phố FOO, Việt Nam.
Laurent Bouvier 20:12, 10 tháng 8 2006 (UTC)
  1. Một phường Tp. FOO, tỉnh BAR, Việt Nam.
  2. (Phường) Tp. FOO, t. BAR.
  1. Một phường thuộc thành phố FOO, tỉnh BAR, Việt Nam.
Laurent Bouvier 20:12, 10 tháng 8 2006 (UTC)
  1. Một thị trấn thuộc huyện FOO, tp. BAR, Việt Nam.
  1. Một thị trấn thuộc huyện FOO, thành phố BAR, Việt Nam.
  1. () Tx. FOO, t. BAR.
  1. Một thuộc thị xã FOO, tỉnh BAR, Việt Nam.
Laurent Bouvier 20:12, 10 tháng 8 2006 (UTC)
  1. (Huyện) T. FOO, Việt Nam.
  2. Một huyện T. FOO, Việt Nam.
  1. Một huyện thuộc tỉnh FOO, Việt Nam.
Laurent Bouvier 20:12, 10 tháng 8 2006 (UTC)
  1. (FOO) Tên gọi các BAR thuộc h. FOO1 (BAR1), h. FOO2 (BAR2), h. FOO3 (BAR3).
  2. Một BAR Tên gọi các BAR thuộc h. FOO1 (BAR1), h. FOO2 (BAR2), h. FOO3 (BAR3), Việt Nam.
  1. Tên gọi các BAR thuộc huyện FOO1 (BAR1), huyện FOO2 (BAR2), huyện FOO3 (BAR3).
  1. (FOO) Tên gọi các BAR thuộc XX1. FOO1 (BAR1), XX2. FOO2 (BAR2), XX3. FOO3 (BAR3), Việt Nam.
  2. (FOO) Tên gọi các BAR thuộc XX1. FOO1 (BAR1), XX2. FOO2 (BAR2), XX3. FOO3 (BAR3), Việt Nam.
  1. (FOO) Tên gọi các BAR thuộc XX1. FOO1 (BAR1), XX2. FOO2 (BAR2), XX3. FOO3 (BAR3), Việt Nam.
  1. Tên gọi các BAR thuộc XX1 FOO1 (BAR1), XX2 FOO2 (BAR2), XX3 FOO3 (BAR3), Việt Nam.

(Where XXX is converted: h.→huyện; x.→xã; tx.→thị xã; tp.→thành phố; q.→quận; t.→tỉnh)

  1. Một FOO, tỉnh BAR, Việt Nam.
  1. Một thuộc FOO, tỉnh BAR, Việt Nam.
  1. () H. FOO, t. BAR.
  1. Một thuộc huyện FOO, tỉnh BAR, Việt Nam.
Laurent Bouvier 20:12, 10 tháng 8 2006 (UTC)

Also, tỉnh names like Gia Lai still need to be treated as one word, and we should probably link "Thành phố Hồ Chí Minh" as one phrase, since Hồ Chí Minh by itself probably isn't an acceptable way to refer to the city. Thanks for taking the time to make all these corrections.

 – Nguyễn Xuân Minh (thảo luận, đóng góp) 21:01, 8 tháng 8 2006 (UTC)

We've also got issues where a colon has been interpreted as the beginning of a list of examples/quotations. As far as I know, none of the Vietnamese geographical entries contain such lists, so the colon shouldn't be treated specially. The current interpretation leads to interesting results such as Ninh Bình and Sài Gòn. I'm not sure how we'd go about fixing this by hand, so your bot would probably have to go back over all these entries (maybe except the ones that Trung and I have edited since). – Nguyễn Xuân Minh (thảo luận, đóng góp) 02:42, 10 tháng 8 2006 (UTC)

tt.[sửa]

I am looking for the meaning of this abbreviation? Any idea Laurent Bouvier 13:28, 19 tháng 8 2006 (UTC)

"tính từ" ("adjective") ?193.52.24.125 13:57, 19 tháng 8 2006 (UTC)
Oh Yes!!! I should have been able to guess. Thanks Laurent Bouvier 14:00, 19 tháng 8 2006 (UTC)

Problem of grammatical category[sửa]

I think that I am close to have finished. There are approximately 10.000 articles in the FVDP dictionary without any category. Any idea how we can integrate them?

Can you give an example? Trần Thế Trung 10:21, 17 tháng 9 2006 (UTC)
Are you talking about entries without any part-of-speech category? Because, according to Đặc biệt:Uncategorizedpages, we only have 17 entries without any category at all. You can use this CatScan query to find Vietnamese entries that weren't created by PiedBot. Most of these entries were simply created by hand with the proper structure and categories, but some were created by David or me before Laurent started contributing here. These entries will have to get a second look. – Nguyễn Xuân Minh (thảo luận, đóng góp) 04:11, 18 tháng 9 2006 (UTC)
Or are you talking about entries in the FVDP database that don't mark any part of speech? One such word is diện kiến. You could import those, mark them with {{-dfn-}} where you would otherwise use a part-of-speech template, and place them in a special category, Thể loại:Mục từ tiếng Việt chưa xếp theo loại từ – would that name be correct, Trung? – Nguyễn Xuân Minh (thảo luận, đóng góp) 04:13, 18 tháng 9 2006 (UTC)

OK, I see. Thể loại:Mục từ tiếng Việt chưa xếp theo loại từ is fine. 10,000 is a big number for a small community to work on with later. However, there is little thing we could do for now.

  1. If the bot find the word is in synonym list of other categorized word, it can deduce the category.
  2. If the definition start with "sự"/"Sự" then the word is noun.
  3. If the definition start with a verb (in the case of diện kiến, it start with đem) then the word is a verb.
  4. Otherwise, we have to leave it at Thể loại:Mục từ tiếng Việt chưa xếp theo loại từ.

The automatic category may need to be revised by human, so we may want to add a notice box {{bot}}. Trần Thế Trung 07:14, 18 tháng 9 2006 (UTC)

Does the Vietnamese→Vietnamese dictionary even provide synonym lists? Also, number 3 is complicated, because many words will be both nouns and verbs. The other ideas would help a lot, though. Unfortunately, the Vietnamese entries don't make use of {{term}}, so it won't be possible to identify the adjectives by finding definitions that begin with "(thuộc)". – Nguyễn Xuân Minh (thảo luận, đóng góp) 08:28, 18 tháng 9 2006 (UTC)
For the cases where the entry have more than one definitions, all definitions that don't satisfy 1,2,3 will be placed under {{-dfn-}}. Trần Thế Trung 14:25, 18 tháng 9 2006 (UTC)
I will import already all the words starting whose definition is starting with sự and đem and I will prepare some kind of list. I am not in favor of importing and then correcting which is causing more problems. Laurent Bouvier 11:42, 19 tháng 9 2006 (UTC)
Đem isn't an identifier for verbs; it just happens to be at the beginning of one of the words we mentioned, so it won't turn up many results. I agree with your stance on importing then correcting, but I suppose entries without parts of speech is less embarassing than entries with unrelated images. A list sounds good though. – Nguyễn Xuân Minh (thảo luận, đóng góp) 18:05, 19 tháng 9 2006 (UTC)

Some more ways to identify nouns:

  • (cái), (cây), (chiếc), (quả), (trái), (cuốn), and (quyển) at the beginning mark nouns.
  • bài, bản, and lời mark nouns, though you might not find many of these.
  • cây, chiếc, quả, quyển, việc, and cuộc mark nouns.

 – Nguyễn Xuân Minh (thảo luận, đóng góp) 22:20, 19 tháng 9 2006 (UTC)

And if the word is all capitalized then it is a proper noun. Trần Thế Trung 07:34, 20 tháng 9 2006 (UTC)
I have tried all that without any big success. I have also tried to get the grammatical category from the Viet-English Dictionary and I have been able to add 20%. Still remains 11000 words ... Laurent Bouvier 11:47, 22 tháng 9 2006 (UTC)
And Viet-French, Viet-Russian, Viet-German? Trần Thế Trung 13:54, 22 tháng 9 2006 (UTC)
Unfortunately, ... There is no grammatical info in the Viet-French, and the Viet-German. Viet-Russian is not provided... Laurent Bouvier 09:23, 23 tháng 9 2006 (UTC)

-interj-[sửa]

I think the entries having "Th." standing infront of the definition can be categorized by {{-interj-}} ("Th." stand for "Thán từ"); the template {{-interj-}} put the page in Thể loại:Thán từ and we can add Thể loại:Thán từ tiếng Việt in the page source. Example: riệt, khà. Trần Thế Trung 16:04, 13 tháng 10 2006 (UTC)

There are more, like lt {{-conj-}} and ph {{-adv-}}. – Nguyễn Xuân Minh (thảo luận, đóng góp) 21:25, 13 tháng 10 2006 (UTC)