softcount: tolerate zero ngrams
[vspell.git] / libvspell / notes
blob84922b12c27659a7b316152b1ab42b220995da50
1 -*- coding: vietnamese-utf8 mode: outline -*-
2 * Current approach:
3 ** Word segmentation
4 *** PFS cho spelling checking
5 *** DCWFUST cho training
6 ** Training
7 DCWFUST
8 chưa biết có thể dùng seed/training set hay ko
9 ** Spelling checking
10 Dựa trên Word segmentation
11 ** Preprocessing
12 Tạm thời tách thành phrase để xử lý
14 * Word segmentation
15 ** WFST
16 0th-order HMM. Sử dụng finite state.
17 chạy chậm, đặc biệt với câu dài. Thuật toán (hy vọng) có thể áp dụng viterbi để cải thiện.
18 Cho ra *tất cả* các segmentation.
19 Lấy segmentation tối ưu nhất để EM.
21 ** Priority-first Search
22 Dựa trên ý tưởng đưa "word lattice" thành 1 đồ thị có hướng. Sau đó áp dụng PFS để tìm đường đi ngắn nhất.
23 Chỉ có thể áp dụng với 2-gram hoặc 3-gram (modified graph)
24 Tốc độ nhanh, ko sợ câu dài.
25 Chỉ cho ra *một* kết quả duy nhất, tối ưu nhất.
26 *** Thích hợp cho spelling checker?
27 Sau khi chọn được segmentation đúng nhất, còn phải tìm candidate words. 
29 ** DCWFUST
30 Sử dụng dynammic programming để tính xác suất tất cả các word trong tất cả các segmentation.
31 Không cho ra một segmentation cụ thể nào cả -> chỉ xài cho training.
32 "soft-counting" hay "fraction count"
33 Dùng mọi segmentation để EM.
34 *** Thích hợp cho training?
35 Cần cái LM nào có thể chơi fraction count được. Hay là chôm trong giza?
36 Làm sao để chơi với 2/3-gram thay vì unigram?
38 ** A*
39 Giống giống WFST, cần thêm pruning để tránh tăng quá nhiều các hypothesis
41 * Training
42 Chủ yếu dựa trên EM. Theo Integrating Ngram model cand case-based learing for chinese thi chỉ cần iterate khoảng 6 lần.
44 ** EM trên segmentation tối ưu nhất
45 Có vẻ không khá lắm.
47 ** EM trên *mọi* segmentation, dựa theo prob của mỗi segmentation
48 Hy vọng tốt hơn cái đầu. Tuy cần phải chuẩn hóa để tránh xác suất cao trên câu ngắn.
50 ** Phân corpus thành seed set và training set
51 Hai bài: A Unified Approach to SLM for Chinese và Self-supervised
53 *** Theo cách Self-supervised thì:
54 V1=empty
55 train -> stable
56 chọn N word lớn nhất quăng qua V1, điều chỉnh sao cho xác suất ngang nhau (nghĩa là xác suất của các từ trong V1 được nâng lên -> ảnh hưởng của những từ này lớn hơn)
57 tiếp tục train tới khi eval giảm -> quăng 5 word từ V1 sang V2 (N=N-5)
58 cứ lặp đi lặp lại tới khi N <= 0
60 *** Cách của AUATSLMFC hơi bị phức tạp
61 đọc hoài ko hiểu
63 ** Case-based learning
65 Lấy những trường hợp xử lý đúng từ kết quả, rồi đem áp dụng. 
66 Sử dụng kết quả của EM, cho vào TBL.
67 Cách này giống như lấy EM làm bootstrap, sau đó chỉnh result, đem làm gold corpus :P
69 * Spelling checking
70 ** Tạo một loại các từ gần giống dựa trên quy tắc chính tả, dùng word segmentation để chọn cái tốt nhất.
71 Nên cho phép tạo confusion set thủ công, ngoài chuyện áp dụng quy tắc tự động.
72 Đưa quy tắc ra file, thay vì code thẳng.
74 ** Không tách từ, chơi thẳng luôn??
75 Cách bình thường là dựa trên wordlist để biết đâu là từ sai. Nếu không tách từ thì ko có word :P chẳng lẽ ko thèm xài wordlist luôn ?? Dựa vào n-gram 100% ??
77 * Preprocessing