libvspell/notes

   1 -*- coding: vietnamese-utf8 mode: outline -*-
   2 * Current approach:
   3 ** Word segmentation
   4 *** PFS cho spelling checking
   5 *** DCWFUST cho training
   6 ** Training
   7 DCWFUST
   8 chưa biết có thể dùng seed/training set hay ko
   9 ** Spelling checking
  10 Dựa trên Word segmentation
  11 ** Preprocessing
  12 Tạm thời tách thành phrase để xử lý
  13
  14 * Word segmentation
  15 ** WFST
  16 0th-order HMM. Sử dụng finite state.
  17 chạy chậm, đặc biệt với câu dài. Thuật toán (hy vọng) có thể áp dụng viterbi để cải thiện.
  18 Cho ra *tất cả* các segmentation.
  19 Lấy segmentation tối ưu nhất để EM.
  20
  21 ** Priority-first Search
  22 Dựa trên ý tưởng đưa "word lattice" thành 1 đồ thị có hướng. Sau đó áp dụng PFS để tìm đường đi ngắn nhất.
  23 Chỉ có thể áp dụng với 2-gram hoặc 3-gram (modified graph)
  24 Tốc độ nhanh, ko sợ câu dài.
  25 Chỉ cho ra *một* kết quả duy nhất, tối ưu nhất.
  26 *** Thích hợp cho spelling checker?
  27 Sau khi chọn được segmentation đúng nhất, còn phải tìm candidate words.
  28
  29 ** DCWFUST
  30 Sử dụng dynammic programming để tính xác suất tất cả các word trong tất cả các segmentation.
  31 Không cho ra một segmentation cụ thể nào cả -> chỉ xài cho training.
  32 "soft-counting" hay "fraction count"
  33 Dùng mọi segmentation để EM.
  34 *** Thích hợp cho training?
  35 Cần cái LM nào có thể chơi fraction count được. Hay là chôm trong giza?
  36 Làm sao để chơi với 2/3-gram thay vì unigram?
  37
  38 ** A*
  39 Giống giống WFST, cần thêm pruning để tránh tăng quá nhiều các hypothesis
  40
  41 * Training
  42 Chủ yếu dựa trên EM. Theo Integrating Ngram model cand case-based learing for chinese thi chỉ cần iterate khoảng 6 lần.
  43
  44 ** EM trên segmentation tối ưu nhất
  45 Có vẻ không khá lắm.
  46
  47 ** EM trên *mọi* segmentation, dựa theo prob của mỗi segmentation
  48 Hy vọng tốt hơn cái đầu. Tuy cần phải chuẩn hóa để tránh xác suất cao trên câu ngắn.
  49
  50 ** Phân corpus thành seed set và training set
  51 Hai bài: A Unified Approach to SLM for Chinese và Self-supervised
  52
  53 *** Theo cách Self-supervised thì:
  54 V1=empty
  55 train -> stable
  56 chọn N word lớn nhất quăng qua V1, điều chỉnh sao cho xác suất ngang nhau (nghĩa là xác suất của các từ trong V1 được nâng lên -> ảnh hưởng của những từ này lớn hơn)
  57 tiếp tục train tới khi eval giảm -> quăng 5 word từ V1 sang V2 (N=N-5)
  58 cứ lặp đi lặp lại tới khi N <= 0
  59
  60 *** Cách của AUATSLMFC hơi bị phức tạp
  61 đọc hoài ko hiểu
  62
  63 ** Case-based learning
  64
  65 Lấy những trường hợp xử lý đúng từ kết quả, rồi đem áp dụng.
  66 Sử dụng kết quả của EM, cho vào TBL.
  67 Cách này giống như lấy EM làm bootstrap, sau đó chỉnh result, đem làm gold corpus :P
  68
  69 * Spelling checking
  70 ** Tạo một loại các từ gần giống dựa trên quy tắc chính tả, dùng word segmentation để chọn cái tốt nhất.
  71 Nên cho phép tạo confusion set thủ công, ngoài chuyện áp dụng quy tắc tự động.
  72 Đưa quy tắc ra file, thay vì code thẳng.
  73
  74 ** Không tách từ, chơi thẳng luôn??
  75 Cách bình thường là dựa trên wordlist để biết đâu là từ sai. Nếu không tách từ thì ko có word :P chẳng lẽ ko thèm xài wordlist luôn ?? Dựa vào n-gram 100% ??
  76
  77 * Preprocessing