1 -*- coding: vietnamese-utf8 -*-
2 *done* Tạo corpus, mỗi dòng một câu tiếng Việt để phân tích và tạo xác suất.
3 *done* Xây dựng hàm WordNode::save()
4 Xây dựng hàm WordNode::recalculate()
5 Pruning dựa trên tổng xác suất bé hơn một ngưỡng nào đó.
6 Thống kê các thông tin liên quan đến DISTANCE_THRESOLD, ED_THRESOLD.
7 *done* Cài fuzzy match kiểu mới.
8 *done* Chỉnh lại dictionary. Lưu index thay vì string. Tạo index cho string và map từ string sang index
10 Tách thành từng đoạn để wordseg
11 Xử lý proper name, abbreviation