hieuconstant

New Member
Link tải luận văn miễn phí cho ae Kết Nối
Xây dựng plug-In kiểm tra lỗi chính tả tiếng Việt trong mirosoft word
MỤC LỤC

LỜI NÓI ĐẦU 3
Chương I. TỔNG QUAN VỀ NGÔN NGỮ TIẾNG VIỆT VÀ CHÍNH TẢ 5
1.1 Ngôn ngữ tiếng Việt 5
1.2. Các đặc trưng ngôn ngữ của tiếng Việt 6
1.3. Đặc điểm của từ tiếng Việt 6
1.3.1.Định nghĩa từ 6
2.3.2.cách cấu tạo từ 6
1.4. Chính tả tiếng Việt 7
1.4.1. Tổng quan về chữ viết tiếng Việt 7
1.4.3. Lỗi chính tả 8
1.4.4. Phân loại lỗi chính tả tiếng Việt 8
Chương II. BÀI TOÁN KIỂM TRA LỖI CHÍNH TẢ TIẾNG VIỆT TRONG MICROSOFT WORD VÀ KỸ THUẬT XÂY DỰNG PLUGIN 10
2.1. Mô tả bài toán 10
2.2. Đặc điểm 11
2.3. Hướng giải quyết 11
2.4. Một số phương pháp Wordmatching 12
2.5. Kỹ thuật xây dựng Plug-in 12
2.5.1. Viết plug-in bằng .Net 13
Chương III. CÀI ĐẶT CHƯƠNG TRÌNH KIỂM LỖI CHÍNH TẢ TIẾNG VIỆT VÀ KẾT QUẢ THỰC NGHIỆM 14
3.1. Mô hình kiểm lỗi chính tả tiếng Việt 14
3.2. Tách đoạn – Tách câu 15
3.3. Xử lý tên riêng 15
3.4. Thuật toán tách từ 17
3.4.1. Thuật toán đối sánh từ trái qua (Left MM) 17
3.5. Kết quả thực nghiệm 21
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 27
TÀI LIỆU THAM KHẢO 29


LỜI NÓI ĐẦU


Ngày nay với sự phát triển vượt bậc của ngành Công nghệ Thông tin, con người đã thu được hàng loạt những thành tựu to lớn trong việc giải quyết các bài toán thực tiễn. Chính sự phát triển nhanh chóng của Công nghệ Thông tin và Truyền thông đã đem lại cho thế giới của chúng ta bộ mặt mới. Nền kinh tế tri thức, hợp tác toàn cầu, những công việc quản lý, vận hành những hoạt động từ vi mô tới vĩ mô của doanh nghiệp, tin học hóa quy trình hành chính, điều khiển tác nghiệp, giải trí, liên lạc, trợ giúp... là những ứng dụng tiêu biểu của Công nghệ Thông tin và Truyền thông. Một trong các lĩnh vực khoa học ứng dụng thành tựu đó đang thu hút rất nhiều sự quan tâm của các nhà khoa học đó là Xử lý ngôn ngữ tự nhiên. Ứng dụng của xử lý ngôn ngữ tự nhiên trong rất nhiều lĩnh vực như: Dịch máy, điều khiển, nhận dạng, hệ hỗ trợ ra quyết định..., đem lại lợi ích tối đa cho con người.
Ngôn ngữ là một phần quan trọng của đời sống, là phương tiện chuyển tải thông tin trong đời sống. Trong thời đại bùng nổ thông tin hiện nay thì ngôn ngữ đóng vai trò hết sức quan trọng, đặc biệt là ngôn ngữ viết.
Khi viết, đôi khi ta mắc phải những lỗi sai chính tả. Chữ Quốc ngữ là thứ chữ ghi âm nên một số âm tiết rất dễ nhầm lẫn, khó phân biệt rõ ràng. Ngôn ngữ nói ở những vùng khác nhau lại có những điểm khác nhau. Những điểm khác nhau này rất dễ gây ra những lỗi chính tả khi viết nếu người viết không để ý khi sử dụng tiếng Việt.
Những thao tác chuyển thông tin ở dạng khác nhau thành văn bản cũng có thể gây ra lỗi chính tả. Ví dụ, nếu nhập dữ liệu không cẩn thận dẫn đến những lỗi sai chính tả. Khi ghi lại lời nói của người khác mà người đó sử dụng giọng địa phương cũng có thế dẫn đến những lỗi chính tả. Quét các văn bản giấy thành văn bản điện tử, sử dụng chương trình nhận dạng chữ, cũng có thể dẫn đến lỗi chính tả do chương trình nhận dạng nhầm lẫn…
Văn bản dễ bị sai chính tả do nhiều yếu tố khách quan. Để kiểm lỗi chính tả những văn bản này đòi hỏi nhiều công sức và thời gian, đặc biệt khi khối lượng văn bản bùng nổ như hiện nay. Do đó cần có một công cụ hỗ trợ kiểm tra lỗi chính tả, giúp nhanh chóng phát hiện lỗi chính tả và đề nghị cách khắc phục.
Trong thời đại tin học hóa, máy tính được tận dụng để giảm thiểu công sức của con người, đồng thời tăng tính hiệu quả. Tin học đã được áp dụng trong nhiều lĩnh vực khác nhau và chứng tỏ tính hiệu quả của nó. Những ứng dụng kiểm tra lỗi chính tả hiện có như VietRes, VietSpell… hiễn vẫn còn khá đơn giản hay chưa hiệu quả, chưa đáp ứng được nhu cầu thực tế.
Trong đồ án này em muốn trình bày những kết quả tìm hiểu về bài toán Kiểm tra lỗi chính tả tiếng Việt trong Microsoft word và bước đầu xây dựng chương trình ứng dụng thực hiện kiểm tra lỗi chính tả cho văn bản tiếng Việt .

Đồ án gồm các phần sau:
Chương 1. Trình bày một cách khái quát về tiếng Việt, đặc trưng ngôn ngữ, đặc điểm của từ tiếng Việt. Chính tả tiếng Việt và các vấn đề cơ bản của lĩnh vực này.
Chương 2. Trình bày về bài toán kiểm tra lỗi chính tả tiếng Việt. bao gồm mô tả bài toán, các khó khăn, đưa ra một số phương pháp Word Matching và kỹ thuật xây dựng Plugin.
Chương 3. Trình bày việc thiết kế và xây dựng chương trình kiểm tra lỗi chính tả tiếng Việt bằng phương pháp Maximum Matching. Trình bày kết quả thực nghiệm của chương trình và việc kiểm thử .
Sau đó là phần kết luận và các hướng phát triển sắp tới của đề tài này.
Cuối cùng là tài liệu tham khảo.

Chương I
TỔNG QUAN VỀ NGÔN NGỮ TIẾNG VIỆT VÀ CHÍNH TẢ
Trong chương này sẽ trình bày khái quát về ngôn ngữ tiếng Việt và những đặc điểm của ngôn ngữ này có ảnh hưởng đến bài toán kiểm lỗi chính tả:
 Các đặc trưng ngôn ngữ của tiếng Việt
 Đặc điểm của từ tiếng Việt
 Tổng quan về chữ viết tiếng Việt, chính tả tiếng Việt
 Lỗi chính tả, phân loại lỗi chính tả tiếng Việt
1.1 Ngôn ngữ tiếng Việt
Tiếng Việt là ngôn ngữ đơn âm và thuộc về đại gia đình ngôn ngữ của vùng Đông Nam Á. Nó có những đặc điểm ngữ âm, ngữ pháp, ngữ nghĩa khác với ngôn ngữ Ấn-Âu, với những đặc điểm này làm cho tiếng Việt trở thành một ngôn ngữ khó.
Dạng viết của ngôn ngữ Việt Nam được phát triển dựa vào các ký tự Hán hay các ký tự Latinh, các dạng viết này chỉ là mở rộng của dạng nói, mỗi âm thanh được thể hiện bằng một chuỗi các ký tự, và được cách nhau bởi một khoảng trắng. Điều này không là nguyên nhân gây khó khăn cho những người giao tiếp bằng ngôn ngữ nói và vấn đề ranh giới của từ cũng chưa xuất hiện.
Nhưng với sự phát triển của máy tính và ngôn ngữ học, không cho phép những người nghiên cứu bỏ qua vấn đề ranh giới của từ. Không giống với con người, máy vi tính không thể dễ dàng nhận ra ranh giới của từ trong văn bản điện tử. Và nó tạo nên sự thắt nút trong việc Xử lý ngôn ngữ tự nhiên của tiếng Việt, bởi vì không biết ranh giới của các từ thì máy tính không thể làm được bất kỳ việc gì hơn.
1.2. Các đặc trưng ngôn ngữ của tiếng Việt
 Đặc trưng về ngữ âm và âm vị
 Đặc trưng về từ pháp và hình thái
 Đặc trưng về ngữ pháp
1.3. Đặc điểm của từ tiếng Việt
1.3.1.Định nghĩa từ
Cho đến nay, trong ngôn ngữ học,
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
Các bài toán xử lý văn bản tiếng Việt luôn là các bài toán khó nhưng hay và hữu ích, đang được quan tâm và nghiên cứu nhiều ở nước ta hiện nay. Trong đồ án này, em đã trình bày về những vấn đề cơ bản, những khó khăn thách thức, bối cảnh của bài toán kiểm lỗi chính tả tiếng Việt và đồng thời cũng trình bày một số phương pháp kiểm lỗi chính tả tiếng Việt hiện nay. Đây là một bài toán quan trọng trong lĩnh vực Xử lý ngôn ngữ tự nhiên.
Các kết quả đạt được của đồ án :
 Hiểu được những vấn đề tổng quan của Xử lý ngôn ngữ tự nhiên. Tìm hiểu những đặc trưng ngôn ngữ cơ bản của tiếng Việt, đặc biệt là những đặc điểm của từ tiếng Việt, từ đó làm tiền đề cho những nghiên cứu định hướng về bài toán kiểm lỗi chính tả tiếng Việt.
 Tìm hiểu khá cụ thể về bài toán Kiểm lỗi chính tả tiếng Việt, nắm được các khó khăn của việc nhận dạng từ tiếng Việt, bối cảnh của bài toán kiểm lỗi chính tả tiếng Việt. Tìm hiểu được một số phương pháp kiểm lỗi chính tả tiếng Việt.
 Xây dựng thành công ứng dụng Kiểm lỗi chính tả cho văn bản tiếng Việt sử dụng phương pháp Maximum Matching.
 Nghiên cứu và cài đặt thành công kỹ thuật Plug in vào MicroSoft Word.
Hướng phát triển sắp tới của đề tài :
 Cài đặt các module còn thiếu như: chuẩn hóa văn bản đầu vào, nhận dạng danh từ riêng, để làm hoàn thiện hơn bài toán kiểm lỗi chính tả tiếng Việt.
 Nghiên cứu chi tiết hơn các phương pháp Kiểm lỗi chính tả tiếng Việt đã biết, đồng thời tìm hiểu thêm các phương pháp Kiểm lỗi chính tả tiếng Việt mới.
 Bổ sung thêm từ tiếng Việt vào từ điển, để dần hoàn thiện từ điển, giúp tăng độ chính xác cho thuật toán tách từ dùng từ điển.
 Cải tiến các thuật toán đối sánh, tìm kiếm để giảm thời gian xử lý.
 Cải tiến phương pháp tách từ Maximum Matching, bằng cách xử lý nhập nhằng, nhằm tăng tính chính xác cho bài toán Kiểm lỗi chính tả tiếng Việt.
 Tìm hiểu về vấn đề nhận dạng chữ viết tắt trong văn bản tiếng Việt
Trong suốt quá trình làm đồ án, em đã được sự giúp đỡ, hỗ trợ và đông viên rất lớn từ các thầy cô và bạn bè. Tuy nhiên do những hạn chế về mặt kinh nghiệm và thời gian, đồ án chắc chắn còn tồn tại khiếm khuyết. Qua đây em cũng mong muốn nhận được những góp ý nhằm phát triển tốt hơn đề tài này trong tương lai.
Một lần nữa em xin gửi lời Thank chân thành và sâu sắc tới ThS. Nguyễn Trịnh Đông. Thầy là người định hướng cho em, cũng là người tận tình hướng dẫn, chỉ bảo, động viên em giúp em hoàn thành tốt đồ án. Em cũng xin gửi lời Thank tới các thầy cô trong Bộ môn, tới gia đình và bạn bè, những người đã tạo điều kiện và giúp đỡ em rất nhiều, truyền thụ cho em những kiến thức bổ ích, cần thiết trong quá trình học tập tại trường cũng như việc hoàn thành tốt nghiệp.

Link Download bản DOC
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:

 
Last edited by a moderator:

Các chủ đề có liên quan khác

Top