Link tải luận văn miễn phí cho ae
TÓM TẮT
Nhận dạng ký tự quang học đã ra đời từ rất lâu, trước cả sự ra đời của máy vi
tính. Điều đó chứng tỏ nhu cầu của con người trong lĩnh vực này. Theo thời gian, với
sự phát triển nhanh chóng và mạnh mẽ của máy vi tính và các thiết bị quang học như
máy quét, máy chụp ảnh kỹ thuật số, kỹ thuật nhận dạng ký tự càng đạt được nhiều
thành tựu rực rỡ về độ chính xác và mở rộng khả năng ứng dụng trong nhiều lĩnh vực
trong cuộc sống.
Tesseract là một lõi nhận dạng ký tự quang học nguồn mở với độ chính xác cao.
Nó thu hút sự quan tâm của cộng đồng nguồn mở trên toàn thế giới. Nghiên cứu
Tesseract, sử dụng nó như một module nhận dạng để phát triển một phần mềm nhận
dạng ký tự miễn phí, hiệu quả là nội dung của đề tài luận văn tốt nghiệp này.
ABSTRACT
Optical Character Recognition was born long ago, before the advent of the
computer. This demonstrates for the human needs in this area. Over time, with the
rapid and powerful development of computers and optical devices such as scanner,
digital camera, character recognition technique achieves more brilliant achievements
in terms of accuracy and extended applicability in many areas of life.
Tesseract is a open source optical character recognition engine with high
accuracy. It attracted the attention of the worldwide open source community.
Researching Tesseract, using it as a recognition module to develop a character
recognition software for free, effective, is the entire of this thesis.
TỪ KHÓA – KEY WORD
Software Engineering: Công nghệ phần mềm (CNPM) hay kỹ nghệ phần
mềm.
GUI: Graphical User Interface
Input: đầu vào
OCR: Optical Character Recognition
Output: đầu ra
Ngôn ngữ hay ngôn ngữ làm việc: ngôn ngữ mà bộ máy OCR sẽ sử dụng
để nhận dạng văn bản. Ví dụ: tiếng Anh, Pháp, Việt…
Tesseract: OCR engine
1.1. ĐẶT VẤN ĐỀ
Nhân loại đã và đang nỗ lực mô phỏng, “tự động hóa” các khả năng của chính
mình như đi, đứng, nghe, nhìn, đọc, viết, học hỏi… Những nỗ lực đó đã đạt được
nhiều thành tựu to lớn. Nhận dạng ký tự quang học (Optical Character Recognition -
OCR) là một trong số đó.
Ta hãy thử hình dung một số tình huống sau:
Một du khách Việt Nam sang Pháp du lịch. Anh ta vào một nhà hàng và
người phục vụ đưa anh ta một thực đơn toàn tiếng Pháp. Anh ta không biết
tiếng Pháp nhưng điều đó không thành vấn đề vì anh ta có một chiếc điện
thoại có chức năng chụp ảnh và chuyển văn bản trong ảnh về tiếng Việt.
Một người khiếm thị ham học hỏi. Anh ta có nhiều sách hay. Anh ta hoàn
toàn có thể nắm bắt các tri thức trong sách nhờ vào một thiết bị cho phép chụp
ảnh trang sách và đọc nội dung văn bản.
Một thư viện có nhiều quyển sách cổ rất quý giá. Vì muốn bảo tồn những
tri thức quý giá đó và dễ dàng trong việc quản lý, tìm kiếm nội dung, người ta
“số hóa” chúng. Thay vì mất nhiều ngày, nhiều tháng đánh máy, người ta chỉ
cần sử dụng máy scan, tạo thành dữ liệu ảnh, sau đó dùng phần mềm nhận
dạng ký tự để chuyển về dạng văn bản.
Những tình huống trên không phải là không tưởng. Thực tế đã có các thiết bị và
phần mềm, với cốt lõi là các OCR engine, cho phép làm chuyện đó.
Tesseract là một OCR engine nguồn mở (open source), nổi bật với độ chính xác
cao, rất đáng để tìm hiểu và ứng dụng.
1.2. LỊCH SỬ GIẢI QUYẾT VẤN ĐỀ
Thế giới tồn tại nhiều OCR engine và các ứng dụng của chúng. Những ứng
dụng này có thể là miễn phí hay có phí với giá thành dao động từ khoảng 100 USD
cho đến khoảng 700 USD. 1
Nổi bật với độ chính xác cao và miễn phí, Tesseract OCR engine đã và đang
được cộng đồng nguồn mở không ngừng phát triển và cải tiến. Nhiều Giao diện người
dùng đồ họa (Graphical User Interface - GUI), dành cho Tesseract được đưa ra trên
các nền Java hay .NET. 2 Nhưng do miễn phí và phát triển riêng lẽ nên các GUI này
chưa thật sự thân thiện và chưa đáp ứng tốt các nhu cầu của người dùng.
1.3. PHẠM VI ĐỀ TÀI
1.3.1. Về phần mềm ứng dụng
Xây dựng phần mềm nhận dạng văn bản in sử dụng lõi Tesseract. Phần mềm
cung cấp cho người dùng giao diện làm việc thân thiện, dễ sử dụng với các chức năng
xử lý hình ảnh đầu vào (Input Image), thực hiện OCR và xử lý văn bản đầu ra (Output
Text).
1.3.2. Về lý thuyết
Áp dụng, mô phỏng các giai đoạn trong phát triển phần mềm.
Sử dụng bộ công cụ lập trình Visual Basic .NET (VB.NET).
1.3.3. Về chức năng
Xử lý ảnh đầu vào (Input Image)
Thực hiện OCR toàn văn bản hay một vùng được chọn.
Xử lý văn bản đầu ra (Output Text).
1.4. PHƯƠNG PHÁP NGHIÊN CỨU VÀ HƯỚNG GIẢI QUYẾT
Tìm hiểu các tài liệu liên quan như tài liệu về: OCR, Tesseract, công nghệ
và tiến trình làm phần mềm, ngôn ngữ lập trình, giải thuật…3
Sử dụng Internet như một công cụ hiệu quả.
1.4.1. Về lý thuyết
Tìm hiểu lý thuyết về công nghệ phần mềm.
Tìm hiểu Visual Studio, .NET Framework và ngôn ngữ lập trình VB.NET.
Tìm hiểu khái quát OCR.
Tìm hiểu Tesseract và thư viện mở Tessnet.
1.4.2. Về chương trình demo
Mô phỏng các giai đoạn trong tiến trình làm phần mềm để phát triển phần
mềm.
Sử dụng thư viện Tessnet như module nhận dạng và thư viện
VietKeyInput như module xử lý tiếng Việt.
Sử dụng bộ công cụ lập trình VB.NET để hiện thực hóa phần mềm.
Tham khảo ý kiến của thầy hướng dẫn và bạn bè để hoàn thiện sản phẩm.
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:
TÓM TẮT
Nhận dạng ký tự quang học đã ra đời từ rất lâu, trước cả sự ra đời của máy vi
tính. Điều đó chứng tỏ nhu cầu của con người trong lĩnh vực này. Theo thời gian, với
sự phát triển nhanh chóng và mạnh mẽ của máy vi tính và các thiết bị quang học như
máy quét, máy chụp ảnh kỹ thuật số, kỹ thuật nhận dạng ký tự càng đạt được nhiều
thành tựu rực rỡ về độ chính xác và mở rộng khả năng ứng dụng trong nhiều lĩnh vực
trong cuộc sống.
Tesseract là một lõi nhận dạng ký tự quang học nguồn mở với độ chính xác cao.
Nó thu hút sự quan tâm của cộng đồng nguồn mở trên toàn thế giới. Nghiên cứu
Tesseract, sử dụng nó như một module nhận dạng để phát triển một phần mềm nhận
dạng ký tự miễn phí, hiệu quả là nội dung của đề tài luận văn tốt nghiệp này.
ABSTRACT
Optical Character Recognition was born long ago, before the advent of the
computer. This demonstrates for the human needs in this area. Over time, with the
rapid and powerful development of computers and optical devices such as scanner,
digital camera, character recognition technique achieves more brilliant achievements
in terms of accuracy and extended applicability in many areas of life.
Tesseract is a open source optical character recognition engine with high
accuracy. It attracted the attention of the worldwide open source community.
Researching Tesseract, using it as a recognition module to develop a character
recognition software for free, effective, is the entire of this thesis.
TỪ KHÓA – KEY WORD
Software Engineering: Công nghệ phần mềm (CNPM) hay kỹ nghệ phần
mềm.
GUI: Graphical User Interface
Input: đầu vào
OCR: Optical Character Recognition
Output: đầu ra
Ngôn ngữ hay ngôn ngữ làm việc: ngôn ngữ mà bộ máy OCR sẽ sử dụng
để nhận dạng văn bản. Ví dụ: tiếng Anh, Pháp, Việt…
Tesseract: OCR engine
1.1. ĐẶT VẤN ĐỀ
Nhân loại đã và đang nỗ lực mô phỏng, “tự động hóa” các khả năng của chính
mình như đi, đứng, nghe, nhìn, đọc, viết, học hỏi… Những nỗ lực đó đã đạt được
nhiều thành tựu to lớn. Nhận dạng ký tự quang học (Optical Character Recognition -
OCR) là một trong số đó.
Ta hãy thử hình dung một số tình huống sau:
Một du khách Việt Nam sang Pháp du lịch. Anh ta vào một nhà hàng và
người phục vụ đưa anh ta một thực đơn toàn tiếng Pháp. Anh ta không biết
tiếng Pháp nhưng điều đó không thành vấn đề vì anh ta có một chiếc điện
thoại có chức năng chụp ảnh và chuyển văn bản trong ảnh về tiếng Việt.
Một người khiếm thị ham học hỏi. Anh ta có nhiều sách hay. Anh ta hoàn
toàn có thể nắm bắt các tri thức trong sách nhờ vào một thiết bị cho phép chụp
ảnh trang sách và đọc nội dung văn bản.
Một thư viện có nhiều quyển sách cổ rất quý giá. Vì muốn bảo tồn những
tri thức quý giá đó và dễ dàng trong việc quản lý, tìm kiếm nội dung, người ta
“số hóa” chúng. Thay vì mất nhiều ngày, nhiều tháng đánh máy, người ta chỉ
cần sử dụng máy scan, tạo thành dữ liệu ảnh, sau đó dùng phần mềm nhận
dạng ký tự để chuyển về dạng văn bản.
Những tình huống trên không phải là không tưởng. Thực tế đã có các thiết bị và
phần mềm, với cốt lõi là các OCR engine, cho phép làm chuyện đó.
Tesseract là một OCR engine nguồn mở (open source), nổi bật với độ chính xác
cao, rất đáng để tìm hiểu và ứng dụng.
1.2. LỊCH SỬ GIẢI QUYẾT VẤN ĐỀ
Thế giới tồn tại nhiều OCR engine và các ứng dụng của chúng. Những ứng
dụng này có thể là miễn phí hay có phí với giá thành dao động từ khoảng 100 USD
cho đến khoảng 700 USD. 1
Nổi bật với độ chính xác cao và miễn phí, Tesseract OCR engine đã và đang
được cộng đồng nguồn mở không ngừng phát triển và cải tiến. Nhiều Giao diện người
dùng đồ họa (Graphical User Interface - GUI), dành cho Tesseract được đưa ra trên
các nền Java hay .NET. 2 Nhưng do miễn phí và phát triển riêng lẽ nên các GUI này
chưa thật sự thân thiện và chưa đáp ứng tốt các nhu cầu của người dùng.
1.3. PHẠM VI ĐỀ TÀI
1.3.1. Về phần mềm ứng dụng
Xây dựng phần mềm nhận dạng văn bản in sử dụng lõi Tesseract. Phần mềm
cung cấp cho người dùng giao diện làm việc thân thiện, dễ sử dụng với các chức năng
xử lý hình ảnh đầu vào (Input Image), thực hiện OCR và xử lý văn bản đầu ra (Output
Text).
1.3.2. Về lý thuyết
Áp dụng, mô phỏng các giai đoạn trong phát triển phần mềm.
Sử dụng bộ công cụ lập trình Visual Basic .NET (VB.NET).
1.3.3. Về chức năng
Xử lý ảnh đầu vào (Input Image)
Thực hiện OCR toàn văn bản hay một vùng được chọn.
Xử lý văn bản đầu ra (Output Text).
1.4. PHƯƠNG PHÁP NGHIÊN CỨU VÀ HƯỚNG GIẢI QUYẾT
Tìm hiểu các tài liệu liên quan như tài liệu về: OCR, Tesseract, công nghệ
và tiến trình làm phần mềm, ngôn ngữ lập trình, giải thuật…3
Sử dụng Internet như một công cụ hiệu quả.
1.4.1. Về lý thuyết
Tìm hiểu lý thuyết về công nghệ phần mềm.
Tìm hiểu Visual Studio, .NET Framework và ngôn ngữ lập trình VB.NET.
Tìm hiểu khái quát OCR.
Tìm hiểu Tesseract và thư viện mở Tessnet.
1.4.2. Về chương trình demo
Mô phỏng các giai đoạn trong tiến trình làm phần mềm để phát triển phần
mềm.
Sử dụng thư viện Tessnet như module nhận dạng và thư viện
VietKeyInput như module xử lý tiếng Việt.
Sử dụng bộ công cụ lập trình VB.NET để hiện thực hóa phần mềm.
Tham khảo ý kiến của thầy hướng dẫn và bạn bè để hoàn thiện sản phẩm.
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:
You must be registered for see links