girl_kotraitim_90
New Member
Luận văn: Xây dựng ứng dụng OCR cho thiết bị iPhone : Luận văn ThS. Công nghệ thông tin: 60 48 10
Nhà xuất bản: ĐHCN
Ngày: 2011
Chủ đề: Công nghệ thông tin
Công nghệ phần mềm
Thiết bị di động
Miêu tả: 47 tr. + CD-ROM
Luận văn ThS. Công nghệ phần mềm -- Trường Đại học Công nghệ. Đại học Quốc gia Hà Nội, 2011
Tổng quan về OCR và ứng dụng OCR. Nghiên cứu, làm rõ kiến trúc của bộ thư viện mã nguồn mở Teseract. Đây là bộ thư viện mã nguồn mở có độ chính xác tốt và có thể hoạt động trên nhiều nền tảng hệ điều hành khác nhau. Đi sâu vào việc tìm hiểu kiến trúc của hệ điều iOS, hệ điều hành của hãng Apple dùng chi các thiết bị di động như iPhone, iPod Touch, iPad, qua đó phân tích, thiết kế kiến trúc cho ứng dụng OCR phù hợp với việc thực thi trên hệ điều hành dành cho thiết bị di động này
MỤC LỤC
CHƢƠNG 1 TỔ NG QUAN VỀ OCR VÀ Ƣ́ NG DUṆ G OCR ................. 1
1.1 Tổng quan về bài toán nh ận dạng văn bản – OCR......................... 1
1.2 Mục tiêu xây dƣṇ g ƣ́ ng duṇ g OCR ............................................... 2
CHƢƠNG 2 THƢ VIÊṆ MỞ TESSERACT ............................................ 5
2.1 Lịch sử ra đời................................................................................ 5
2.2 Tổng quan kiến trúc ...................................................................... 5
2.3 Xác định dòng và từ...................................................................... 6
2.4 Nhận dạng từ ................................................................................ 9
2.5 Bộ phân loại kí tự tĩnh ................................................................ 11
2.6 Phân tích ngôn ngữ ..................................................................... 13
2.7 Phân lớp động............................................................................. 13
CHƢƠNG 3 KIẾ N TRÚ C CỦ A Ƣ́ NG DUṆ G OCR .............................. 15
3.1 Kiến trúc của hệ điều hành của iPhone........................................ 15
3.2 Kiến trúc hê ̣điều hành iOS ......................................................... 15
3.3 Môṭ số chƣ́ c năng và dic̣ h vụ của lớ p Cocoa Touch ..................... 17
3.4 Môṭ số API cơ bản của lớ p thƣ viện Cocoa Touch ...................... 20
3.5 Mô hình kiến trúc của chƣơng trình OCR ................................... 24
3.6 Mô hình thiết kế.......................................................................... 26
CHƢƠNG 4 CHƢƠNG TRÌNH THƢ̣C NGHIÊṂ ................................ 28
4.1 Giới thiệu mô trƣờng phát triển và cách cài đặt........................... 28
4.2 Giới thiệu về công cụ phát triển ƣ́ ng ........................................... 30
4.3 Chƣơng trình thực nghiệm .......................................................... 32
4.4 Kết quả thƣc̣ nghiêṃ ................................................................... 34KẾ T LUÂṆ .............................................................................................. 36
TÀI LIỆU THAM KHẢO ........................................................................ 37
PHỤ LỤC 1. GIỚ I THIÊỤ NGÔN NGƢ̃ LÂP̣ TRÌNH OBJECTIVE -C 38
Ket-noi.com kho tai lieu mien phi Ket-noi.com kho tai lieu mien phiDANH MUC̣ HÌNH VẼ
Hình 1. Mô hình tổng quan của một hệ thống OCR ................................ 2
Hình 2. Thị phần thiết bị di động chia theo hệ điều hành - Nguồn:
Gartner (tháng 2/2011) ....................................................................................... 3
Hình 3. Ứng dụng OCR cho iPhone ....................................................... 4
Hình 4. Minh họa về đƣờng cơ sở đã đƣợc hiệu chỉnh cong. .................. 8
Hình 5. Ví dụ minh họa một từ đã đƣợc cắt theo chiều cao cố định ........ 8
Hình 6. Minh họa của từ có khoảng cách khó xác định........................... 9
Hình 7. Ví dụ về điểm cắt thích hợp và nhát căt ................................... 10
Hình 8. Minh hoạ chƣ̃ bi ̣đƣ́ t đoaṇ ........................................................ 11
Hình 9. (a) Kí tự ‗h‘ mẫu, (b) ‗h‘ đứt đoạn, (c) nét đặc trƣng so với mẫu
11
Hình 10. Chuẩn hóa ký tự theo đƣờng cơ sở và mo-men ........................ 14
Hình 11. Các ứng dụng dựa trên hệ điều hành iOS ................................. 16
Hình 12. Các lớ p thƣ viêṇ của iOS ......................................................... 16
Hình 13. Cấu trúc phân hê ̣các lớ p trên bô ̣thƣ viêṇ Cococa ................... 24
Hình 14. Mô hình MVC ......................................................................... 26
Hình 15. Mô hình Cococa MVC của Apple ............................................ 26
Hình 16. Mô hình Use-Case của ƣ́ ng duṇ g ............................................. 27
Hình 17. Mô hình côṇ g tác của ƣ́ ng duṇ g OCR ...................................... 27
Hình 18. So sánh giữa iPad và iPhone. ................................................... 29
Hình 19. Cài đặt iPhone SDK ................................................................. 31
Hình 20. Bộ công cụ Xcode, Interface Builder, iPhone simulator........... 32
Hình 21. Giao diện chƣơng trình thực nghiệm........................................ 33
Hình 22. Kể quả thử nghiệm chƣơng trình.............................................. 34DANH MUC̣ BẢ NG BIỂ U
Bảng 1. Kết quả thực nghiệm chƣơng trình ........................................... 35
Ket-noi.com kho tai lieu mien phi Ket-noi.com kho tai lieu mien phiI
GIỚ I THIÊỤ
Các kết quả nghiên cứu trong lĩnh vực nhận dạng quang học (OCR) đã đạt đƣợc
những thành công vƣợt bậc trong việc giúp chuyển đổi các tài liệu văn bản từ dạng
hình ảnh sang dạng văn bản có thể chỉnh sửa, soạn thảo đƣợc. Hƣớng nghiên cứu
OCR ra đời từ trƣớc khi có máy tính điện tử, đến nay đã hình thành một thị trƣờng
phần mềm chuyên về xử lý nhận dạng văn bản. Có rất nhiều phần mềm nổi tiếng nhờ
có độ chính xác cao và hỗ trợ nhiều ngôn ngữ nhƣ phần mềm FineReader của hãng
AABBYY, OmmiPage của hãng Scansoft đƣợc dùng để nhận dạng các văn bản tiếng
Anh,… VNDOCR của Viện công nghệ thông tin cho các văn bản tiếng Việt.
Các phần mềm trên chủ yếu là hoạt động dựa nền tảng là máy tính cá nhân.
Trong khi đó, các thiết bị di động thông minh (smartphone) ngày càng mạnh hơn
trong năng lực xử lý nhƣng chƣa có nhiều phần mềm ứng dụng OCR cho các
thiết bị này. Mục tiêu của luân văn này là nghiên cứu bộ thƣ viện mở Tesseract
[6] và xây dựng ứng dụng OCR cho thiết bị di dộng dựa trên nền hệ điều hành
iOS.
Nội dung của luận văn sẽ nghiên cứu, làm rõ kiến trúc của bộ thƣ viện mã
nguồn mở Teseract. Đây là bộ thƣ viện mã nguồn mở có độ chính xác tốt và có
thể hoạt động trên nhiều nền tảng hệ điều hành khác nhau. Luận văn này cũng sẽ
đi sâu vào việc tìm hiểu kiến trúc của hệ điều iOS, hệ điều hành của hãng Apple
dùng chi các thiết bị di động nhƣ iPhone, iPod Touch, iPad, qua đó giúp tác giả
phân tích, thiết kế kiến trúc cho ứng dụng OCR phù hợp với việc thực thi trên hệ
điều hành dành cho thiết bị di động này.
Kết quả của luận này là sản phẩm phần mềm ứng dụng OCR cho thiết bị
iPhone. Sản phẩm này có tính ứng dụng thực tiễn cao. Ngƣời sử dụng có thể cài
đặt phần mềm này và sử dụng carmera có sẵn của thiết bị để chụp lại ảnh các tài
liệu cần nhận dạng, chuyển đổi. Các dữ liệu hình ảnh sẽ đƣợc nhận dạng và
chuyển đổi sang dạng dữ liệu văn bản. Sau đó, thông qua công cụ dịch của
Google, dữ liệu văn bản này có thể đƣợc dịch sang ngôn ngữ có thể hiểu đƣợc
đối với ngƣời dùng.II
LỜ I CẢ M ƠN
Trƣớc tiên tui xin gửi lời cảm chân thành tới các thầy, cô giáo trong trƣờng
Đại Học Công Nghệ và đặc biệt là thầy TS. Phạm Bảo Sơn. Thầy Sơn là ngƣời
đã trực tiếp giảng dậy cũng nhƣ là ngƣời hƣớng dẫn khoa học. Trong quá trình
học tập tại trƣờng mỗi giờ lên lớp của các thầy cô trong trƣờng đã giúp ích cho
tui rất nhiều trong việc mở rộng tầm hiểu biết của mình không chỉ về kiến thức
chuyên môn mà còn cả về những kinh nghiệm thực tiễn. Trong quá trình làm
luận văn khoa học, các chỉ dẫn kịp thời của thầy Phạm Bảo Sơn đã giúp tui có
đƣợc những hƣớng nghiên cứu khoa học đƣợc chính xác hơn.
Trong quá trình học tập và nghiên cứu khoa học, tui đã nhận đƣợc rất nhiều
sự cổ vũ động viên khích lệ tinh thần của gia đình đặc biệt là từ vợ - Vũ Thị
Xuân Hƣơng và con gái tui Đinh Thanh Trúc. Gia đình là chỗ dựa vững chắc về
tinh thần giúp tui vƣợt qua đƣợc những khó khăn trong cuộc sống. Mọi ngƣời
trong gia đình luôn quan tâm chăm sóc và dành nhiều thời gian cho tui phục vụ
công việc nghiên cứu khoa học qua đó đã giúp tui hoàn thành đề tài luận văn
này.
tui cũng xin Thank tới những ngƣời bạn, những đồng nghiệp luôn sát
cánh bên tui tại Trung tâm CNTT – Học viện Công Nghệ Bƣu Chính Viễn
Thông. Tại đây tui đã nhận đƣợc những chia sẻ về kinh nghiệm công việc, kinh
nghiệm thực tiễn về nghiên cứu khoa học. Qua đó đã giúp tui có đƣợc nhiều
kinh nghiệm hơn trong việc nghiên cứu và làm khoa học.
Một lần nữa tui xin Thank tất cả các thầy cô giáo, những ngƣời thân trong
gia đình, những bạn bè, đồng nghiệp đã giúp đỡ tui rất nhiều về kiến thức
chuyên môn, kinh nghiệm thực tế, động viên khích lệ tinh thần trong quá trình
hoàn học tập, nghiên cứu khoa học của tôi. Những đóng góp trên là một phần
thành công của luận văn này.
Mọi đóng góp về luận văn này xin gửi về địa chỉ email
[email protected]. Xin chân thành cảm ơn
Ket-noi.com kho tai lieu mien phi Ket-noi.com kho tai lieu mien phi1
CHƢƠNG 1 TỔNG QUAN VỀ OCR VÀ ỨNG DỤNG OCR
1.1 Tổng quan về bài toán nhận dạng văn bản – OCR
Ngày nay, hầu nhƣ tất cả thông tin đƣợc lƣu trữ và xử lý trên máy tính. Mỗi
ngày, chúng ta nhập một khối lƣợng dữ liệu rất lớn vào máy tính. Nhƣng dƣờng
nhƣ bản thân máy tính không đủ thông minh để nhận biết các kí hiệu, kí tự, hình
ảnh … mà con ngƣời sử dụng. Điều đó làm giảm rất lớn hiệu quả công việc của
con ngƣời. Do đó, vấn đề nhận dạng ra đời giống nhƣ cầu nối giữa con ngƣời và
máy tính nhằm tăng khả năng xử lý thông tin của máy tính.
Nằm trong số những bài toán nhận dạng, nhận dạng văn bản nhằm giải
quyết vấn đề nhận dạng các kí tự xuất hiện trong văn bản. Nó có ý nghĩa đặc
biệt quan trọng trong xử lý thông tin vì phần lớn thông tin mà con ngƣời sử dụng
ở dạng kí tự. Hơn nữa, ngày càng nhiều thiết bị di động thông minh
(smartphone) hay các thiết bị cầm tay nhỏ gọn nhƣ máy PDA (Personal Digital
Assitants, thiết bị điện tử cầm tay), là công cụ tiện dụng trong xử lý thông tin cá
nhân. Các thiết bị này, ngày nay, thƣờng đƣợc trang bị các thành phần xử lý tốc
độ cao và thƣờng tích hợp sẵn camera có độ phân giải cao. Do đó, chúng ta có
thể xây dựng các ứng dụng nhận dạng ký tự cho các loại thiết bị này nhằm nâng
cao hơn nữa tiện ích sử dụng của ngƣời dùng trong các hoạt động phục vụ công
việc nghiên cứu học tập hay là công cụ dịch tự động cho ngƣời đi du lịch nƣớc
ngoài.
Vấn đề nhận dạng văn bản đã đƣợc nghiên cứu gần bốn thập kỉ qua. Nhƣng
chỉ những năm gần đây, kỹ thuật nhận dạng mới đƣợc phát triển đủ mạnh để có
thể xây dựng các ứng dụng thƣơng mại. Có nhiều loại vấn đề trong nhận dạng
chữ nhƣ việc thể hiện đặc trƣng trong hệ thống nhận dạng hay vấn đề chia cắt kí
tự trong một từ để nhận dạng.vv...
Các bộ thƣ viện, phần mềm OCR đặc trƣng thƣờng có mô hình xử lý với
các bƣớc nhƣ hình bên dƣới.2
Hình 1. Mô hình tổng quan của một hệ thống OCR
1.2 Mục tiêu xây dựng ứng dụng OCR
Hiêṇ nay các sản phẩm thiết bi ̣m áy tính bảng , điêṇ thoaị thông minh ngày
càng phổ biến . Các sản phẩm này ngày càng mạnh mẽ về hiệu năng xử lý cũng
nhƣ giầu tính năng sƣ̉ duṇ g nhờ có nhiều phần mềm ƣ́ ng duṇ g trên đó . Có rất
nhiều công ty trong liñ h vƣc̣ thiết bi ̣di đôṇ g cùng tham gia vào thị phần này nhƣ
Nokia, Sony, LG, Samsam, Apple…Trong các sản phẩm điêṇ thoaị thông minh
thì thiết bị iPhone của hãng Apple - Mỹ đang giành đƣợc nhiều sự quan tâm
không chỉ ngƣờ i sƣ̉ duṇ g mà cả côṇ g đồng phát triển ƣ́ ng duṇ g cho thiết bi ̣này
● Implementation:Mã nguồn của chƣơng trình đƣợc viết trong phần
implementation của một lớp và đƣợc định nghĩa trong một file có đuôi .m.
Đây là nó phần định nghĩa của lớp.
● Instantiation:Sau khi khai báo và định nghĩa một lớp, chúng ta có thể thực
thể hóa lớp này bằng việc cấp phát bộ nhớ cho new object của lớp đó.
Tóm lại Objective-C là:
- Thành phần mở rộng của ngôn ngữ lập trình C.
- Là ngôn ngữ lập trình hƣớng đối tƣợng đơn giản nhƣng mạnh mẽ.
- Là ngôn ngữ đƣợc Apple sử dụng để phát triển các ứng dụng cho hệ thống
máy Mac và iPhone.
2. Tại sao lại sử dụng Objective-C
Ngôn ngữ lập trình Objective-C đƣợc chọn cho Cocoa framework vì một số
lý do dƣới đây:
● Nó là ngôn ngữ lập trình hƣớng đối tƣợng và các chức năng cung cấp bởi
Cocoa framework chỉ có thể đƣợc mang lại bởi các kỹ thuật hƣớng đối
tƣợng.
● Nó là thành phần mở rộng của chuẩn ANSI C vì vậy các chƣơng trình viết
bằng C của framework này sẽ không bị mất đi chức năng nào và ngƣời
dùng đƣợc hƣởng các lợi thế của ngôn ngữ C.
Với ngôn ngữ này, ngƣời dùng có thể lựa chọn cả lập trình hƣớng đối
tƣợng và lập trình thủ tục khi cần thiết.
● Nó đơn giản và dễ học bởi cú pháp của nó khá ngắn gọn nên nó giúp cho
lập trình viên đạt đƣợc hiệu quả mong muốn mà không gặp nhiều khó
khăn.
● Nó rất năng động nếu so sánh với các ngôn ngữ mở rộng khác dựa trên C.
Trình biên dịch đóng một vai trò rất quan trọng trong việc bảo vệ thông
tin liên quan đến các đối tƣợng để sử dụng lúc run time.
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:
Nhà xuất bản: ĐHCN
Ngày: 2011
Chủ đề: Công nghệ thông tin
Công nghệ phần mềm
Thiết bị di động
Miêu tả: 47 tr. + CD-ROM
Luận văn ThS. Công nghệ phần mềm -- Trường Đại học Công nghệ. Đại học Quốc gia Hà Nội, 2011
Tổng quan về OCR và ứng dụng OCR. Nghiên cứu, làm rõ kiến trúc của bộ thư viện mã nguồn mở Teseract. Đây là bộ thư viện mã nguồn mở có độ chính xác tốt và có thể hoạt động trên nhiều nền tảng hệ điều hành khác nhau. Đi sâu vào việc tìm hiểu kiến trúc của hệ điều iOS, hệ điều hành của hãng Apple dùng chi các thiết bị di động như iPhone, iPod Touch, iPad, qua đó phân tích, thiết kế kiến trúc cho ứng dụng OCR phù hợp với việc thực thi trên hệ điều hành dành cho thiết bị di động này
MỤC LỤC
CHƢƠNG 1 TỔ NG QUAN VỀ OCR VÀ Ƣ́ NG DUṆ G OCR ................. 1
1.1 Tổng quan về bài toán nh ận dạng văn bản – OCR......................... 1
1.2 Mục tiêu xây dƣṇ g ƣ́ ng duṇ g OCR ............................................... 2
CHƢƠNG 2 THƢ VIÊṆ MỞ TESSERACT ............................................ 5
2.1 Lịch sử ra đời................................................................................ 5
2.2 Tổng quan kiến trúc ...................................................................... 5
2.3 Xác định dòng và từ...................................................................... 6
2.4 Nhận dạng từ ................................................................................ 9
2.5 Bộ phân loại kí tự tĩnh ................................................................ 11
2.6 Phân tích ngôn ngữ ..................................................................... 13
2.7 Phân lớp động............................................................................. 13
CHƢƠNG 3 KIẾ N TRÚ C CỦ A Ƣ́ NG DUṆ G OCR .............................. 15
3.1 Kiến trúc của hệ điều hành của iPhone........................................ 15
3.2 Kiến trúc hê ̣điều hành iOS ......................................................... 15
3.3 Môṭ số chƣ́ c năng và dic̣ h vụ của lớ p Cocoa Touch ..................... 17
3.4 Môṭ số API cơ bản của lớ p thƣ viện Cocoa Touch ...................... 20
3.5 Mô hình kiến trúc của chƣơng trình OCR ................................... 24
3.6 Mô hình thiết kế.......................................................................... 26
CHƢƠNG 4 CHƢƠNG TRÌNH THƢ̣C NGHIÊṂ ................................ 28
4.1 Giới thiệu mô trƣờng phát triển và cách cài đặt........................... 28
4.2 Giới thiệu về công cụ phát triển ƣ́ ng ........................................... 30
4.3 Chƣơng trình thực nghiệm .......................................................... 32
4.4 Kết quả thƣc̣ nghiêṃ ................................................................... 34KẾ T LUÂṆ .............................................................................................. 36
TÀI LIỆU THAM KHẢO ........................................................................ 37
PHỤ LỤC 1. GIỚ I THIÊỤ NGÔN NGƢ̃ LÂP̣ TRÌNH OBJECTIVE -C 38
Ket-noi.com kho tai lieu mien phi Ket-noi.com kho tai lieu mien phiDANH MUC̣ HÌNH VẼ
Hình 1. Mô hình tổng quan của một hệ thống OCR ................................ 2
Hình 2. Thị phần thiết bị di động chia theo hệ điều hành - Nguồn:
Gartner (tháng 2/2011) ....................................................................................... 3
Hình 3. Ứng dụng OCR cho iPhone ....................................................... 4
Hình 4. Minh họa về đƣờng cơ sở đã đƣợc hiệu chỉnh cong. .................. 8
Hình 5. Ví dụ minh họa một từ đã đƣợc cắt theo chiều cao cố định ........ 8
Hình 6. Minh họa của từ có khoảng cách khó xác định........................... 9
Hình 7. Ví dụ về điểm cắt thích hợp và nhát căt ................................... 10
Hình 8. Minh hoạ chƣ̃ bi ̣đƣ́ t đoaṇ ........................................................ 11
Hình 9. (a) Kí tự ‗h‘ mẫu, (b) ‗h‘ đứt đoạn, (c) nét đặc trƣng so với mẫu
11
Hình 10. Chuẩn hóa ký tự theo đƣờng cơ sở và mo-men ........................ 14
Hình 11. Các ứng dụng dựa trên hệ điều hành iOS ................................. 16
Hình 12. Các lớ p thƣ viêṇ của iOS ......................................................... 16
Hình 13. Cấu trúc phân hê ̣các lớ p trên bô ̣thƣ viêṇ Cococa ................... 24
Hình 14. Mô hình MVC ......................................................................... 26
Hình 15. Mô hình Cococa MVC của Apple ............................................ 26
Hình 16. Mô hình Use-Case của ƣ́ ng duṇ g ............................................. 27
Hình 17. Mô hình côṇ g tác của ƣ́ ng duṇ g OCR ...................................... 27
Hình 18. So sánh giữa iPad và iPhone. ................................................... 29
Hình 19. Cài đặt iPhone SDK ................................................................. 31
Hình 20. Bộ công cụ Xcode, Interface Builder, iPhone simulator........... 32
Hình 21. Giao diện chƣơng trình thực nghiệm........................................ 33
Hình 22. Kể quả thử nghiệm chƣơng trình.............................................. 34DANH MUC̣ BẢ NG BIỂ U
Bảng 1. Kết quả thực nghiệm chƣơng trình ........................................... 35
Ket-noi.com kho tai lieu mien phi Ket-noi.com kho tai lieu mien phiI
GIỚ I THIÊỤ
Các kết quả nghiên cứu trong lĩnh vực nhận dạng quang học (OCR) đã đạt đƣợc
những thành công vƣợt bậc trong việc giúp chuyển đổi các tài liệu văn bản từ dạng
hình ảnh sang dạng văn bản có thể chỉnh sửa, soạn thảo đƣợc. Hƣớng nghiên cứu
OCR ra đời từ trƣớc khi có máy tính điện tử, đến nay đã hình thành một thị trƣờng
phần mềm chuyên về xử lý nhận dạng văn bản. Có rất nhiều phần mềm nổi tiếng nhờ
có độ chính xác cao và hỗ trợ nhiều ngôn ngữ nhƣ phần mềm FineReader của hãng
AABBYY, OmmiPage của hãng Scansoft đƣợc dùng để nhận dạng các văn bản tiếng
Anh,… VNDOCR của Viện công nghệ thông tin cho các văn bản tiếng Việt.
Các phần mềm trên chủ yếu là hoạt động dựa nền tảng là máy tính cá nhân.
Trong khi đó, các thiết bị di động thông minh (smartphone) ngày càng mạnh hơn
trong năng lực xử lý nhƣng chƣa có nhiều phần mềm ứng dụng OCR cho các
thiết bị này. Mục tiêu của luân văn này là nghiên cứu bộ thƣ viện mở Tesseract
[6] và xây dựng ứng dụng OCR cho thiết bị di dộng dựa trên nền hệ điều hành
iOS.
Nội dung của luận văn sẽ nghiên cứu, làm rõ kiến trúc của bộ thƣ viện mã
nguồn mở Teseract. Đây là bộ thƣ viện mã nguồn mở có độ chính xác tốt và có
thể hoạt động trên nhiều nền tảng hệ điều hành khác nhau. Luận văn này cũng sẽ
đi sâu vào việc tìm hiểu kiến trúc của hệ điều iOS, hệ điều hành của hãng Apple
dùng chi các thiết bị di động nhƣ iPhone, iPod Touch, iPad, qua đó giúp tác giả
phân tích, thiết kế kiến trúc cho ứng dụng OCR phù hợp với việc thực thi trên hệ
điều hành dành cho thiết bị di động này.
Kết quả của luận này là sản phẩm phần mềm ứng dụng OCR cho thiết bị
iPhone. Sản phẩm này có tính ứng dụng thực tiễn cao. Ngƣời sử dụng có thể cài
đặt phần mềm này và sử dụng carmera có sẵn của thiết bị để chụp lại ảnh các tài
liệu cần nhận dạng, chuyển đổi. Các dữ liệu hình ảnh sẽ đƣợc nhận dạng và
chuyển đổi sang dạng dữ liệu văn bản. Sau đó, thông qua công cụ dịch của
Google, dữ liệu văn bản này có thể đƣợc dịch sang ngôn ngữ có thể hiểu đƣợc
đối với ngƣời dùng.II
LỜ I CẢ M ƠN
Trƣớc tiên tui xin gửi lời cảm chân thành tới các thầy, cô giáo trong trƣờng
Đại Học Công Nghệ và đặc biệt là thầy TS. Phạm Bảo Sơn. Thầy Sơn là ngƣời
đã trực tiếp giảng dậy cũng nhƣ là ngƣời hƣớng dẫn khoa học. Trong quá trình
học tập tại trƣờng mỗi giờ lên lớp của các thầy cô trong trƣờng đã giúp ích cho
tui rất nhiều trong việc mở rộng tầm hiểu biết của mình không chỉ về kiến thức
chuyên môn mà còn cả về những kinh nghiệm thực tiễn. Trong quá trình làm
luận văn khoa học, các chỉ dẫn kịp thời của thầy Phạm Bảo Sơn đã giúp tui có
đƣợc những hƣớng nghiên cứu khoa học đƣợc chính xác hơn.
Trong quá trình học tập và nghiên cứu khoa học, tui đã nhận đƣợc rất nhiều
sự cổ vũ động viên khích lệ tinh thần của gia đình đặc biệt là từ vợ - Vũ Thị
Xuân Hƣơng và con gái tui Đinh Thanh Trúc. Gia đình là chỗ dựa vững chắc về
tinh thần giúp tui vƣợt qua đƣợc những khó khăn trong cuộc sống. Mọi ngƣời
trong gia đình luôn quan tâm chăm sóc và dành nhiều thời gian cho tui phục vụ
công việc nghiên cứu khoa học qua đó đã giúp tui hoàn thành đề tài luận văn
này.
tui cũng xin Thank tới những ngƣời bạn, những đồng nghiệp luôn sát
cánh bên tui tại Trung tâm CNTT – Học viện Công Nghệ Bƣu Chính Viễn
Thông. Tại đây tui đã nhận đƣợc những chia sẻ về kinh nghiệm công việc, kinh
nghiệm thực tiễn về nghiên cứu khoa học. Qua đó đã giúp tui có đƣợc nhiều
kinh nghiệm hơn trong việc nghiên cứu và làm khoa học.
Một lần nữa tui xin Thank tất cả các thầy cô giáo, những ngƣời thân trong
gia đình, những bạn bè, đồng nghiệp đã giúp đỡ tui rất nhiều về kiến thức
chuyên môn, kinh nghiệm thực tế, động viên khích lệ tinh thần trong quá trình
hoàn học tập, nghiên cứu khoa học của tôi. Những đóng góp trên là một phần
thành công của luận văn này.
Mọi đóng góp về luận văn này xin gửi về địa chỉ email
[email protected]. Xin chân thành cảm ơn
Ket-noi.com kho tai lieu mien phi Ket-noi.com kho tai lieu mien phi1
CHƢƠNG 1 TỔNG QUAN VỀ OCR VÀ ỨNG DỤNG OCR
1.1 Tổng quan về bài toán nhận dạng văn bản – OCR
Ngày nay, hầu nhƣ tất cả thông tin đƣợc lƣu trữ và xử lý trên máy tính. Mỗi
ngày, chúng ta nhập một khối lƣợng dữ liệu rất lớn vào máy tính. Nhƣng dƣờng
nhƣ bản thân máy tính không đủ thông minh để nhận biết các kí hiệu, kí tự, hình
ảnh … mà con ngƣời sử dụng. Điều đó làm giảm rất lớn hiệu quả công việc của
con ngƣời. Do đó, vấn đề nhận dạng ra đời giống nhƣ cầu nối giữa con ngƣời và
máy tính nhằm tăng khả năng xử lý thông tin của máy tính.
Nằm trong số những bài toán nhận dạng, nhận dạng văn bản nhằm giải
quyết vấn đề nhận dạng các kí tự xuất hiện trong văn bản. Nó có ý nghĩa đặc
biệt quan trọng trong xử lý thông tin vì phần lớn thông tin mà con ngƣời sử dụng
ở dạng kí tự. Hơn nữa, ngày càng nhiều thiết bị di động thông minh
(smartphone) hay các thiết bị cầm tay nhỏ gọn nhƣ máy PDA (Personal Digital
Assitants, thiết bị điện tử cầm tay), là công cụ tiện dụng trong xử lý thông tin cá
nhân. Các thiết bị này, ngày nay, thƣờng đƣợc trang bị các thành phần xử lý tốc
độ cao và thƣờng tích hợp sẵn camera có độ phân giải cao. Do đó, chúng ta có
thể xây dựng các ứng dụng nhận dạng ký tự cho các loại thiết bị này nhằm nâng
cao hơn nữa tiện ích sử dụng của ngƣời dùng trong các hoạt động phục vụ công
việc nghiên cứu học tập hay là công cụ dịch tự động cho ngƣời đi du lịch nƣớc
ngoài.
Vấn đề nhận dạng văn bản đã đƣợc nghiên cứu gần bốn thập kỉ qua. Nhƣng
chỉ những năm gần đây, kỹ thuật nhận dạng mới đƣợc phát triển đủ mạnh để có
thể xây dựng các ứng dụng thƣơng mại. Có nhiều loại vấn đề trong nhận dạng
chữ nhƣ việc thể hiện đặc trƣng trong hệ thống nhận dạng hay vấn đề chia cắt kí
tự trong một từ để nhận dạng.vv...
Các bộ thƣ viện, phần mềm OCR đặc trƣng thƣờng có mô hình xử lý với
các bƣớc nhƣ hình bên dƣới.2
Hình 1. Mô hình tổng quan của một hệ thống OCR
1.2 Mục tiêu xây dựng ứng dụng OCR
Hiêṇ nay các sản phẩm thiết bi ̣m áy tính bảng , điêṇ thoaị thông minh ngày
càng phổ biến . Các sản phẩm này ngày càng mạnh mẽ về hiệu năng xử lý cũng
nhƣ giầu tính năng sƣ̉ duṇ g nhờ có nhiều phần mềm ƣ́ ng duṇ g trên đó . Có rất
nhiều công ty trong liñ h vƣc̣ thiết bi ̣di đôṇ g cùng tham gia vào thị phần này nhƣ
Nokia, Sony, LG, Samsam, Apple…Trong các sản phẩm điêṇ thoaị thông minh
thì thiết bị iPhone của hãng Apple - Mỹ đang giành đƣợc nhiều sự quan tâm
không chỉ ngƣờ i sƣ̉ duṇ g mà cả côṇ g đồng phát triển ƣ́ ng duṇ g cho thiết bi ̣này
● Implementation:Mã nguồn của chƣơng trình đƣợc viết trong phần
implementation của một lớp và đƣợc định nghĩa trong một file có đuôi .m.
Đây là nó phần định nghĩa của lớp.
● Instantiation:Sau khi khai báo và định nghĩa một lớp, chúng ta có thể thực
thể hóa lớp này bằng việc cấp phát bộ nhớ cho new object của lớp đó.
Tóm lại Objective-C là:
- Thành phần mở rộng của ngôn ngữ lập trình C.
- Là ngôn ngữ lập trình hƣớng đối tƣợng đơn giản nhƣng mạnh mẽ.
- Là ngôn ngữ đƣợc Apple sử dụng để phát triển các ứng dụng cho hệ thống
máy Mac và iPhone.
2. Tại sao lại sử dụng Objective-C
Ngôn ngữ lập trình Objective-C đƣợc chọn cho Cocoa framework vì một số
lý do dƣới đây:
● Nó là ngôn ngữ lập trình hƣớng đối tƣợng và các chức năng cung cấp bởi
Cocoa framework chỉ có thể đƣợc mang lại bởi các kỹ thuật hƣớng đối
tƣợng.
● Nó là thành phần mở rộng của chuẩn ANSI C vì vậy các chƣơng trình viết
bằng C của framework này sẽ không bị mất đi chức năng nào và ngƣời
dùng đƣợc hƣởng các lợi thế của ngôn ngữ C.
Với ngôn ngữ này, ngƣời dùng có thể lựa chọn cả lập trình hƣớng đối
tƣợng và lập trình thủ tục khi cần thiết.
● Nó đơn giản và dễ học bởi cú pháp của nó khá ngắn gọn nên nó giúp cho
lập trình viên đạt đƣợc hiệu quả mong muốn mà không gặp nhiều khó
khăn.
● Nó rất năng động nếu so sánh với các ngôn ngữ mở rộng khác dựa trên C.
Trình biên dịch đóng một vai trò rất quan trọng trong việc bảo vệ thông
tin liên quan đến các đối tƣợng để sử dụng lúc run time.
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:
You must be registered for see links
Last edited by a moderator: