Luận văn: Nghiên cứu ứng dụng kỹ thuật học máy để đoán chứng khoán bằng ngôn ngữ R : Luận văn ThS. Công nghệ thông tin: 60 48 05
Nhà xuất bản: Đại học Công nghệ
Ngày: 2013
Chủ đề: Khai phá dữ liệu
Hệ thống thông tin
Ngôn ngữ R
Miêu tả: Giới thiệu những nội dung cơ bản nhất về bài toán phân tích chứng khoán. Các kỹ thuật thường được áp dụng trong phân tích kỹ thuật và các chỉ số liên quan. Khai phá dữ liệu và phát hiện tri thức. Trình bày tổng quan về ngôn ngữ R, một số ứng dụng của ngôn ngữ R trong phân tích số liệu, vẽ biểu đồ. Xây dựng chương trình đánh giá, trình bày quá trình xây dựng chương trình bằng ngôn ngữ R cho bài toán phân tích chứng khoán và kết quả thử nghiệm trên chứng khoán S&P500.
MỤC LỤC ..............................................................................................................4
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT...............................................5
DANH MỤC CÁC BẢNG......................................................................................6
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ..................................................................7
MỞ ĐẦU ................................................................................................................8
Chương 1. BÀI TOÁN PHÂN TÍCH CHỨNG KHOÁN...................................10
1.1. Tổng quan về dự báo...........................................................................10
1.2. Bài toán phân tích chứng khoán ..........................................................11
Chương 2. KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC.......................16
2.1. Khai phá dữ liệu..................................................................................16
2.2. Mô hình mạng nơron nhân tạo ............................................................22
2.3. Mô hình máy véctơ hỗ trợ...................................................................25
Chương 3. NGÔN NGỮ R VÀ ỨNG DỤNG....................................................27
3.1. Tổng quan về ngôn ngữ R...................................................................27
3.2. Ứng dụng ngôn ngữ R.........................................................................28
Chương 4. XÂY DỰNG CHƯƠNG TRÌNH VÀ ĐÁNH GIÁ...........................33
4.1. Chuẩn bị dữ liệu..................................................................................33
4.2. Xây dựng hàm và thực hiện tính toán..................................................34
4.3. Vẽ biểu đồ ..........................................................................................35
4.4. Xây dựng mô hình và kết quả thử nghiệm...........................................38
KẾT LUẬN...........................................................................................................42
DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN
LUẬN VĂN..........................................................................................................43
TÀI LIỆU THAM KHẢO .....................................................................................445
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
- ADX Average directional index – Chỉ số hướng trung bình
- ANN Artificial Neural Network – Mạng nơron nhân tạo
- b Buy - Tín hiệu mua vào
- BB Bollinger Bands – Chỉ số biên độ biến động giá
- Close Giá đóng cửa
- Date Ngày giao dịch
- DM Data Mining – Khai phá dữ liệu
- EMA Exponential Moving Average – Đường trung bình theo số mũ
- FI Force Index
- GA Genetic Algorithms – Giải thuật di truyền
- h Hold - Tín hiệu giữ lại
- High Giá cao nhất trong ngày
- KDD Knowledge Discovery in Databases – Phát hiện tri chức
- Low Giá thấp nhất trong ngày
- MA Moving Average - Giá trung bình
- MFI Money Flow Index – Chỉ số lưu lượng tiền
- NVI Negative Volume Index
- Open Giá mở cửa
- PCR Put/Call Ratio
- PSAR Parabolic SAR – Chỉ số báo hiệu giá đảo chiều
- ROC Rate of Change – Chỉ số tỷ lệ thay đổi giá
- RSI Relative Strengh Index – Chỉ số sức mạnh tương đối
- s Sell - Tín hiệu bán ra
- SMA Simple Moving Average – Đường trung bình đơn giản
- SVM Support Vector Machine – Máy vectơ hỗ trợ
- TSI True Strength Index
- Volume Khối lượng giao dịch
- VPT Volume–Price Trend
Ket-noi.com kho tai lieu mien phi Ket-noi.com kho tai lieu mien phi6
DANH MỤC CÁC BẢNG
Bảng 1.1: Kiểu dữ liệu chuỗi thời gian..................................................................12
Bảng 2.1: Một số hàm nhân thường dùng..............................................................26
Bảng 3.1: Một số thư viện và ứng dụng của chúng trong R ...................................29
Bảng 4.1: Ma trận thống kê đoán các tín hiệu mua vào, bán ra và giữ lại .........39
Bảng 4.2: Kết quả đoán bằng mô hình ANN ....................................................40
Bảng 4.3: Kết quả đoán bằng mô hình SVM ....................................................407
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1-1: Biểu đồ đường (Line Chart) ..................................................................12
Hình 1-2: Biểu đồ vạch (Bar Chart).......................................................................13
Hình 1-3: Biểu đồ nến (Candlestick Chart)............................................................13
Hình 2-1: Quá trình khai phá tri thức.....................................................................18
Hình 2-2: Mô hình KDD lặp .................................................................................19
Hình 2-3: Kiến trúc điển hình hệ thống khai phá dữ liệu .......................................20
Hình 2-4: Mạng nơron nhân tạo ............................................................................23
Hình 2-5: Sơ đồ quá trình khai phá dữ liệu bằng mạng nơron................................23
Hình 2-6: Mẫu kết quả với kỹ thuật mạng nơron...................................................24
Hình 2-7: Ví dụ về phân lớp trong không gian 2 chiều với SVM...........................25
Hình 2-8: Ví dụ về SVM .......................................................................................26
Hình 3-1: Số liệu thống kê ngôn ngữ dùng phổ biến trong phân tích số liệu..........28
Hình 3-2: Xác xuất phân phối mật độ theo độ tuổi bằng hàm plot .........................31
Hình 3-3: Biểu đồ hình tròn...................................................................................31
Hình 3-4: Biểu đồ hộp...........................................................................................32
Hình 3-5: Biểu đồ cột............................................................................................32
Hình 4-1:Biểu đồ dạng nến Nhật Bản (Candlesticks Chart)...................................36
Hình 4-2: Đường chỉ số giá trung bình (SMA) ......................................................37
Hình 4-3: Đồ thị của hàm Technicals()..................................................................38
Ket-noi.com kho tai lieu mien phi Ket-noi.com kho tai lieu mien phi8
MỞ ĐẦU
Dự báo là một công tác rất quan trọng trong nhiều ngành, trong đó nó đặc biệt
quan trọng với việc quản lý vĩ mô và kinh doanh. Bài toán dự báo chứng khoán ngày
càng được nhiều người quan tâm trong bối cảnh phát triển kinh tế xã hội. Đầu tư vào
thị trường chứng khoán đòi hỏi các nhà đầu tư cần có nhiều kinh nghiệm và hiểu biết
về thị trường chứng khoán. Những người am hiểu về thị trường và xu thế của thị
trường sẽ thu được những lợi nhuận lớn từ sàn giao dịch chứng khoán. Tuy
nhiên, những người không nắm bắt được xu thế này có thể sẽ phải đối mặt với sự
khủng hoảng thậm chí phá sản. Bên cạnh đó, có những nhà đầu tư có lợi nhuận
nhưng họ không nhận ra rằng họ có thể thu lợi nhiều hơn nữa nếu họ đoán được
giá của thị trường sẽ thay đổi thế nào. Ngày nay, ngoài kinh nghiệm của nhà đầu tư,
các kĩ thuật khai phá dữ liệu được áp dụng khá nhiều nhằm dự báo sự lên xuống của
thị trường. Đó là một gợi ý quan trọng, giúp các nhà đầu tư có thể ra quyết định giao
dịch.
Theo lý thuyết phân tích chứng khoán (Chartist theory) thì ta có thể dự đoán
được xu thế của thị trường chứng khoán dựa vào quá khứ. Hay nói cách khác, từ tập
dữ liệu lịch sử giao dịch của chứng khoán, bằng các phương pháp khai tri thức liệu
chúng ta có thể dự báo được xu thế giá sắp tới trong tương lai sẽ tăng/giảm hay ổn
định. Khai phá tri thức là vấn đề nghiên cứu thời sự trong thời gian gần đây, đã
thu hút nhiều nhà khoa học trên thế giới tiến hành nghiên cứu, đề xuất các mô hình,
phương pháp mới nhằm tạo ra các công cụ hiệu quả hỗ trợ người dùng trong việc
tổng hợp, phân tích thông tin và tìm kiếm các tri thức tiền ẩn từ tập dữ liệu thông tin
trong lịch sử. Để nhận định xu hướng giá chứng khoán trong tương lai, các nhà phân
tích kỹ thuật thường dựa vào các đường chỉ số dự báo. Trên thế giới, có nhiều công
trình của các nhà nghiên cứu hàng đầu đã đưa ra các đường chỉ số dự báo khác nhau,
mỗi đường chỉ số có ý nghĩa nhất định. Việc kết hợp tốt các đường chỉ số này sẽ cho
ra một kết quả rất chính xác hơn về dự báo xu thế giá chứng khoán trong tương lai.
Ngày nay, các kỹ thuật học máy liên tục được cải tiến và ứng dụng vào bài
toán khai phá dữ liệu cụ thể. Trong nghiên cứu này, chúng tui đã ứng dụng các kỹ
thuật học máy tiên tiến như mạng nơron nhân tạo (ANN) , máy véctơ hỗ trợ (SVM)
vào bài toán dự báo chứng khoán dựa trên tập dữ liệu lịch sử giá. Tập dữ liệu này9
được lấy trực tiếp trên Yahoo Finance từ năm 1970 tới nay để thử nghiệm với chỉ số
chứng khoán S&P500.
Với sự phát triển không ngừng của ngôn ngữ lập trình, chúng ta có thể triển
khai ứng dụng thử nghiệm bằng nhiều loại ngôn ngữ lập trình khác nhau. Mỗi ngôn
ngữ lập trình có những thế phát triển nhất định cho lớp bài toán cụ thể. Trong khai phá
dữ liệu thì ngôn ngữ R được ứng dụng rộng rãi trong những năm gần đây do những
ưu điểm vượt trội của nó trong phân tích số liệu. Hơn nữa, đây là ngôn ngữ mã nguồn
mở có nhiều thư viện hỗ trợ cho việc phân tích số liệu. Trong nghiên cứu này, chúng
ta sẽ ứng dụng ngôn ngữ R để xây dựng chương trình đoán và tiến hành thử
nghiệm trên chứng khoán S&P500.
Ngoài phần Mở đầu, Kết luận và các Phụ lục, nội dung luận văn được chia
làm 4 chương chính:
Chương 1. Bài toán phân tích chứng khoán: chương này giới thiệu những
nội dung cơ bản nhất về bài toán phân tích chứng khoán. Các kỹ thuật thường được
áp dụng trong phân tích kỹ thuật và các chỉ số liên quan.
Chương 2. Khai phá dữ liệu và phát hiện tri thức: chương này cung cấp
cái nhìn tổng quát về khai phá dữ liệu, các kỹ thuật tiên tiến trong học máy.
Chương 3. Ngôn ngữ R và ứng dụng: chương này trình bày tổng quan về
ngôn ngữ R, một số ứng dụng của ngôn ngữ R trong phân tích số liệu, vẽ biểu đồ.
Chương 4. Xây dựng chương trình và đánh giá: chương này trình bày quá
trình xây dựng chương trình bằng ngôn ngữ R cho bài toán phân tích chứng khoán
và kết quả thử nghiệm trên chứng khoán S&P500.
Phần Kết luận trình bày tổng hợp các kết quả nghiên cứu của luận văn và
định hướng nghiên cứu tiếp theo.
Luận văn đã đạt được một số kết quả khả quan trong việc nghiên cứu kỹ thuật
học máy và ứng dụng ngôn ngữ R để xây dựng chương trình thử nghiệm cho bài
toán đoán chứng khoán. Tuy nhiên, luận văn không tránh khỏi những thiếu sót,
rất mong nhận được sự đóng góp ý kiến, nhận xét để chúng tui tiếp tục hoàn thiện
và nâng cao kết quả nghiên cứu.
Ket-noi.com kho tai lieu mien phi Ket-noi.com kho tai lieu mien phi10
Chương 1. BÀI TOÁN PHÂN TÍCH CHỨNG KHOÁN
1.1. Tổng quan về dự báo
Thuật ngữ dự báo có nguồn gốc từ tiếng Hy Lạp “Pro” (có nghĩa là trước) và
“grosis” (có nghĩa là biết), “progrosis” nghĩa là biết trước. Từ nhiều thế kỷ trước
người ta đã tiến hành tiên đoán về tương lai. Có thể phân biệt 3 loại tiên đoán:
Tiên đoán không khoa học: đó là các tiên đoán không có cơ sở khoa học,
thường dựa trên tính tưởng tượng, phi hiện thực.
Tiên đoán kinh nghiêm: các tiên đoán dựa trên kinh nghiệm thực tế. Loại tiên
đoán này ít nhiều có cơ sở nhưng lại không giải thích được sự vận động của đối
tượng và đa số mới chỉ dừng lại ở mức độ định tính, không định lượng được.
Tiên đoán khoa học: đây là tiên đoán dựa trên cơ sở khoa học được chứng
minh tính đúng đắn. Nó dựa trên việc phân tích tính quy luật phát triển của đối tượng
dự báo và các điều kiện ban đầu với tư cách như là các giả thiết. Tiên đoán khoa học
là kết quả của sự kết hợp giữa những phân tích định tính và những phân tích định
lượng các quá trình cần dự báo. Chỉ có dự báo khoa học mới đảm bảo độ tin cậy cao
và là cơ sở vững chắc cho việc thông qua các quyết định quản lý khoa học.
Như vậy có thể hiểu dự báo là sự tiên đoán có khoa học có xác suất nhất định.
Nghĩa rằng không phải bao giờ dự báo cũng đúng đắn hoàn toàn mà nó mang tính
xác suất. Mỗi đối tượng dự báo đều vận động theo một quy luật, quỹ đạo nào đó,
đồng thời trong quá trình vận động nó luôn chịu sự tác động của các yếu tố bên ngoài
(môi trường xung quanh). Bản thân các yếu tố tác động cũng luôn vận động không
ngừng. Vì vậy dù trình độ dự báo có hoàn thiện đến đâu cũng không thể chắc chắn
rằng kết quả của dự báo là hoàn toàn chính xác. Hay nói một cách khác dự báo bao
giờ cũng mang tính xác suất. Mặc dù mang tính xác suất nhưng dự báo là đáng tin
cậy vì nó dựa trên những cơ sở khoa học. Cùng với sự phát triển không ngừng của
khoa học kỹ thuật, độ tin cậy của dự báo cũng không ngừng được nâng cao. Mỗi dự
báo được thực hiện trên những giả thiết nhất định. Với mỗi giả thiết khác nhau, kết
quả của dự báo cũng sẽ khác nhau. Như vậy, dự báo mang tính đa phương án. Tính
đa phương án giúp cho việc ra quyết định trở nên linh hoạt hơn, dễ thích nghi với sự
biến đổi vô cùng phức tạp của tình hình thực tế.11
1.2. Bài toán phân tích chứng khoán
Phân tích chứng khoán đã trở thành công việc hết sức quan trọng mà các nhà
đầu tư chứng khoán cần thực hiện để có được quyết định đầu tư thích hợp. Từ kết
quả phân tích, người đầu tư chứng khoán sẽ quyết định khi nào thì mua vào, khi nào
thì bán ra, khi nào thì giữ lại và nên đầu tư vào doanh nghiệp nào. Có hai phương
pháp phân tích được sử dụng phổ biến hiện nay ở hầu hết các thị trường chứng khoán
trên thế giới, đó là phân tích cơ bản và phân tích kỹ thuật.
Phân tích cơ bản (Fundamental Analysis): là phương pháp phân tích chứng
khoán dựa trên các nhân tố mang tính chất nền tảng có tác động hay là nguyên nhân
dẫn tới sự thay đổi giá của chứng khoán nhằm chỉ ra giá trị nội tại (intrinsic value)
của chứng khoán trên thị trường. Các nhân tố cần chú trọng trong phân tích cơ bản
là: hoạt động kinh doanh của công ty, mục tiêu và nhiệm vụ của công ty, khả năng
lợi nhuận (hiện tại và ước đoán), kết quả sản xuất kinh doanh, chất lượng quản lý,
sức ép cạnh tranh, chính sách giá cả, vị thế,…
Phân tích kỹ thuật (Technical Analysis) [1]: sử dụng các mô hình toán học (đồ
thị, biến đổi miền, xác suất thống kê, dãy đại số,…) dựa trên dữ liệu thu thập về thị
trường trong quá khứ và hiện tại để chỉ ra trạng thái của thị trường trong một thời
điểm xác định, thông thường là nhận định xu hướng thị trường. Phân tích kỹ thuật
không để ý đến các chỉ số tài chính, tình hình phát triển của doanh nghiệp hay các
thông tin về thị trường mà chỉ chú trọng vào việc tập hợp các dữ liệu về giá cả, khối
lượng giao dịch và các tiêu chí khác của chứng khoán thu thập được từ các phiên
giao dịch trong quá khứ.
Các kỹ thuật phân tích cho thấy rằng giá trong lịch sử và các chỉ số khác có
thể tiết lộ mối tương quan và các mô hình biến động giá chứng khoán, do đó có thể
đoán giá chứng khoán trong tương lai. Trong những năm gần đây, nhiều kỹ thuật
tiên tiến như giải thuật di truyền (GA), máy véctơ hỗ trợ (SVM), mạng nơron nhân
tạo (ANN) đã hỗ trợ tốt việc phân tích và học mẫu hơn. Theo Mackinlay, giá chứng
khoán có mối tương quan nhạy cảm với tin tức và các sự kiện mang lại thông tin
cho thị trường chứng khoán (kể cả các tin tức thời sự, kinh tế, chính trị, thời tiết…đều
ảnh hưởng tới thị trường chứng khoán). Với hướng tiếp cận này, sử dụng các kỹ
thuật học máy và khai phá dữ liệu để tìm ra mối tương quan giữa giá trong quá khứ
và xu hướng giá trong tương lai.
Khi áp dụng mạng nơron ta thấy kết quả Precision tương đối tốt, nhưng Recall
lại chưa cao nên F-measure chưa cao. Khi áp dụng mạng véctơ hỗ trợ kết quả
Precision & Recall và F-measure khả quan hơn rất nhiều. Qua đó nhận thấy, với bài
toán đoán bằng phương pháp này thì áp dụng SVM cho kết quả tốt hơn khi áp
dụng ANN.
Tuy nhiên, kết quả đoán trên chỉ mang tính chất hỗ trợ cho các chuyên gia
phân tích chứng khoán, chuyên gia về thị trường và tài chính tham khảo để đưa ra41
quyết định tốt hơn. Chưa thể áp dụng nguyên kết quả đó để quyết định giao dịch
mua/bán ngay, vì giá chứng khoán còn phụ thuộc vào nhiều yếu tố khác (như trong
phân tích cơ bản đã chỉ ra). Nghiên cứu này, chúng tui chưa đề cập tới ảnh hưởng
của kinh tế vĩ mô nói chung, của thực trạng công ty nói riêng, cũng như các tác động
của chính trị xã hội vào chứng khoán. Trong thời gian tới, chúng tui tiếp tục phân
tích đánh giá theo hướng nghiên cứu xu thế dựa trên mạng xã hỗi (blog, facebook,
twitter…) để có dự báo chính xác hơn.
Ket-noi.com kho tai lieu mien phi Ket-noi.com kho tai lieu mien phi42
KẾT LUẬN
Luận văn cung cấp một số nội dung về khai phá dữ liệu và học máy, đã đạt
được một số kết quả như sau:
- Giới thiệu khái quát về dự báo và bài toán đoán chứng khoán; trong đó
chú ý tới phương pháp phân tích kỹ thuật trong đoán chứng khoán.
- Nghiên cứu các kỹ thuật khai phá dữ liệu và các kỹ thuật học máy; luận
văn đã ứng dụng 2 phương pháp học máy tiên tiến là mạng nơron nhân tạo
và máy hỗ trợ véctơ cho lớp bài toán đoán chứng khoán.
- Nghiên cứu, ứng dụng ngôn ngữ R để xây dựng phần mềm thử nghiệm dự
đoán chứng khoán theo 2 kỹ thuật học máy ở trên. Kết quả có độ chính xác
tương đối cao, tuy nhiên, cũng chưa thể lấy kết quả đó để ra quyết định
mua/bán chứng khoán ngay. Trên thực tế, giá chứng khoán còn phục thuộc
vào nhiều yếu tố kinh tế, chính trị và lịch sử khác. Kết quả này sẽ là một
tham khảo quan trọng cho các nhà phân tích thị trường, phân tích chứng
khoán, các nhà đầu tư có thêm cơ sở khoa học để ra quyết sách trong đầu
tư phù hợp.
- Nghiên cứu này đã mở ra một hướng đi mới trong phân tích chứng khoán
trên ngôn ngữ R.
Trong thời gian tới, chúng tui tiếp tục cải thiện hàm đoán và kết hợp với
khai phá dữ liệu trên mạng xã hội để có kết quả tốt hơn. Đặc biệt, chúng tui định
hướng nghiên cứu cho chứng khoán Việt Nam để áp dụng được trong nước và mang
lại những ý nghĩa thiết thực hơn nữa
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:
Nhà xuất bản: Đại học Công nghệ
Ngày: 2013
Chủ đề: Khai phá dữ liệu
Hệ thống thông tin
Ngôn ngữ R
Miêu tả: Giới thiệu những nội dung cơ bản nhất về bài toán phân tích chứng khoán. Các kỹ thuật thường được áp dụng trong phân tích kỹ thuật và các chỉ số liên quan. Khai phá dữ liệu và phát hiện tri thức. Trình bày tổng quan về ngôn ngữ R, một số ứng dụng của ngôn ngữ R trong phân tích số liệu, vẽ biểu đồ. Xây dựng chương trình đánh giá, trình bày quá trình xây dựng chương trình bằng ngôn ngữ R cho bài toán phân tích chứng khoán và kết quả thử nghiệm trên chứng khoán S&P500.
MỤC LỤC ..............................................................................................................4
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT...............................................5
DANH MỤC CÁC BẢNG......................................................................................6
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ ..................................................................7
MỞ ĐẦU ................................................................................................................8
Chương 1. BÀI TOÁN PHÂN TÍCH CHỨNG KHOÁN...................................10
1.1. Tổng quan về dự báo...........................................................................10
1.2. Bài toán phân tích chứng khoán ..........................................................11
Chương 2. KHAI PHÁ DỮ LIỆU VÀ PHÁT HIỆN TRI THỨC.......................16
2.1. Khai phá dữ liệu..................................................................................16
2.2. Mô hình mạng nơron nhân tạo ............................................................22
2.3. Mô hình máy véctơ hỗ trợ...................................................................25
Chương 3. NGÔN NGỮ R VÀ ỨNG DỤNG....................................................27
3.1. Tổng quan về ngôn ngữ R...................................................................27
3.2. Ứng dụng ngôn ngữ R.........................................................................28
Chương 4. XÂY DỰNG CHƯƠNG TRÌNH VÀ ĐÁNH GIÁ...........................33
4.1. Chuẩn bị dữ liệu..................................................................................33
4.2. Xây dựng hàm và thực hiện tính toán..................................................34
4.3. Vẽ biểu đồ ..........................................................................................35
4.4. Xây dựng mô hình và kết quả thử nghiệm...........................................38
KẾT LUẬN...........................................................................................................42
DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN
LUẬN VĂN..........................................................................................................43
TÀI LIỆU THAM KHẢO .....................................................................................445
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
- ADX Average directional index – Chỉ số hướng trung bình
- ANN Artificial Neural Network – Mạng nơron nhân tạo
- b Buy - Tín hiệu mua vào
- BB Bollinger Bands – Chỉ số biên độ biến động giá
- Close Giá đóng cửa
- Date Ngày giao dịch
- DM Data Mining – Khai phá dữ liệu
- EMA Exponential Moving Average – Đường trung bình theo số mũ
- FI Force Index
- GA Genetic Algorithms – Giải thuật di truyền
- h Hold - Tín hiệu giữ lại
- High Giá cao nhất trong ngày
- KDD Knowledge Discovery in Databases – Phát hiện tri chức
- Low Giá thấp nhất trong ngày
- MA Moving Average - Giá trung bình
- MFI Money Flow Index – Chỉ số lưu lượng tiền
- NVI Negative Volume Index
- Open Giá mở cửa
- PCR Put/Call Ratio
- PSAR Parabolic SAR – Chỉ số báo hiệu giá đảo chiều
- ROC Rate of Change – Chỉ số tỷ lệ thay đổi giá
- RSI Relative Strengh Index – Chỉ số sức mạnh tương đối
- s Sell - Tín hiệu bán ra
- SMA Simple Moving Average – Đường trung bình đơn giản
- SVM Support Vector Machine – Máy vectơ hỗ trợ
- TSI True Strength Index
- Volume Khối lượng giao dịch
- VPT Volume–Price Trend
Ket-noi.com kho tai lieu mien phi Ket-noi.com kho tai lieu mien phi6
DANH MỤC CÁC BẢNG
Bảng 1.1: Kiểu dữ liệu chuỗi thời gian..................................................................12
Bảng 2.1: Một số hàm nhân thường dùng..............................................................26
Bảng 3.1: Một số thư viện và ứng dụng của chúng trong R ...................................29
Bảng 4.1: Ma trận thống kê đoán các tín hiệu mua vào, bán ra và giữ lại .........39
Bảng 4.2: Kết quả đoán bằng mô hình ANN ....................................................40
Bảng 4.3: Kết quả đoán bằng mô hình SVM ....................................................407
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
Hình 1-1: Biểu đồ đường (Line Chart) ..................................................................12
Hình 1-2: Biểu đồ vạch (Bar Chart).......................................................................13
Hình 1-3: Biểu đồ nến (Candlestick Chart)............................................................13
Hình 2-1: Quá trình khai phá tri thức.....................................................................18
Hình 2-2: Mô hình KDD lặp .................................................................................19
Hình 2-3: Kiến trúc điển hình hệ thống khai phá dữ liệu .......................................20
Hình 2-4: Mạng nơron nhân tạo ............................................................................23
Hình 2-5: Sơ đồ quá trình khai phá dữ liệu bằng mạng nơron................................23
Hình 2-6: Mẫu kết quả với kỹ thuật mạng nơron...................................................24
Hình 2-7: Ví dụ về phân lớp trong không gian 2 chiều với SVM...........................25
Hình 2-8: Ví dụ về SVM .......................................................................................26
Hình 3-1: Số liệu thống kê ngôn ngữ dùng phổ biến trong phân tích số liệu..........28
Hình 3-2: Xác xuất phân phối mật độ theo độ tuổi bằng hàm plot .........................31
Hình 3-3: Biểu đồ hình tròn...................................................................................31
Hình 3-4: Biểu đồ hộp...........................................................................................32
Hình 3-5: Biểu đồ cột............................................................................................32
Hình 4-1:Biểu đồ dạng nến Nhật Bản (Candlesticks Chart)...................................36
Hình 4-2: Đường chỉ số giá trung bình (SMA) ......................................................37
Hình 4-3: Đồ thị của hàm Technicals()..................................................................38
Ket-noi.com kho tai lieu mien phi Ket-noi.com kho tai lieu mien phi8
MỞ ĐẦU
Dự báo là một công tác rất quan trọng trong nhiều ngành, trong đó nó đặc biệt
quan trọng với việc quản lý vĩ mô và kinh doanh. Bài toán dự báo chứng khoán ngày
càng được nhiều người quan tâm trong bối cảnh phát triển kinh tế xã hội. Đầu tư vào
thị trường chứng khoán đòi hỏi các nhà đầu tư cần có nhiều kinh nghiệm và hiểu biết
về thị trường chứng khoán. Những người am hiểu về thị trường và xu thế của thị
trường sẽ thu được những lợi nhuận lớn từ sàn giao dịch chứng khoán. Tuy
nhiên, những người không nắm bắt được xu thế này có thể sẽ phải đối mặt với sự
khủng hoảng thậm chí phá sản. Bên cạnh đó, có những nhà đầu tư có lợi nhuận
nhưng họ không nhận ra rằng họ có thể thu lợi nhiều hơn nữa nếu họ đoán được
giá của thị trường sẽ thay đổi thế nào. Ngày nay, ngoài kinh nghiệm của nhà đầu tư,
các kĩ thuật khai phá dữ liệu được áp dụng khá nhiều nhằm dự báo sự lên xuống của
thị trường. Đó là một gợi ý quan trọng, giúp các nhà đầu tư có thể ra quyết định giao
dịch.
Theo lý thuyết phân tích chứng khoán (Chartist theory) thì ta có thể dự đoán
được xu thế của thị trường chứng khoán dựa vào quá khứ. Hay nói cách khác, từ tập
dữ liệu lịch sử giao dịch của chứng khoán, bằng các phương pháp khai tri thức liệu
chúng ta có thể dự báo được xu thế giá sắp tới trong tương lai sẽ tăng/giảm hay ổn
định. Khai phá tri thức là vấn đề nghiên cứu thời sự trong thời gian gần đây, đã
thu hút nhiều nhà khoa học trên thế giới tiến hành nghiên cứu, đề xuất các mô hình,
phương pháp mới nhằm tạo ra các công cụ hiệu quả hỗ trợ người dùng trong việc
tổng hợp, phân tích thông tin và tìm kiếm các tri thức tiền ẩn từ tập dữ liệu thông tin
trong lịch sử. Để nhận định xu hướng giá chứng khoán trong tương lai, các nhà phân
tích kỹ thuật thường dựa vào các đường chỉ số dự báo. Trên thế giới, có nhiều công
trình của các nhà nghiên cứu hàng đầu đã đưa ra các đường chỉ số dự báo khác nhau,
mỗi đường chỉ số có ý nghĩa nhất định. Việc kết hợp tốt các đường chỉ số này sẽ cho
ra một kết quả rất chính xác hơn về dự báo xu thế giá chứng khoán trong tương lai.
Ngày nay, các kỹ thuật học máy liên tục được cải tiến và ứng dụng vào bài
toán khai phá dữ liệu cụ thể. Trong nghiên cứu này, chúng tui đã ứng dụng các kỹ
thuật học máy tiên tiến như mạng nơron nhân tạo (ANN) , máy véctơ hỗ trợ (SVM)
vào bài toán dự báo chứng khoán dựa trên tập dữ liệu lịch sử giá. Tập dữ liệu này9
được lấy trực tiếp trên Yahoo Finance từ năm 1970 tới nay để thử nghiệm với chỉ số
chứng khoán S&P500.
Với sự phát triển không ngừng của ngôn ngữ lập trình, chúng ta có thể triển
khai ứng dụng thử nghiệm bằng nhiều loại ngôn ngữ lập trình khác nhau. Mỗi ngôn
ngữ lập trình có những thế phát triển nhất định cho lớp bài toán cụ thể. Trong khai phá
dữ liệu thì ngôn ngữ R được ứng dụng rộng rãi trong những năm gần đây do những
ưu điểm vượt trội của nó trong phân tích số liệu. Hơn nữa, đây là ngôn ngữ mã nguồn
mở có nhiều thư viện hỗ trợ cho việc phân tích số liệu. Trong nghiên cứu này, chúng
ta sẽ ứng dụng ngôn ngữ R để xây dựng chương trình đoán và tiến hành thử
nghiệm trên chứng khoán S&P500.
Ngoài phần Mở đầu, Kết luận và các Phụ lục, nội dung luận văn được chia
làm 4 chương chính:
Chương 1. Bài toán phân tích chứng khoán: chương này giới thiệu những
nội dung cơ bản nhất về bài toán phân tích chứng khoán. Các kỹ thuật thường được
áp dụng trong phân tích kỹ thuật và các chỉ số liên quan.
Chương 2. Khai phá dữ liệu và phát hiện tri thức: chương này cung cấp
cái nhìn tổng quát về khai phá dữ liệu, các kỹ thuật tiên tiến trong học máy.
Chương 3. Ngôn ngữ R và ứng dụng: chương này trình bày tổng quan về
ngôn ngữ R, một số ứng dụng của ngôn ngữ R trong phân tích số liệu, vẽ biểu đồ.
Chương 4. Xây dựng chương trình và đánh giá: chương này trình bày quá
trình xây dựng chương trình bằng ngôn ngữ R cho bài toán phân tích chứng khoán
và kết quả thử nghiệm trên chứng khoán S&P500.
Phần Kết luận trình bày tổng hợp các kết quả nghiên cứu của luận văn và
định hướng nghiên cứu tiếp theo.
Luận văn đã đạt được một số kết quả khả quan trong việc nghiên cứu kỹ thuật
học máy và ứng dụng ngôn ngữ R để xây dựng chương trình thử nghiệm cho bài
toán đoán chứng khoán. Tuy nhiên, luận văn không tránh khỏi những thiếu sót,
rất mong nhận được sự đóng góp ý kiến, nhận xét để chúng tui tiếp tục hoàn thiện
và nâng cao kết quả nghiên cứu.
Ket-noi.com kho tai lieu mien phi Ket-noi.com kho tai lieu mien phi10
Chương 1. BÀI TOÁN PHÂN TÍCH CHỨNG KHOÁN
1.1. Tổng quan về dự báo
Thuật ngữ dự báo có nguồn gốc từ tiếng Hy Lạp “Pro” (có nghĩa là trước) và
“grosis” (có nghĩa là biết), “progrosis” nghĩa là biết trước. Từ nhiều thế kỷ trước
người ta đã tiến hành tiên đoán về tương lai. Có thể phân biệt 3 loại tiên đoán:
Tiên đoán không khoa học: đó là các tiên đoán không có cơ sở khoa học,
thường dựa trên tính tưởng tượng, phi hiện thực.
Tiên đoán kinh nghiêm: các tiên đoán dựa trên kinh nghiệm thực tế. Loại tiên
đoán này ít nhiều có cơ sở nhưng lại không giải thích được sự vận động của đối
tượng và đa số mới chỉ dừng lại ở mức độ định tính, không định lượng được.
Tiên đoán khoa học: đây là tiên đoán dựa trên cơ sở khoa học được chứng
minh tính đúng đắn. Nó dựa trên việc phân tích tính quy luật phát triển của đối tượng
dự báo và các điều kiện ban đầu với tư cách như là các giả thiết. Tiên đoán khoa học
là kết quả của sự kết hợp giữa những phân tích định tính và những phân tích định
lượng các quá trình cần dự báo. Chỉ có dự báo khoa học mới đảm bảo độ tin cậy cao
và là cơ sở vững chắc cho việc thông qua các quyết định quản lý khoa học.
Như vậy có thể hiểu dự báo là sự tiên đoán có khoa học có xác suất nhất định.
Nghĩa rằng không phải bao giờ dự báo cũng đúng đắn hoàn toàn mà nó mang tính
xác suất. Mỗi đối tượng dự báo đều vận động theo một quy luật, quỹ đạo nào đó,
đồng thời trong quá trình vận động nó luôn chịu sự tác động của các yếu tố bên ngoài
(môi trường xung quanh). Bản thân các yếu tố tác động cũng luôn vận động không
ngừng. Vì vậy dù trình độ dự báo có hoàn thiện đến đâu cũng không thể chắc chắn
rằng kết quả của dự báo là hoàn toàn chính xác. Hay nói một cách khác dự báo bao
giờ cũng mang tính xác suất. Mặc dù mang tính xác suất nhưng dự báo là đáng tin
cậy vì nó dựa trên những cơ sở khoa học. Cùng với sự phát triển không ngừng của
khoa học kỹ thuật, độ tin cậy của dự báo cũng không ngừng được nâng cao. Mỗi dự
báo được thực hiện trên những giả thiết nhất định. Với mỗi giả thiết khác nhau, kết
quả của dự báo cũng sẽ khác nhau. Như vậy, dự báo mang tính đa phương án. Tính
đa phương án giúp cho việc ra quyết định trở nên linh hoạt hơn, dễ thích nghi với sự
biến đổi vô cùng phức tạp của tình hình thực tế.11
1.2. Bài toán phân tích chứng khoán
Phân tích chứng khoán đã trở thành công việc hết sức quan trọng mà các nhà
đầu tư chứng khoán cần thực hiện để có được quyết định đầu tư thích hợp. Từ kết
quả phân tích, người đầu tư chứng khoán sẽ quyết định khi nào thì mua vào, khi nào
thì bán ra, khi nào thì giữ lại và nên đầu tư vào doanh nghiệp nào. Có hai phương
pháp phân tích được sử dụng phổ biến hiện nay ở hầu hết các thị trường chứng khoán
trên thế giới, đó là phân tích cơ bản và phân tích kỹ thuật.
Phân tích cơ bản (Fundamental Analysis): là phương pháp phân tích chứng
khoán dựa trên các nhân tố mang tính chất nền tảng có tác động hay là nguyên nhân
dẫn tới sự thay đổi giá của chứng khoán nhằm chỉ ra giá trị nội tại (intrinsic value)
của chứng khoán trên thị trường. Các nhân tố cần chú trọng trong phân tích cơ bản
là: hoạt động kinh doanh của công ty, mục tiêu và nhiệm vụ của công ty, khả năng
lợi nhuận (hiện tại và ước đoán), kết quả sản xuất kinh doanh, chất lượng quản lý,
sức ép cạnh tranh, chính sách giá cả, vị thế,…
Phân tích kỹ thuật (Technical Analysis) [1]: sử dụng các mô hình toán học (đồ
thị, biến đổi miền, xác suất thống kê, dãy đại số,…) dựa trên dữ liệu thu thập về thị
trường trong quá khứ và hiện tại để chỉ ra trạng thái của thị trường trong một thời
điểm xác định, thông thường là nhận định xu hướng thị trường. Phân tích kỹ thuật
không để ý đến các chỉ số tài chính, tình hình phát triển của doanh nghiệp hay các
thông tin về thị trường mà chỉ chú trọng vào việc tập hợp các dữ liệu về giá cả, khối
lượng giao dịch và các tiêu chí khác của chứng khoán thu thập được từ các phiên
giao dịch trong quá khứ.
Các kỹ thuật phân tích cho thấy rằng giá trong lịch sử và các chỉ số khác có
thể tiết lộ mối tương quan và các mô hình biến động giá chứng khoán, do đó có thể
đoán giá chứng khoán trong tương lai. Trong những năm gần đây, nhiều kỹ thuật
tiên tiến như giải thuật di truyền (GA), máy véctơ hỗ trợ (SVM), mạng nơron nhân
tạo (ANN) đã hỗ trợ tốt việc phân tích và học mẫu hơn. Theo Mackinlay, giá chứng
khoán có mối tương quan nhạy cảm với tin tức và các sự kiện mang lại thông tin
cho thị trường chứng khoán (kể cả các tin tức thời sự, kinh tế, chính trị, thời tiết…đều
ảnh hưởng tới thị trường chứng khoán). Với hướng tiếp cận này, sử dụng các kỹ
thuật học máy và khai phá dữ liệu để tìm ra mối tương quan giữa giá trong quá khứ
và xu hướng giá trong tương lai.
Khi áp dụng mạng nơron ta thấy kết quả Precision tương đối tốt, nhưng Recall
lại chưa cao nên F-measure chưa cao. Khi áp dụng mạng véctơ hỗ trợ kết quả
Precision & Recall và F-measure khả quan hơn rất nhiều. Qua đó nhận thấy, với bài
toán đoán bằng phương pháp này thì áp dụng SVM cho kết quả tốt hơn khi áp
dụng ANN.
Tuy nhiên, kết quả đoán trên chỉ mang tính chất hỗ trợ cho các chuyên gia
phân tích chứng khoán, chuyên gia về thị trường và tài chính tham khảo để đưa ra41
quyết định tốt hơn. Chưa thể áp dụng nguyên kết quả đó để quyết định giao dịch
mua/bán ngay, vì giá chứng khoán còn phụ thuộc vào nhiều yếu tố khác (như trong
phân tích cơ bản đã chỉ ra). Nghiên cứu này, chúng tui chưa đề cập tới ảnh hưởng
của kinh tế vĩ mô nói chung, của thực trạng công ty nói riêng, cũng như các tác động
của chính trị xã hội vào chứng khoán. Trong thời gian tới, chúng tui tiếp tục phân
tích đánh giá theo hướng nghiên cứu xu thế dựa trên mạng xã hỗi (blog, facebook,
twitter…) để có dự báo chính xác hơn.
Ket-noi.com kho tai lieu mien phi Ket-noi.com kho tai lieu mien phi42
KẾT LUẬN
Luận văn cung cấp một số nội dung về khai phá dữ liệu và học máy, đã đạt
được một số kết quả như sau:
- Giới thiệu khái quát về dự báo và bài toán đoán chứng khoán; trong đó
chú ý tới phương pháp phân tích kỹ thuật trong đoán chứng khoán.
- Nghiên cứu các kỹ thuật khai phá dữ liệu và các kỹ thuật học máy; luận
văn đã ứng dụng 2 phương pháp học máy tiên tiến là mạng nơron nhân tạo
và máy hỗ trợ véctơ cho lớp bài toán đoán chứng khoán.
- Nghiên cứu, ứng dụng ngôn ngữ R để xây dựng phần mềm thử nghiệm dự
đoán chứng khoán theo 2 kỹ thuật học máy ở trên. Kết quả có độ chính xác
tương đối cao, tuy nhiên, cũng chưa thể lấy kết quả đó để ra quyết định
mua/bán chứng khoán ngay. Trên thực tế, giá chứng khoán còn phục thuộc
vào nhiều yếu tố kinh tế, chính trị và lịch sử khác. Kết quả này sẽ là một
tham khảo quan trọng cho các nhà phân tích thị trường, phân tích chứng
khoán, các nhà đầu tư có thêm cơ sở khoa học để ra quyết sách trong đầu
tư phù hợp.
- Nghiên cứu này đã mở ra một hướng đi mới trong phân tích chứng khoán
trên ngôn ngữ R.
Trong thời gian tới, chúng tui tiếp tục cải thiện hàm đoán và kết hợp với
khai phá dữ liệu trên mạng xã hội để có kết quả tốt hơn. Đặc biệt, chúng tui định
hướng nghiên cứu cho chứng khoán Việt Nam để áp dụng được trong nước và mang
lại những ý nghĩa thiết thực hơn nữa
Do Drive thay đổi chính sách, nên một số link cũ yêu cầu duyệt download. các bạn chỉ cần làm theo hướng dẫn.
Password giải nén nếu cần: ket-noi.com | Bấm trực tiếp vào Link để tải:
You must be registered for see links
Last edited by a moderator: