Một thuật toán học tạo cây quyết định cho bài toán phân lớp dữ liệu

Authors

  • Lê Văn Tường Lân Trường Đại học Khoa học
  • Nguyễn Mậu Hân Trường Đại học Khoa học
  • Nguyễn Công Hào Trung tân CNTT-ĐHH

Abstract

Tóm tắt: Cây quyết định là một trong những giải pháp trực quan và hữu hiệu để mô tả quá trình phân lớp dữ liệu. Cho đến nay đã có nhiều kết quả đã được công bố về vấn đề này như các thuật toán ID3, C4.5, SLIQ, SPRINT. Tuy nhiên, do tính chất phức tạp của mẫu huấn luyện nên việc phân chia theo k-phân của thuật toán C4.5, nhị phân theo kiểu tập hợp của thuật toán SLIQ hay nhị phân theo giá trị của thuật toán SPRINT không thu được kết quả tốt trong khá nhiều trường hợp. Bài báo này đề xuất một thuật toán tổng hợp để việc tạo ra cây đạt kết quả tốt hơn.

Từ khóa-C4.5;SLIQ;SPRINT; khai phá dữ liệu, phát hiện tri thức; cây quyết định; mẫu huấn luyện.

Author Biographies

Lê Văn Tường Lân, Trường Đại học Khoa học

Bộ môn Công nghệ Phần mềm

Nguyễn Mậu Hân, Trường Đại học Khoa học

Trưởng Bộ môn Công nghệ Phần mềm

Nguyễn Công Hào, Trung tân CNTT-ĐHH

Giám đốc Trung tâm

References

Đoàn Văn Ban, Lê Mạnh Thạnh, Lê Văn Tường Lân, “Một cách chọn mẫu huấn luyện và thuật toán toán học để xây dựng cây quyết định trong khai phá dữ liệu”, Tạp chí Tin học và Điều khiển học, T23, S4, 2007.

Lê Văn Tường Lân, “Phụ thuộc dữ liệu và tác động của nó đối với bài toán phân lớp của khai phá dữ liệu”, Tạp chí khoa học Đại học Huế, Tập:19, Số:53, 2009.

Ho Tu Bao, “Introduction to Knowledge Discovery and Data Mining”, Institute of Information Technology, National Center for Natural Science and Technology, 2000.

J. Gehrke and W. Loh, “Advances in Decision Tree Construction”, KDD, 2001.

Manish Mehta, Jorma Rissanen, Rakesh Agrawal, ” SLIQ: A Fast Scalable Classifier for Data Mining”, IBM Almaden Reseach Center, 1996.

Manish Mehta, Jorma Rissanen, Rakesh Agrawal, “SPRINT: A Fast Scalable Classifier for Data Mining”, IBM Almaden Reseach Center, 1996.

Lior Rokach, Oded Z. Maimon, “Data mining with decision trees: theory and applications”, Machine perception & artifiacal intelligence V69, World Scientific Co, Pte.Ltd, 2008.

Salvatore Ruggieri, “Efficient C4.5”, University Di Pisa, 2000.

Zhang, J. and Honavar, “Learning Decision Tree Classifiers from Attribute-Value Taxonomies and Partially Specified Data”, Proceedings of the International Conference on Machine Learning. Washington DC, 2003.

Published

2013-06-01