CẢI TIẾN THUẬT TOÁN APRIORI TRÊN MÔ HÌNH MAP/REDUCE

Authors

  • Khoa CNTT
  • Trần Thiên Thành
  • Phan Đình Sinh

Abstract

Tóm tắt: Tìm kiếm c{c tập mục phổ biến l| một bước rất quan trọng khai ph{ luật kết hợp,để từ đó ph{t sinh luật kết hợp. Một trong những thuật to{n khai ph{ luật kết hợp kinh điểnv| nổi tiếng l| thuật to{n Apriori. Tuy nhiên, thuật to{n Apriori có yếu điểm l| với trườnghợp cơ sở dữ liệu lớn thì thời gian tính to{n cũng sẽ rất lớn. Vì vậy, trong b|i b{o n|y chúngtôi đề xuất một cải tiến của thuật to{n Apriori trên mô hình lập trình v| tính to{n song songMap/Reduce. Cải tiến được thực hiện thông qua việc x}y dựng thuật to{n Apriori trên môhình Map/Reduce, qua đó đưa ra giải ph{p tìm tất cả tập mục phổ biến thông qua hai pha:pha thứ nhất tìm c{c tập mục phổ biến 1_itemsets; pha thứ hai tìm tất cả tập mục phổ biếnk_itemsets (k>=2). Với phương ph{p n|y việc tính to{n đã cải thiện đ{ng kể thời gian tínhto{n khi ứng dụng thuật to{n Apriori khai ph{ cơ sở dữ liệu lớn. Bước đầu thử nghiệm chothấy thuật to{n Apriori ph{t triển trên mô hình Map/Reduce cho kết quả nhanh hơn trên cơsở dữ liệu lớn so với thuật to{n Apriori gốc.

Từ khóa: Apriori, Map/Reduce

References

Han J. & Kamber M, Data mining Concepts and Techniques, San Francisco, CA, Elsevier Inc, 2006.

Hadoop Map/Reduce Tutorial, Apache

. Retrieved November 12, 2012 from

http://hadoop.apache.org/docs/r0.20.2/mapred_tutorial.html, 2010.

TM

Nilesh.S.Korde & Shailendra.W.Shende, Parallel Implementation of Apriori Algorithm, IOSR Journal of

Computer Science (IOSR-JCE), e-ISSN: 2278-0661, p-ISSN: 2278-8727, PP 01-04, 2014.

Jeffrey D. & Sanjay G, Mapreduce: Simplified data processing on large cluster, In OSDI, pages 137 – 150,

Agrawal R. and Srikant R, Fast algorithm for mining associantion rules in large databases, In Proc, VLDB,

pages 487 – 499, 1994.

Middleton A.M, Hanbook of Cloud Computing, Data-Intensive Technologies for Cloud Computing, FL,

USA, Springer: 83-136, 2010.

Published

2015-09-04