Abstract
Breast cancer is one of the leading cancers for women when compared to all other cancers. It is the second most common cause of cancer death in women. Breast cancer risk in India revealed that 1 in 28 women develop breast cancer during her lifetime. This is higher in urban areas being 1 in 22 in a lifetime compared to rural areas where this risk is relatively much lower being 1 in 60 women developing breast cancer in their lifetime. In India the average age of the high risk group is 43-46 years unlike in the west where women aged 53-57 years are more prone to breast cancer. The aim of this paper is to investigate the performance of different classification techniques. The data breast cancer data with a total 683 rows and 10 columns will be used to test, by using classification accuracy. We analyse the breast Cancer data available from the Wisconsin dataset from UCI machine learning with the aim of developing accurate prediction models for breast cancer using data mining techniques. In this experiment, we compare three classification techniques in Weka software and comparison results show that Sequential Minimal Optimization (SMO) has higher prediction accuracy i.e. 96.2% than IBK and BF Tree methods
چکیده
سرطان سینه را میتوان به عنوان یکی از سرطانهای شایع در زنان در مقایسه با سایر سرطانها دانست. این سرطان، دومین سرطان شایع کشنده در بین زنان میباشد. خطر ابتلا به سرطان سینه در هند نشان داده است که از هر 28 خانم، 1 نفر از آنها در طل عمر خود مبتلا به سرطان سینه میگردد. این نرخ در نواحی شهری بالاتر میباشد به طوری که در نواحی شهری از هر 22 نفر، یک نفر مبتلا به سرطان سینه میگردد و در نواحی روستایی نیز این ریسک بسیار کمتر بوده و آمار ابتلا به این سرطان در این نواحی برابر با 1 نفر از هر 60 نفر میباشد. در هند، میانگین سنی گروهی که در بالاترین خطر ابتدا به این سرطان قرار دارند بین 43 تا 46 سال میباشد در حالی که در غرب، گروههایی با میانگین سنی 53 تا 57 سال بیشترین احتمال ابتلا به این سرطان را دارند. در این مقاله قصد داریم تا به بررسی کارائی تکنیکهای مختلف دستهبندی بپردازیم. از دادههای مربوط به سرطان سینه که در قالب یک مجموعهی 683 سطر و 10 ستون جمعآوری گردیده است استفاده کرده تا با استفاده از میزان صحت دستهبندی، به تست و ارزیابی این تکنیکها بپردازیم. از این رو دادههای مربوط به سرطان سینه که از مجموعهی داده ای Wisconsin در وبسایت UCI Machine Learning به دست آمده است را مورد تجزیهوتحلیل قرار میدهیم تا در نهایت با استفاده از تکنیکهای دادهکاوی، به مدلهای پیش بینی صحیح و دقیقی برای تشخیص سرطان سینه دست پیدا کنیم. در این آزمایش، در نرمافزار Weka به مقایسهی سه تکنیک دستهبندی میپردازیم و نتایج مقایسه نیز نشان داده است که روش بهینهسازی حداقلی ترتیبی (SMO) از میزان صحت پیشبینی بالای 96. 2 درصدی در مقایسه با متدهای IBK، درخت BF برخوردار میباشد.
1-مقدمه
افزایش شیوع جهانی سرطان سینه و نرخ مرگومیر ناشی از آن را میتوان دلیلی بر وجود تهدیدی قابلملاحظه و رو به رشد در جهان رو به توسعه دانست. سرطان سینه را میتوان پدیدهای شایع در بین ملیتهای در حال توسعه دانست که متأسفانه دلیل بروز آن را میتوان ناشی از افزایش انتظارات زندگی و تغییر سبک زندگی، همچون فرزند آوری کم در خانمها و همچنین مداخلههای هورمونی همچون درمانهای هورمونی پس از یائسگی دانست...