Abstract
Big data is one of the major technology usages for business operations in today’s competitive market. It provides organizations a powerful tool to analyze large unstructured data to make useful decisions. Result quality, time, and price associated with big data analytics are very important aspects for its success. Selection of appropriate cloud infrastructure at coarse and fine grained level will ensure better results. In this paper, a global architecture is proposed for QoS based scheduling for big data application to distributed cloud datacenter at two levels which are coarse grained and fine grained. At coarse grain level, appropriate local datacenter is selected based on network distance between user and datacenter, network throughput and total available resources using adaptive K nearest neighbor algorithm. At fine grained level, probability triplet (C, I, M) is predicted using naïve Bayes algorithm which provides probability of new application to fall in compute intensive (C), input/output intensive (I) and memory intensive (M) categories. Each datacenter is transformed into a pool of virtual clusters capable of executing specific category of jobs with specific (C, I, M) requirements using self organized maps. Novelty of study is to represent whole datacenter resources in a predefined topological ordering and executing new incoming jobs in their respective predefined virtual clusters based on their respective QoS requirements. Proposed architecture is tested on three different Amazon EMR datacenters for resource utilization, waiting time, availability, response time and estimated time to complete the job. Results indicated better QoS achievement and 33.15 % cost gain of the proposed architecture over traditional Amazon methods
چکیده
کلان داده ها (یا دادههای انبوه) را می توان به عنوان یکی از کاربردهای عمده فناوری برای عملیات کسب و کار در بازار رقابتی امروزی در نظر گرفت. کلان داده ها می تواند ابزاری قدرتمند را به منظور تحلیل داده های غیر ساخت یافته در اختیار سازمان ها قرار داده تا این سازمان ها به واسطه این تحلیل ها بتوانند تصمیم های مفیدی را اتخاذ نمایند. نتایج کیفی، زمان و هزینه مرتبط با تحلیل کلان داده ها را می توان جنبه های بسیار مهمی برای موفقیت این تحلیل ها برشمرد. در همین راستا، انتخاب زیر ساختار ابری مناسب در سطح دانه درشت و سطح دانه ریز این اطمینان را داده که نتایج بهتری به دست می آید. در این مقاله قصد داریم تا یک معماری سراسری را برای زمان بندی مبتنی بر QoS (کیفیت سرویس) برای اپلیکیشن های کلان داده ای بر روی مراکز داده ای ابری توزیع شده و آن هم در غالب دو سطح دانه درشت و دانه ریز ارائه دهیم. در سطح دانه درشت، مراکز داده ایِ محلیِ مناسبی را بر مبنای فاصله شبکهی بین کاربر و مرکز داده ای، توان عملیاتی شبکه و منابع کلیِ موجود انتخاب می کنیم که برای یک چنین انتخابی، از الگوریتم k نزدیک ترین همسایه (الگوریتم KNN) استفاده می کنیم. در سطح دانه ریز، با استفاده از الگوریتم بیزی اقدام به پیش بینی یک سه تائی احتمالاتی (C, I, M) می کنیم که این سه تائی می تواند احتمال قرار گرفتن یک اپلیکیشن در یکی از سه دسته بندی زیر را مشخص نماید: اپلیکیشن هایی با عملیات محاسباتی سنگین، اپلیکشین هایی با عملیات ورودی/خروجی سنگین و اپلیکشین هایی با سطح بالای تقاضای حافظه. هر مرکز داده ای، به یک مخزنی از خوشه های مجازی منتقل شده و می تواند یک دسته بندی خاصی از کارها را که دارای نیازمندی خاص (C, I, M) می باشند، به وسیله نقشه های خود سازمان یافته اجرا نماید. علت نوظهور و جدید بودن این مطالعه، به دلیل نمایش کل منابع مرکز دادهای بر اساس یک ترتیب توپولوژیکی از قبل مشخص و اجرای کارهای ورودی جدید بر روی خوشه های مجازیِ از قبل تعریف شده متناظر با این کارها و آن هم بر مبنای نیازمندی های QoS متناظر با آنها دانست. معماری پیشنهادی مان را از نظر نرخ بکار گیری منبع، زمان انتظار، موجودیت، زمان پاسخ و زمان تخمینی برای تکمیل یک کار، بر روی سه مرکز داده ای مختلف Amazon EMR تست نموده ایم. نتایج حاصله نشان می دهد که معماری پیشنهادی ما به دستاورد کیفیت سرویس بهتر، بهره وری 33.15 درصدی در هزینه نسبت به روش های معمول Amazon دست یافته است.
1-مقدمه
رایانش ابری را می توان یکی از پر بحث ترین حوزه های فناوری اطلاعات در سال های اخیر در نظر گرفت. در مؤسسه تحقیقاتی گارتنر، رایانش ابری به عنوان یکی از ده فناوری برتر در طی سه سال متمادی انتخاب گردیده است [1]. سازمان هایی که نیاز به زیر ساختار فناوری اطلاعاتی پویا دارند نیز در حال تغییر موضع سازمانی خود به سمت پارادایم ابری می باشند، که دلیل آن را می توان ناشی از مقیاس پذیری و مدل های قیمت گذاری مقرون به صرفه در این پارادایم دانست...