Abstract
Though full of promise, Big Data research success is often contingent on access to the newest, most advanced, and often expensive hardware systems and the expertise needed to build and implement such systems. As a result, the accessibility of the growing number of Big Data-capable technology solutions has often been the preserve of business analytics. Pay as you store/process services like Amazon Web Services have opened up possibilities for smaller scale Big Data projects. There is high demand for this type of research in the digital humanities and digital sociology, for example. However, scholars are increasingly finding themselves at a disadvantage as available data sets of interest continue to grow in size and complexity. Without a large amount of funding or the ability to form interdisciplinary partnerships, only a select few find themselves in the position to successfully engage Big Data. This article identifies several notable and popular Big Data technologies typically implemented using large and extremely powerful cloud-based systems and investigates the feasibility and utility of development of Big Data analytics systems implemented using low-cost commodity hardware in basic and easily maintainable configurations for use within academic social research. Through our investigation and experimental case study (in the growing field of social Twitter analytics), we found that not only are solutions like Cloudera’s Hadoop feasible, but that they can also enable robust, deep, and fruitful research outcomes in a variety of use-case scenarios across the disciplines
چکیده
اگرچه پژوهشهایی که در خصوص کلان دادهها (دادههای انبوه) صورت گرفته است، سرشار از امید بوده و جای پیشرفت داشته دارد، ولی باید توجه داشت که پیشرفت موفقیتآمیز این پژوهشها در گرو دسترسی به جدیدترین، پیشرفتهترین و درعینحال گرانترین سیستمهای سختافزاری و همچنین تخصص لازم و مورد نیاز برای ساخت و پیادهسازی چنین سیستمهایی میباشد. در نتیجه، دسترسی به راهحلهای فناوری مرتبط با کلان دادهها که تعداد آنها هم رو به رشد است، شاید برای تجزیهوتحلیل در حوزهی کسبوکار آسان نباشد. سرویسهای پرداخت به ازای ذخیرهسازی/پردازش، مشابه با سرویسهای وب آمازون باعث شده تا دریچهها و احتمالاتی جدید برای پروژههای کوچکتر کلان دادهای فراهم شود. در جامعهشناسی و علوم انسانی دیجیتال، تقاضای روز افزونی برای این نوع پژوهش وجود دارد. با این حال، با توجه به رشد اندازه و پیچیدگی مجموعههای دادهای موجود، محققین با مشکلاتی در انجام پژوهشهای خود بر روی این دادهها روبرو میباشند. بدون سرمایهگذاری کلان و یا توانایی در ایجاد همکاریها و مشارکتهای میانرشتهای، محققین فقط در فرآیند استفاده از کلان دادهها به شکلی موفق عمل کردهاند. در این مقاله قصد داریم تا چندین فناوری عمده و گستردهی مرتبط با کلان دادهها را که با استفاده از سیستمهای ابری (کلود) قدرتمند و بزرگ پیادهسازی گردیده است ارائه دهیم و امکانپذیری و کاربردپذیری فرآیند توسعهی سیستمهای تحلیلی کلان دادهها را که با استفاده از سختافزارهای کمهزینه (که در پیکربندیهای اولیه و آسان پیادهسازی شدهاند) را به منظور استفاده از این فناوریها در پژوهشهای اجتماعی و دانشگاهی بررسی کنیم. در بررسیها و کاوشهایی که بر روی یک مطالعهی موردی (در حوزهی رو به رشدِ تجزیهوتحلیل شبکهی اجتماعی توئیتر) انجام دادهایم، یافتهایم که نه تنها میتوان از راهحلهای تحلیلی کلان دادهها همچون هادوپ (آپاچی) و کلودرا استفاده کرد بلکه این راه حلها میتوانند نتایج پژوهشی عمیق، دقیق و پر باری را در سناریوهای کاربردی مختلف ارائه دهند.
1-مقدمه
در طی دههی اخیر، حجم دادههای اجتماعی (دادههای مرتبط با پدیدههای اجتماعی) که در اختیار پژوهشگران در سرتاسر دنیا قرار گرفته است با افزایش چشمگیری روبرو بوده است. به نقل از گزارشی که از سوی آسوشیتید پرس در سال 2013 ارائه گردید، فیس بوک ماهانه حدود 1. 32 میلیارد کاربر فعال را سرویسدهی میکند در حالی که توئیتر به عنوان یک سرویس میکروبلاگینگ دارای 271 میلیون کاربر فعال ماهانه بوده و روزانه 2400 میلیون توئیت در این سرویس ایجاد میگردد (هالت 2013)...