مفهوم Big Data یا کلان داده
Big Data یا داده بزرگ به چه صورت است؟ تصور شما از حجم انبوهی از دادهها چیست؟ یک هزار گیگابایت، دهها هزار گیگابایت یا صدها هزار ترابایت!
راهکارهای پایگاه داده، برای سال 2015 میتوان نامهای مختلفی یافت سال شبکههای اجتماعی، سال محاسبات ابری، سال تبلتها و تلفنهای همراه هوشمند، سال سرویسهای رنگارنگ اینترنتی و بسیاری موارد ریزودرشت دیگر؛ اما تنها با لحظهای تأمل درخواهیم یافت که استفاده از هر یک از این ابزارهای نرمافزاری و سختافزاری، یک نتیجه واحد در برخواهد داشت: تولید داده و اطلاعات در ابعادی باورنکردنی و غیرقابلتصور.
شکل 1 : BigData
آمار و ارقام حاکی از آن است که در حال حاضر، روزانه 2,5 اگزابایت (1,048,576 ترابایت) داده و اطلاعات توسط اشخاص و سازمانها تولید میشود و این در حالی است که نود درصد از مجموع دادههای موجود در جهان تنها در طول دو سال گذشته، یعنی سالهای 2010 و 2011 ایجاد شدهاند. پرواضح است که این روند با گسترش روزافزون تعداد کاربران دستگاههای ارتباطی، بدون وقفه و با شیبی مهارناشدنی ادامه یافته و آنچه بیش از هر زمان دیگری اهمیت خواهد داشت، یافتن روشها، ابزارها و مکانیسمهایی برای ذخیره، بازیابی و تحلیل این حجم از داده به شکلی مؤثر و با کارایی بالا است. رشد فوقالعاده سریع حجم دادهها، اگرچه بهخودیخود فرآیند ذخیرهسازی، بازیابی و تحلیل اطلاعات را دشوار و مواجهه با آن را نیازمند ایجاد ابزارهایی جدید میکند، اما آنچه بحث داده و مکانیسمهای مدیریتی آن را در پایان سال 2011 بهچالش کشیده و بهنوعی رویکرد اصلی سال آینده میلادی را در حوزه پایگاههای داده مشخص میسازد، آگاهی از این حقیقت است که نزدیک به نود درصد از کل دادههای ذخیرهشده در جهان دیجیتال، بهنوعی غیر ساختیافته (Unstructured Data) هستند و این موضوع ما را با مفهومی بهنام «داده بزرگ» یا Big Data روبهرو میسازد.
در یک تعریف ساده و بهدوراز پیچیدگیهای فنی، داده بزرگ، به مجموعههایی از داده (datasets) گفته میشود که نرخ رشد آنها بسیار بالا بوده و در مدتزمان کوتاهی، شامل چنان حجمی از اطلاعات میشوند که دریافت، ذخیرهسازی، جستوجو، تحلیل، بازیابی و همچنین تصویرسازی آنها با ابزارهای مدیریت داده موجود غیرقابل انجام خواهد بود. آنچه حائز اهمیت است، این است که برخلاف گذشته، مفهوم داده بزرگ تنها مختص به حوزه آکادمیک و حل مسائل علمی مانند شبیهسازیهای پیچیده فیزیکی، تحقیقات زیستمحیطی، هواشناسی و مانند آن نبوده و بسیاری از سازمانها و شرکتهای بزرگ در سالهای آینده با مشکلات مربوط به دادههای انبوه غیر ساختیافته یا همان داده بزرگ مواجه خواهند بود.
شواهد فراوانی در اثبات این ادعا وجود دارند که از آن میان میتوان به چهل میلیارد تصویر بارگذاری شده در تنها یکی از شبکههای اجتماعی، ثبت تراکنشهای یکمیلیون مشتری در هر ساعت در فروشگاههای زنجیرهای وال مارت بهمنظور تحلیل علایق و عادتهای خرید ایشان با حجمی بالغ بر 2,5 پتابایت (هر پتابایت برابر یک هزار ترابایت) و در یککلام تولید 75 درصد از کل «داده بزرگ» توسط افراد و کاربران معمولی به میزان 1,35 زتابایت (هر زتابایت برابر یک هزار اگزابایت) اشاره کرد. این در حالی است که بر اساس تحقیقات بهعمل آمده، حجم دادههای موجود در جهان در سال 2012، چهل درصد افزایش یافته و به عددی بالغ بر 2,52 زتابایت خواهد رسید!
پرواضح است که چنین حجمی از داده نیازمندیهای خاص خود را داشته و ابزارهای مختص به خود را میطلبد. ابزارهایی مانند هادوپ (Hadoop) که بدون تردید جزء موفقترین نمونههای پیادهسازی شده از تفکر NoSQL محسوب میشود. جنبش No SQL که در ابتدا باهدف جایگزینی پایگاههای رابطهای و با شعار پایان رابطهایها (No SQL) خود را معرفی کرد، با مقاومت بزرگان و پشتیبانان مکانیسمهای رابطهای مواجه شد. مقاومتی که باعث شد تا این جنبش نوپا بهدرستی دست از سماجت برداشته و خود را بهعنوان راهحلی مناسب برای مسائلی که پایگاههای داده رابطهای در حل آن با دشواری مواجه هستند، مطرح کند و شعار «نهفقط رابطهای» (Not only SQL) را برای خود برگزیند.
این تغییر رویکرد، شرایط لازم را فراهم آورد تا تمامی فعالان این عرصه از موافق و مخالف بر مزایا و منافع این رویکرد تمرکز کرده و با مشارکت شرکتهای قابلاحترامی مانند یاهو و بنیاد آپاچی پروژههایی مانند Hadoop، MangoDB، Cassandra، CouchDB و بسیاری از پروژههای دیگر، در جهت حل مسائل مرتبط با داده بزرگ، پا به عرصه حیات بگذارند. رویکردی که بدون کمترین تردیدی در سال 2012 و سالهای بعد از آن، در مرکز توجه بسیاری از شرکتهای تولیدکننده پایگاههای داده مانند آیبیام، اوراکل، مایکروسافت و دیگران خواهد بود.
درواقع اگر بخواهیم با موشکافی بیشتری این حرکت جمعی بهسوی تولید ابزارهای مدیریت دادههای حجیم را موردبررسی قرار دهیم باید این نکته را در نظر داشته باشیم که تقریباً تمامی این شرکتها یا محصولاتی را (اغلب مبتنی بر کتابخانه هادوپ) روانه بازار کردهاند یا مراحل آمادهسازی نهایی آن را سپری میکنند. بهعنوانمثال، شرکت مایکروسافت در کنفرانس سالیانه PASS 2011 و درست یک هفته پس از آنکه شرکت اوراکل از عرضه Big Data Appliance با توانایی پردازش دادههای ساختیافته و غیر ساختیافته مبتنی بر هادوپ خبر داد، بهطور رسمی پشتیبانی از پردازش داده بزرگ مبتنی بر این کتابخانه نرمافزاری را در SQL Server 2012 اعلام کرد. نکته جالبتوجه آنکه این شرکت پا را فراتر از پایگاههای رابطهای گذاشته و وعده پشتیبانی از پردازشهای موردنیاز دادههای حجیم و غیر ساختیافته را روی سیستمعامل Windows Server 2012 و معادل مبتنی بر ابر آن، یعنی Windows Azure را به علاقهمندان محصولات خود داد.
علاوه بر مایکروسافت و اوراکل دیگر صاحب نامان این حوزه همچون آیبیام (عرضهکننده محصولاتی مانند Info Sphere BigInsight وInfo Sphere Streams) و همچنین شرکت EMC (با مجموعه ابزارهای Greenplum شامل Database، HD و Chorus) حرکت خود را به سمت فراهم آوردن مکانیسمهای موردنیاز برای پردازش دادههای بزرگ آغاز کردهاند و شکی نیست که در سال آینده نیز با تمام توان و بهمنظور کسب سهم بیشتری از این بازار رو به گسترش، تلاش کرده و شاهد ورود ابزارهای پردازشی فراوانی در این حوزه خواهیم بود.
کلام پایانی آنکه سال 2012 را در بحث پایگاههای داده، میتوان بهنوعی سال پردازش دادههای انبوه و غیر ساختیافته و در یککلام دادههای بزرگ دانست. رویکردی که بهجز ابزار و روش، به سختافزارها و پلتفرمهای پرقدرت و قابلاعتماد نیاز داشته و این در شرایطی است که بسیاری از سازمانها و شرکتها، حتی درصورتیکه توان مالی خرید چنین تجهیزاتی را در اختیار داشته باشند، از حیث مدیریت، نگهداری و بهروزرسانی و بسیاری مسائل و مشکلات مرتبط با آن، رغبت چندانی به آن نخواهند داشت. این المانهای تصمیمگیری بهظاهر متناقض، در عمل ما را به یاد سرویسهای قابلارائه در قالب محاسبات ابری (Cloud Computing) انداخته و این نکته را به ذهن متبادر میسازد که نیاز به حجم انبوهی از ماشینهای سرویسدهنده و توان پردازشی فوقالعاده بالا در کنار عدم درگیر شدن با مسائل فنی مرتبط با زیرساختهای مذکور، سال آتی را به مکانی برای قدرتنمایی انواع سرویسهای ابری تبدیل کرده و بسیاری از شرکتها به سمت استفاده از آن سوق خواهند یافت.
باید منتظر ماند و دید!
آپاچی هادوپ (Apache Hadoop)
کتابخانه نرمافزاری هادوپ، یک چارچوب کاری (Framework) نوشتهشده با زبان برنامهسازی جاوا است که با الهام از مقالههای منتشرشده توسط گوگل در حوزه محاسبات توزیعشده و سیستم فایلی اختصاصی این شرکت موسوم به GFS ایجاد شده و با استفاده از یک مدل برنامهسازی ساده، امکان پردازش توزیعشده روی مجموعههای عظیم دادهای روی کامپیوترهای بههم متصل را فراهم میآورد. از ویژگیهای قابلتوجه هادوپ میتوان به قابلیت مقیاسپذیری آن از یک سرویسدهنده به هزاران ماشین با حافظه و قدرت پردازش محلی اشاره کرد. همچنین این کتابخانه با قابلیت تشخیص و مدیریت خطاها در لایه کاربری، مستقل از سختافزار عمل کرده و درنتیجه سرویسهایی با دسترسپذیری بالا را برای کاربران فراهم میآورد. لازم به ذکر است که امروزه هادوپ در بسیاری از پروژههای تجاری عرضهشده توسط بزرگانی مانند آیبیام، اوراکل و مایکروسافت مورداستفاده قرار میگیرد.