«ابرداده»، به مجموعههایی از داده (datasets) گفته میشود که نرخ رشد آنها بسیار بالا بوده و در مدت زمان کوتاهی، شامل چنان حجمی از اطلاعات میشوند که دریافت، ذخیرهسازی، جستوجو، تحلیل، بازیابی و همچنین تصویرسازی آنها با ابزارهای مدیریت داده موجود غیر قابل انجام خواهد بود. در این مقاله به بررسی عوامل محرک ابرداده و رویکرد و مسیرآینده آن می پردازیم.
آنچه حائز اهمیت است، اين است که برخلاف گذشته، مفهوم ابرداده تنها مختص به حوزه آکادمیک و حل مسائل علمی مانند شبیهسازیهای پیچیده فیزیکی، تحقیقات زیست محیطی، هواشناسی و مانند آن نبوده و بسیاری از سازمانها و شرکتهاي بزرگ در سالهای آینده با مشکلات مربوط به دادههای انبوه غیرساختیافته يا همان Big Data مواجه خواهند بود.
شواهد فراوانی در اثبات این ادعا وجود دارند که از آن میان میتوان به چهل میلیارد تصویر بارگذاری شده در تنها یکی از شبکههای اجتماعی، ثبت تراکنشهای یک میلیون مشتری در هر ساعت در فروشگاههای زنجیرهای والمارت بهمنظور تحلیل علایق و عادتهای خرید ایشان با حجمی بالغ بر 2,5 پتابایت (هر پتابايت برابر يك هزار ترابايت) و در یک کلام تولید 75 درصد از کل «بزرگ داده » توسط افراد و کاربران معمولی به میزان 1,35 زتابایت (هر زتابايت برابر یک هزار اگزابایت) اشاره کرد. این در حالی است که براساس تحقیقات بهعمل آمده، حجم دادههای موجود در جهان در سال 2012، چهل درصد افزایش یافته و به عددی بالغ بر 2,52 زتابایت خواهد رسید!
پرواضح است که چنین حجمی از داده نیازمندیهای خاص خود را داشته و ابزارهای مختص بهخود را میطلبد. ابزارهایی مانند هادوپ (Hadoop) که بدون تردید جزء موفقترین نمونههای پیادهسازی شده از تفکر NoSQL محسوب میشود. جنبش No SQL که در ابتدا با هدف جایگزینی پایگاههای رابطهای و با شعار پایان رابطهایها (No SQL) خود را معرفیکرد، با مقاومت بزرگان و پشتیبانان مکانیزمهای رابطهای مواجه شد. مقاومتی که باعث شد تا این جنبش نوپا بهدرستی دست از سماجت برداشته و خود را بهعنوان راه حلی مناسب برای مسائلی که پایگاههای داده رابطهای در حل آن با دشواری مواجه هستند، مطرح کند و شعار «نه فقط رابطهای» (Not only SQL) را برای خود برگزیند.
این تغییر رویکرد، شرایط لازم را فراهم آورد تا تمامی فعالان این عرصه از موافق و مخالف بر مزایا و منافع این رویکرد تمرکزکرده و با مشارکت شرکتهایقابل احترامی مانند یاهو و بنیاد آپاچی پروژههایی مانند Hadoop، MangoDB، Cassandra، CouchDB و بسیاری از پروژههاي دیگر، در جهت حل مسائل مرتبط با «ابرداده» پا به عرصه حیات بگذارند. رویکردی که بدون کمترین تردیدی در سال 2012 و سالهای بعد از آن، در مرکز توجه بسیاری از شرکتهای تولیدکننده پایگاههای داده مانند IBM، Oracle، Microsoft و دیگران خواهد بود.
در واقع اگر بخواهیم با موشکافی بیشتری این حرکت جمعی بهسوی تولید ابزارهای مدیریت دادههای حجیم را مورد بررسی قرار دهیم باید این نکته را در نظر داشته باشیم که تقریباً تمامی این شرکتها یا محصولاتی را (اغلب مبتنی بر کتابخانه هادوپ) روانه بازارکردهاند یا مراحل آمادهسازی نهایی آن را سپری میکنند. بهعنوان مثال، شرکت مایکروسافت در کنفرانس سالیانه PASS 2011 و درست یک هفته پس از آنکه شرکت اوراکل از عرضه Big Data Appliance با توانایی پردازش دادههای ساختیافته و غیر ساختیافته مبتنی بر هادوپ خبر داد، بهطور رسمی پشتیبانی از پردازش «ابرداده» مبتنی بر این کتابخانه نرمافزاری را در SQL Server 2012 اعلام کرد. نکته جالب توجه آنکه این شرکت پا را فراتر از پایگاههای رابطهای گذاشته و وعده پشتیبانی از پردازشهای موردنیاز دادههای حجیم و غیر ساختیافته را روی سیستمعامل Windows Server 2012 و معادل مبتنیبر ابر آن، یعنی Windows Azure را به علاقهمندان محصولات خود داد.
علاوه بر مایکروسافت و اوراکل دیگر صاحب نامان این حوزه همچون IBM (عرضه كننده محصولاتی مانند Info Sphere BigInsight و Info Sphere Streams) و همچنین شرکت EMC (با مجموعه ابزارهای Greenplum شامل Database، HD و Chorus) حرکت خود را به سمت فراهم آوردن مکانیزمهای مورد نیاز برای پردازش دادههای بزرگ آغاز کردهاند و شکی نیست که در سال آینده نیز با تمام توان و بهمنظور کسب سهم بیشتری از این بازار رو به گسترش، تلاشکرده و شاهد ورود ابزارهای پردازشی فراوانی در این حوزه خواهیم بود.