ابزارهای پردازش ابرداده: گذشته، حال و آینده

«ابرداده»، به مجموعه‌هایی از داده (datasets) گفته می‌شود که نرخ رشد آن‌ها بسیار بالا بوده و در مدت زمان کوتاهی، شامل چنان حجمی از اطلاعات می‌شوند که دریافت، ذخیره‌سازی، جست‌وجو، تحلیل، بازیابی و همچنین تصویرسازی آن‌ها با ابزارهای مدیریت داده موجود غیر قابل انجام خواهد بود. در این مقاله به بررسی عوامل محرک ابرداده و رویکرد و مسیرآینده آن می پردازیم.

آنچه حائز اهمیت است، اين است که برخلاف گذشته، مفهوم ابرداده تنها مختص به حوزه آکادمیک و حل مسائل علمی مانند شبیه‌سازی‌های پیچیده فیزیکی، تحقیقات زیست محیطی، هواشناسی و مانند آن نبوده و بسیاری از سازمان‌ها و شرکت‌هاي بزرگ در سال‌های آینده با مشکلات مربوط به داده‌های انبوه غیرساخت‌یافته يا همان Big Data مواجه خواهند بود.

شواهد فراوانی در اثبات این ادعا وجود دارند که از آن میان می‌توان به چهل میلیارد تصویر بارگذاری شده در تنها یکی از شبکه‌های اجتماعی، ثبت تراکنش‌های یک میلیون مشتری در هر ساعت در فروشگاه‌های زنجیره‌ای والمارت به‌منظور تحلیل علایق و عادت‌های خرید ایشان با حجمی بالغ بر 2,5 پتابایت (هر پتابايت برابر يك هزار ترابايت) و در یک کلام تولید 75 درصد از کل «بزرگ داده » توسط افراد و کاربران معمولی به میزان 1,35 زتابایت (هر زتابايت برابر یک هزار اگزابایت) اشاره کرد. این در حالی است که بر‌اساس تحقیقات به‌عمل آمده، حجم داده‌های موجود در جهان در سال 2012، چهل درصد افزایش یافته و به عددی بالغ بر 2,52 زتابایت خواهد رسید!

پرواضح است که چنین حجمی از داده نیازمندی‌های خاص خود را داشته و ابزارهای مختص به‌خود را می‌طلبد. ابزارهایی مانند هادوپ (Hadoop) که بدون تردید جزء موفق‌ترین نمونه‌های پیاده‌سازی شده از تفکر NoSQL محسوب می‌شود. جنبش No SQL که در ابتدا با هدف جایگزینی پایگاه‌های رابطه‌ای و با شعار پایان رابطه‌ای‌ها (No SQL) خود را معرفی‌کرد، با مقاومت بزرگان و پشتیبانان مکانیزم‌های رابطه‌ای مواجه شد. مقاومتی که باعث شد تا این جنبش نوپا به‌درستی دست از سماجت برداشته و خود را به‌عنوان راه حلی مناسب برای مسائلی که پایگاه‌های داده رابطه‌ای در حل آن با دشواری مواجه هستند، مطرح کند و شعار «نه فقط رابطه‌ای» (Not only SQL) را برای خود برگزیند.

این تغییر رویکرد، شرایط لازم را فراهم آورد تا تمامی فعالان این عرصه از موافق و مخالف بر مزایا و منافع این رویکرد تمرکز‌کرده و با مشارکت شرکت‌های‌قابل احترامی مانند یاهو و بنیاد آپاچی پروژه‌هایی مانند Hadoop، MangoDB، Cassandra، CouchDB و بسیاری از پروژه‌هاي دیگر، در جهت حل مسائل مرتبط با «ابرداده» پا به عرصه حیات بگذارند. رویکردی که بدون کمترین تردیدی در سال 2012 و سال‌های بعد از آن، در مرکز توجه بسیاری از شرکت‌های تولید‌کننده‌ پایگاه‌های داده مانند IBM، Oracle، Microsoft و دیگران خواهد بود.

در واقع اگر بخواهیم با موشکافی بیشتری این حرکت جمعی به‌سوی تولید ابزارهای مدیریت داده‌های حجیم را مورد بررسی قرار دهیم باید این نکته را در نظر داشته باشیم که تقریباً تمامی این شرکت‌ها یا محصولاتی را (اغلب مبتنی بر کتابخانه هادوپ) روانه بازار‌کرده‌اند یا مراحل آماده‌سازی نهایی آن را سپری می‌کنند. به‌عنوان مثال، شرکت مایکروسافت در کنفرانس سالیانه PASS 2011 و درست یک هفته پس از آن‌که شرکت اوراکل از عرضه Big Data Appliance با توانایی پردازش داده‌های ساخت‌یافته و غیر ساخت‌یافته مبتنی بر هادوپ خبر داد، به‌طور رسمی پشتیبانی از پردازش «ابرداده» مبتنی بر این کتابخانه نرم‌افزاری را در SQL Server 2012 اعلام کرد. نکته جالب توجه آن‌که این شرکت پا را فراتر از پایگاه‌های رابطه‌ای گذاشته و وعده پشتیبانی از پردازش‌های مورد‌نیاز داده‌های حجیم و غیر ساخت‌یافته را روی سیستم‌عامل Windows Server 2012 و معادل مبتنی‌بر ابر آن، یعنی Windows Azure را به علاقه‌مندان محصولات خود داد.

علاوه بر مایکروسافت و اوراکل دیگر صاحب ‌نامان این حوزه همچون IBM (عرضه كننده محصولاتی مانند Info Sphere BigInsight و Info Sphere Streams) و همچنین شرکت EMC (با مجموعه ابزارهای Greenplum شامل Database، HD و Chorus) حرکت خود را به سمت فراهم آوردن مکانیزم‌های مورد نیاز برای پردازش داده‌های بزرگ آغاز کرده‌اند و شکی نیست که در سال آینده نیز با تمام توان و به‌منظور کسب سهم بیشتری از این بازار رو به گسترش، تلاش‌کرده و شاهد ورود ابزارهای پردازشی فراوانی در این حوزه خواهیم بود.

ادمین سایت

در تاریخ 10 جولای 2019

بازگشت به صفحه اصلی

برچسب1