از دریاچه داده چه می دانید؟

از دریاچه داده چه می دانید؟

توسعه دهندگان: مفهوم دریاچه داده را می توان اینطور توضیح داد که اگر انبار داده را مشابه یک بطری آب تصفیه شده، بسته بندی شده و آماده مصرف در نظر بگیریم، دریاچه داده (همانند نام آن) دریاچه ای است که آب از منابع مختلف ( آب باران، چشمه ها، رودها یا منابع دیگر) در آن سرازیر شده و افراد می توانند از آب دریاچه برای شنا، ‌نوشیدن یا حتی نمونه برداری بهره گیرند.



به گزارش توسعه دهندگان به نقل از ایسنا، امروزه داده ها بسیار سریع درحال شکل گیری هستند، کارشناسان بر این عقیده هستند که رشد حجم بالای داده ها سبب شده تا مدلهای ذخیره سازی و تحلیل های مبتنی بر کامپیوتر های منفرد، پاسخ گوی آنها نباشند، از طرف دیگر عوامل مختلفی سبب شده تا مدل انبار داده سنتی بصورت جدی به چالش کشیده شود.

در این راستا مفاهیم دریاچه داده و دریاچه اطلاعات امنیتی تخصصی و نسبتاً جدید هستند؛ یک دریاچه داده یک مخزن طراحی شده برای ذخیره مقادیر زیادی از داده ها در شکل بومی است. این داده ها می توانند ساختار بندی شده، نیمه ساختار یافته یا بدون ساختار و شامل جداول، فایل های متنی، لاگ سیستم و بیشتر باشند.

این واژه توسط جیمز دیکسون، CTO، یک شرکت نرم افزاری هوش تجاری، به کار گرفته شد و هدف از آن ایجاد یک مخزن بزرگ است که مقادیر گسترده ای از داده ها را می توان در آن ریخت. کاربران کسب وکار تماماً می توانند وارد دریاچه داده ها شوند و نوع اطلاعاتی که برای کاربرد آنها نیاز دارند را دریافت نمایند. این مفهوم با انفجار داده های ماشینی و کاهش سریع هزینه ذخیره سازی به محبوبیت رسید. در صورتیکه بخواهیم تفاوت های رویکرد دریاچه داده و انبار داده در تحلیل داده ها را بیان نماییم، می توانیم باتوجه به آنچه که در بعضی از سایت های تخصصی این حوزه در تعریف این مفهوم مطرح شده، به موارد زیر به عنوان تفاوت های اساسی اشاره کنیم:

داده ها کاملاً در دریاچه داده قرار می گیرند و از هیچ داده ای صرف نظر نمی شود؛ این رویکرد برخلاف رویکرد انبار داده در ذخیره سازی و پالایش داده هاست که در آن تنها اطلاعاتی در انبار داده قرار می گیرد که بتواند در تحلیل ها مورد استفاده قرار گیرد. داده های پایین ترین سطوح (مثلاً توضیحات یک فرد در یک مقاله یا یک وب سایت) بدون تغییر یا با حداقل تغییرات به دریاچه داده منتقل می شوند که این مهم، برخلاف رویکرد انبار داده است که تبدیل و تغییر (Transformation) یکی از پیش فرض های اساسی و اولیه ورود اطلاعات به آن شمرده می شود.

بر این اساس در مثال قبل ممکنست برای ذخیره سازی توضیحات یک فرد در یک مقاله یا وب سایت با مدل انبار داده تنها به استخراج کلید واژه ها از توضیحات و ذخیره سازی آن در یک جدول بانک اطلاعاتی بسنده کرد. در دریاچه داده توضیحات فرد، نحوه پیمایش یک سایت توسط کاربر و اطلاعات سنسورهایی که توسط دستگاهها تولید شده است، بدون توجه به منبع و ساختار ذخیره می شوند. این رویکرد ذخیره سازی داده ها که در آن داده، بدون توجه به ساختار و منبع ذخیره می شود، اصطلاحاً «خواندن با ساختار» (Schema On Read) نامیده می شود. این نگاهی متفاوت از ذخیره سازی داده ها در انبار داده است که در آن، ابتدا ساختاری که داده ها باید در آن قرار گیرد طراحی می شود و سپس داده ها در ساختار قرار می گیرند که به آن نوشتن با ساختار (Schema On Write) گفته می شود.

نزدیک به ۸۰ درصد از استفاده کنندگان از اطلاعات در بیشتر سازمان ها، استفاده کنندگان عملیاتی محسوب می شوند. نیاز این دسته از کاربران این است که گزارش ها و فاکتورهای مورد نیاز خودرا ببینند. این موارد به طور معمول دارای ساختاری از پیش تعریف شده هستند و رویکرد انبار داده به سبب ساخت یافته بودن اطلاعات، برای این دسته از کاربران قابل درک و استفاده است.

درصد کمی از کاربران سازمان ها نیازمند تحلیل های عمیق و پیچیده بر روی داده ها هستند. دانشمندان و تحلیل گران داده (Data Scientists) جزو این دسته از کاربران قرار می گیرند این گروه از کاربران، از انواع داده های ساخت یافته یا ساخت نیافته و ابزارهای تحلیل و بررسی پیشرفته بر روی داده ها مانند داده کاوی، متن کاوی، تحلیل آماری، مدلهای پیش بینی کننده، تحلیل جریان پیمایش یک سایت و روش های مشابه استفاده می نمایند. اما بطور معمول ۱۰ درصد از کاربران یک سازمان نیاز به تحلیل و بررسی عمیق داده ها پیدا می کنند. این دسته از کاربران می توانند از انبار داده برای تحلیل و بررسی های مورد نیاز خود بهره گیرند اما گاهی اوقات، نیاز به دسترسی به منبع اصلی داده مورد نیاز است و کاربران ناچارند به داده ها در سیستم های تولیدکننده آن مراجعه کنند.

با توجه به این که در پروسه تحلیل های پیشرفته، تحلیل گر از قبل، درباره ی این که چه خاصیت ها یا داده هایی موردنیاز هستند و از کدام یک باید صرف نظر شود آگاه نیست، رویکرد خواندن با ساختار (Schema On Read) و عدم حذف یا تبدیل اطلاعات بهتر می تواند به نیاز تحلیلیِ این دسته از کاربران پاسخ دهد. در هر حال تفاوت های کلیدی بین دریاچه های داده و انبارهای داده وجود دارد که بطور سنتی برای تحلیل داده ها مورد استفاده قرار گرفته اند. اول، انبارهای داده برای داده های ساختار یافته طراحی شده اند.

یک واقعیت این که دریاچه های داده یک طرح را به داده ها تحمیل نمی کنند؛ در عوض، زمانی که داده ها خوانده شده و یا از دریاچه داده ها بیرون کشیده می شوند، طرح مورد استفاده قرار می گیرد در نهایت دریاچه های داده در محبوبیت با افزایش داده های دانشمندان که تمایل به کار بیشتر در یک تبلیغ دارند، نسبت به تحلیل گران کسب وکار قبلی، رشد کرده اند.





منبع:

1402/02/01
16:30:48
5.0 / 5
521
تگهای خبر: تخصص , سیستم , شركت , طراحی
این مطلب را می پسندید؟
(1)
(0)

تازه ترین مطالب مرتبط
نظرات بینندگان در مورد این مطلب
لطفا شما هم نظر دهید
= ۹ بعلاوه ۴

pcdevelopers.ir - مالکیت معنوی سایت توسعه دهندگان متعلق به مالکین آن می باشد