یادگیری ماشین برای ابر دیتاها (Machine Learning for Big Data)

با ظهور اینترنت، سرعت رشد اطلاعات نسبت به هزاران سال قبل بسیار سریعتر شده است. طبق آمار، میزان اطلاعات تولید شده طی ۱۰ سال اول اختراع اینترنت، معادل کل اطلاعاتی است که قبل از آن ایجاد و منتشر شده بود؛ و امروزه این میزان به ۴۵ روز کاهش یافته، به عبارتی هر ۴۵ روز اطلاعات منتشر شده در جهان، دو برابر می‌شوند!

این حجم از اطلاعات یک معدن طلا و مرجعی مهم برای بیزینس‌ها، صنایع و سیاست گذاران محسوب می‌شود. اما تا زمانیکه تفسیر دقیقی از آن‌ها وجود نداشته باشد، بخش اعظم این دانش بلا استفاده خواهد ماند.
در این مقاله، سعی خواهیم کرد نقش یادگیری ماشینی در الگوهای ابرداده‌ها و استخراج اطلاعات پنهان آن‌ها را توضیح دهیم.

یادگیری ماشین (Machin Learning – ML) چیست؟


هسته اصلی این علم، شامل الگوریتم‌های خود یادگیرند‌ای (Self-learning) است که به مرور تکامل می‌یابند. در واقع ماشین‌ها با کمک داده‌ها و مدل‌های رفتاری پیرامونشان، نتایج و وقایع آینده را تولید و پیش بینی می‌کنند.

برای الگوریتم‌های یادگیری ماشینی، حجم دیتا دقیقا مانند میزان تمرین برای ورزشکاران است.

داده‌های بیشتر، نتایج دقیق‌تر.

الگوریتم‌ها با کمک داده‌ها، مانند ورزشکارانی که هر روز بدن خود را آماده‌تر می‌کنند، تصمیمات دقیق‌تری تولید می‌کنند.

امروزه بسیاری از زبان‌های برنامه نویسی مانند Python، R، Java، JavaScript و Scala، الگورتیم‌های یادگیری ماشین را پشتیبانی می‌کنند. پایتون با کتابخانه TensorFlow که یک اکوسیستم جامع ابزارهای ML است، یکی از محبوب‌ترین زبان‌های برنامه نویسی محسوب می‌شود.

ابر داده (Big Data)


داده‌ها شامل اعداد، کلمات و مشاهداتی هستند که با روش‌های مختلف توسط کامپیوتر پردازش و طبقه بندی می‌شوند. ابرداده‌ها مجموعه وسیعی از دیتاهای ساختارمند یا بدون ساختار هستند که با تحلیل آن‌ها می‌توان رفتارهای مخاطبین را شناسایی کرد.

با رشد تکنولوژی، چالش‌های جدیدی نیز در پردازش اطلاعات نرم افزارهای قدیمی ایجاد شد. حجم و تنوع زیاد اطلاعات در کنار سرعت و دقت، نیازمند تغییرات جدی در پردازشگرها شد.

بطور کلی می‌توان Big Data را با سه “V” توصیف کرد:

  • حجم دیتا (volume)
  • سرعت (velocity)، سرعتی که دیتا از منابع مختلف جمع آوری می‌کند
  • تنوع (variety)

علاوه بر آن دو “V” دیگر هم به سه مورد فوق اضافه می‌کنیم:

  • صحت (Veracity)، اطمینان از درستی داده‌های جمع آوری شده
  • مقدار (Value)، میزان دیتای ارزشمند جمع آوری شده

تحلیل این اطلاعات نیازمند دانش مناسب کسب و کار، برنامه نویسی، ریاضی، آمار و علم تحلیل داده‌هاست. اما چگونه می‌توان صرفا با تکنیک‌های سنتی ساختمان داده‌ها، میلیون‌ها یا میلیاردها ابرداده را تحلیل کرد؟ پاسخ، آشنایی با مفاهیم یادگیری ماشین است.

با ترکیب ابر داده‌ها و الگوریتم های ML می‌توان رفتارهای پنهان اطلاعات را شناسایی و در مدل سازی و پیش بینی وقایع استفاده نمود.
در برخی شرکت‌ها، این الگوریتم‌ها، جایگزین فرایندهای انسان محور شده و مکانیزاسیون خودکار بوجود آمده است. اغلب شرکت‌ها اطلاعات و داده‌هایی که منجر به تحلیل عمیق‌تر در کسب و کار می‌شود را استخراج می‌کنند.

امروزه، تحلیل اطلاعات با کمک هوش مصنوعی، نتایجی با اختلاف چشمگیر نسبت به تحلیل‌های انسانی ایجاد کرده، اما هنوز فاقد توانایی تصمیم گیری است. کامپیوترها هنوز بسیاری از خصوصیات ذاتی انسان‌ها مانند تفکر انتقادی را ندارند. عدم تفسیر اطلاعات توسط متخصصین علم داده، ارزش نتایج تولیدی توسط الگوریتم های کامپیوتری را کاهش داده و حتی ممکن است شرکت را به مخاطره اندازد.

برنامه های یادگیری ماشین برای ابرداده ها

  • شبکه های ابری (Cloud Network)

یک شرکت تحقیقاتی پزشکی، حجم زیادی اطلاعات جهت بررسی دارد، اما این کار نیازمند سرورهای قوی، فضای ذخیره سازی، شبکه و امکانات امنیتی زیادی دارد که هزینه‌های زیادی را به شرکت تحمیل می‌کند. لذا از سرویس‌های ابری Amazon EMR، که برای تجزیه و تحلیل داده‌ها با یک چارچوب مدیریت شده ارائه می‌شوند، استفاده می‌کند.

مدلهای یادگیری ماشینی این سرویس شامل شناسایی تصاویر و طبقه بندی متون با الگوریتم‌های GPU است. این الگوریتم‌ها پس از استقرار توسط یک شبکه تحویل محتوا (CDN) توزیع و پشتیبانی می‌شوند.

پیشنهاد می‌کنیم، LiveRamp را که توصیفی از استفاده ابرداده در شبکه های Cloud است را مطالعه کنید.

  • Web Scraping

    یک تولید کننده لوازم آشپزخانه را در نظر بگیرید که اطلاعاتی از گزارش‌های رفتاری یکی از خرده فروشانش و روند رضایت مشتریان بدست آورده است. این شرکت با جمع آوری حجم زیادی از اطلاعات مربوط به بازخورد مشتریان و استفاده از مدل‌های یادگیری عمیق (Deep-Learning)، می‌تواند نسبت به بهبود مدل‌های فروش محصولات خود را اقدام کند.

    توجه کنید، با توجه به اینکه Web Scraping حجم زیادی دیتا تولید می‌کند، انتخاب منابع این داده‌ها مهمترین قسمت فرایند محسوب می‌شود. برای اطلاعات بیشتر، راهنمای IT Svit را بررسی کنید.

  • سیستم های مختلط (Mixed-Initiative Systems)

    سیستم پیشنهاد فیلم که در سایت‌هایی مانند Netflix از مکانیزم Mixed-Initiative Systems استفاده می کنند. این سیستم از ابر داده‌ها برای شناسایی فیلم‌های انتخابی مخاطبین و نیز الگوریتم‌های یادگیری ماشین جهت توصیه فیلم‌های مورد علاقه آن‌ها استفاده می‌کند.

    تولیدکنندگان خودروهای هوشمند نیز، از این مکانیزم برای سیستم های پیش بینی اتومبیل استفاده می‌کنند. مثلا اتومبیل‌های تسلا با ارتبابط با راننده و استفاده از داده‌ها به محرک‌های خارجی پاسخ می‌دهند.

  • پیش نیازها

    استنتاج نتایج دقیق در ML، نیازمند الگوریتم یادگیری قوی، داده‌های سالم، ابزارهای مقیاس پذیر و شفافیت انتظارات از خروجی‌هاست. برخی، این پیش نیازها را مانعی در استفاده کامل ML در کسب و کارها می‌دانند؛ اما اجرای صحیح فرایند نیازمند سرمایه گذاری‌ است.

  • Data Hygiene

    همانطور که برخی تمرینات در ورزش منجر به آسیب دیدگی می‌شوند، داده‌های نادرست، برای کسب و کارها گران تمام می‌شود. در مقاله Towards Data Science نیز اشاره شد، الگوریتمهایی که نادرست آموزش دیده‌اند، نتایج فاجعه باری برای یک شرکت یا صنعت به همراه آورده و آن‌ها را متحمل هزینه‌های زیاد می‌کنند. از آنجا که داده‌های ناصحیح، صحت دقت الگوریتم را تحت تاثیر قرار می‌دهند، لذا باید بتوان کیفیت و کامل بودن داده‌ها و منابع را تایید کرد.

  • تمرین با داده‌های واقعی

    فرض کنید در حال تولید یک الگوریتم یادگیری ماشین هستید، ولی داده‌های مورد نیاز برای آموزش را ندارید؛ اما به یک منبع داده‌ مناسبی دستیابی پیدا می‌کنید که می‌تواند جایگزین داده‌های واقعی شما شوند. دقت کنید، هر الگوریتم باید مساله خاصی را حل کند، لذا برای یادگیری آن نیز به داده‌های خاصی نیاز است. داده‌های خارجی معمولا نتایج درستی برای الگوریتم‌های مورد نیاز برای حل مساله و آموزش صحیح الگوریتم‌ها ندارند. داده‌های واقعی منجر به بهبود عملکرد الگوریتم‌ها می‌شوند.

  • بدانید چه از دیتا می خواهید

    اجازه ندهید، هیاهوی یکپارچگی یادگیری ماشینی و ابرداده‌ها باعث درک ضعیفی از حل مساله شوند. اگر مساله پیچیده‌ای دارید که راهکار چگونگی استفاده از داده‌هایتان برای حل آنرا نمی‌دانی، نباید الگوریتمتان را با داده‌های نامناسب یا داده‌های صحیح به روش‌های نادرست، تست کنید.

    لذا قبل از عمیق شدن در یک الگوریتم، زمان کافی برای ایجاد داده‌های مناسب کسب و کارتان اختصاص دهید. در این صورت، الگوریتم به درستی آموزش دیده و با داده‌های مناسب می‌توان به بهترین نحو مسائل کسب و کار را حل کرد.

  • ابزار مقیاس گذاری

    ابرداده‌ها امکان دسترسی به اطلاعات بیشتری را فراهم می‌کنند و یادگیری ماشینی ظرفیت حل مشکلات را توسعه می‌دهد. ترکیب این دو و اطلاعات تکمیلی شامل اطلاعات مالی، ارتباطات و … در حوزه صنعت، پکیج کاملی از تصمیم گیری را ارائه می‌دهند.

1399-09-12T23:36:01+03:30

ثبت ديدگاه

برگشت به بالا