راهبردها و اصول یادگیری ماشین توزیعی بر روی کلان داده‌ها

نوع فایل : word

تعداد صفحات : 45

تعداد کلمات : 15900

مجله : Engineering

انتشار : 2016

ترجمه متون داخل جداول : ترجمه شده است

درج جداول در فایل ترجمه : درج شده است

منابع داخل متن : به صورت فارسی درج شده است

کیفیت ترجمه : طلایی

:

تاریخ انتشار
17 مارس 2021
دسته بندی
تعداد بازدیدها
1657 بازدید
24,000 تومان

عنوان فارسی مقاله:راهبردها و اصول یادگیری ماشین توزیعی بر روی کلان داده‌ها

 چکیده  

ظهور کلان داده‌ها منجر به تقاضاهای جدیدی برای سیستم‌های یادگیری ماشینی برای یادگیری از مدل‌های پیچیده با میلیون‌ها تا میلیاردها پارامتر شده است که ظرفیت کافی را برای در برگیری مجموعه داده‌های عظیم دارند و روش‌های تحلیلی پیش بینی قوی را ارائه می‌کنند (نظیر ویژگی‌های پنهان بعد بالا، مدل سازی های متوسط و کارکردهای تصمیم). به منظور اجرای الگوریتم‌های ML در این مقیاس‌ها، بر روی یک خوشه توزیعی با ده ها تا هزاران ماشین، اغلب گفته می‌شود که تلاش‌های مهندسی قابل توجهی نیاز است و می‌توان این سؤال را پرسید که آیا این چنین مهندسی‌ای واقعاً در حوزه تحقیقات ML قرار می‌گیرد یا خیر. با توجه به این که سیستم‌های بزرگ ML به شدت از اطلاعات الگوریتمی و آماری ML ذی نفع می‌شوند و این که محققان ML بایستی از این سیستم‌ها بهره بگیرند، ما در مورد یک سری اصول و راهبردهای بر گرفته از تلاش‌های اخیر خود بر روی راه حل‌های ML مقیاس صنعتی صحبت می‌کنیم. این اصول و راهبردها در یک طیف از کاربرد، مهندسی تا تحقیقات نظری و توسعه سیستم‌های معماری و ML بزرگ متغیر بوده و هدف آن‌ها درک شیوه کارامد سازی، قابل کاربرد سازی و پشتیبانی با ضمانت‌های هم گرایی و مقیاس بندی می‌باشد. آن‌ها با چهار سؤال کلیدی همراه هستند که توجه کمی را در تحقیقات ML به خود معطوف کرده‌اند: ۱- چگونه می‌توان برنامه ML را در یک خوشه توزیع کرد؟ چگونه محاسبه ML را می‌توان با ارتباط درون ماشینی متصل کرد؟ چگونه این ارتباطات را می‌توان انجام داد؟ چه چیزی بین ماشین‌ها رد و بدل می‌شود؟ با انتخاب ویژگی‌های الگوریتمی و آماری منحصر به فرد برای برنامه‌های ML و با تجزیه موارد موفق برای نشان دادن شیوه کنترل این اصول برای طراحی و توسعه نرم افزار توزیعی با عملکرد بالا و نیز چارچوب ML، ما فرصت‌های موجود برای محققان ML و متخصصان را برای شکل دهی و توسعه زمینه‌های بین ML و سیستم‌ها، شفاف سازی می‌کنیم(اصول یادگیری ماشین توزیعی).

ادامه مطلب

راهنمای خرید:
  • لینک دانلود فایل بلافاصله بعد از پرداخت وجه به نمایش در خواهد آمد.
  • همچنین لینک دانلود به ایمیل شما ارسال خواهد شد به همین دلیل ایمیل خود را به دقت وارد نمایید.
  • ممکن است ایمیل ارسالی به پوشه اسپم یا Bulk ایمیل شما ارسال شده باشد.
  • در صورتی که به هر دلیلی موفق به دانلود فایل مورد نظر نشدید با ما تماس بگیرید.

Title: Strategies and Principles of Distributed Machine Learning on Big Data

Abstract

 The rise of big data has led to new demands for machine learning (ML) systems to learn complex models, with millions to billions of parameters, that promise adequate capacity to digest massive datasets and offer powerful predictive analytics (such as high-dimensional latent features, intermediate representations, and decision functions) thereupon. In order to run ML algorithms at such scales, on a distributed cluster with tens to thousands of machines, it is often the case that significant engineering efforts are required—and one might fairly ask whether such engineering truly falls within the domain of ML research. Taking the view that “big” ML systems can benefit greatly from ML-rooted statistical and algorithmic insights—and that ML researchers should therefore not shy away from such systems design—we discuss a series of principles and strategies distilled from our recent efforts on industrial-scale ML solutions. These principles and strategies span a continuum from application, to engineering, and to theoretical research and development of big ML systems and architectures, with the goal of understanding how to make them efficient, generally applicable, and supported with convergence and scaling guarantees. They concern four key questions that traditionally receive little attention in ML research: How can an ML program be distributed over a cluster? How can ML computation be bridged with inter-machine communication? How can such communication be performed? What should be communicated between machines? By exposing underlying statistical and algorithmic characteristics unique to ML programs but not typically seen in traditional computer programs, and by dissecting successful cases to reveal how we have harnessed these principles to design and develop both high-performance distributed ML software as well as general-purpose ML frameworks, we present opportunities for ML researchers and practitioners to further shape and enlarge the area that lies between ML and systems.
دیدگاهتان را بنویسید