8 تغییر قابل توجه داده‌ها در سال 2017

  • ۲۸ مرداد ۱۳۹۶
  • 5
  • بدون دیدگاه
  • نویسنده: شفافیت برای ایران
  • لینک کوتاه:

سال 2017 فرصت‌های بسیار و همچنین چالش‌هایی دشوار را در زمینه‌ی داده‌ها وعده می‌دهد. بن لوریکا آنچه را که در پیش روی ماست، بررسی می‌کند. 1. تعداد بیشتری از متخصصین علم داده، استفاده از یادگیری عمیق را در پیش خواهند […]

8 تغییر قابل توجه داده‌ها در سال 2017

سال 2017 فرصت‌های بسیار و همچنین چالش‌هایی دشوار را در زمینه‌ی داده‌ها وعده می‌دهد. بن لوریکا آنچه را که در پیش روی ماست، بررسی می‌کند.

1. تعداد بیشتری از متخصصین علم داده، استفاده از یادگیری عمیق را در پیش خواهند گرفت.

در سال 2016 شاهد پیشرفت‌هایی بزرگی بودیم؛ پیشرفت‌هایی در یادگیری عمیق و عرضه‌ی ابزارهایی جدید برای آسان‌تر ساختن یادگیری عمیق و همچنین ابزارهایی که مستقیماً با بسترها و چارچوب‌های موجود کلان داده‌ها ادغام می‌شدند. و از طریق یادگیری عمیق، می‌توان کارهای مفید بسیاری انجام داد – کارهایی که کم کم برای عملکرد یک سازمان حیاتی خواهند بود، همچون سری‌های زمانی و رویدادهای داده‌ها (از جمله تشخیص روندهای خلاف قاعده)، اینترنت اشیا (IoT) و تحلیل داده‌های دریافت شده از سنسورها، تشخیص تکلم و توصیه‌گرهای متن‌کاوی – یادگیری عمیق در سال 2017 مهم‌تر از این است که توسط متخصصین علم داده نادیده گرفته شود.

2. تقاضا برای مهارت‌های مهندسی داده، رو به افزایش خواهد بود.

سال 2012، نشریه‌ی هاروارد بیزینس ریویو از متخصصین علم داده به عنوان «جذاب‌ترین» شغل قرن 21 نام برد. انتظار داریم سال 2017 تقاضا برای متخصصین علم داده ادامه یابد، اما شکاف مهارتی بیشتر در زمینه‌ی مهارت‌های مهندسی داده مطرح می‌شود (بیش از متخصصین علوم داده). شرکت‌ها دنبال متخصصین علم داده‌ای هستند که می‌توانند کدنویسی کنند. به متخصصین علم داده‌هایی نیاز خواهیم داشت که می‌توانند در سیستم‌های تولید موثر باشند. بله، این مهارت‌ها بین متخصصین علم داده نایاب هستند، اما حقوق‌های بسیار بالایی نیز در پی خواهند داشت.

3. شرکت‌های بیشتری از خدمات مدیریت شده ابری استفاده خواهند کرد.

یک پرسشنامه‌ی O’Reilly اخیراً به این نتیجه رسید که «پس از اینکه یک سازمان در زمینه‌ی استفاده از کلان‌داده‌ها در قالب ابری مقداری تجربه کسب کند، با احتمال بیشتری استفاده خود از خدمات کلان‌داده‌ی مشابه را افزایش خواهد داد. به بیانی دیگر هنگامی که آب استخر را امتحان کردند، با احتمال بیشتری در استخر شیرجه می‌زنند.»
هم‌اکنون شرکت‌ها به گستره‌ی وسیعی از خدمات برای ذخیره‌سازی، پردازش داده‌ها، مصورسازی، تجزیه و تحلیل و هوش مصنوعی دسترسی دارند. در حالی که در این زمینه مولفه‌های متن‌باز محبوبی در دسترس است، خدماتی که به صورت اختصاصی مدیریت می‌شوند، اثبات کرده‌اند که گزینه‌ی محبوب و رایجی می‌باشند. چون ابزارها توسط ارائه دهندگان خدمات مدیریت خواهند شد، متخصصین داده‌ی درون سازمان‌ها بیش از ابزارها، بر مشکلات جاری متمرکز خواهند بود؛ اگرچه لازم خواهد بود که طراحی، ساخت و مدیریت نرم‌افزارهایی که در فضای ابری اجرای می‌شوند را بیاموزند.

4. اما همه چیز به فضای ابری عمومی منتقل نخواهد شد.

سیستم‌های قدیمی، داده‌های حساس و امنیت، سازگاری و مسائل حریم خصوصی نیاز به ترکیبی از فضای ابری، سیستم‌های حاضر در محل و نرم‌افزارهای ترکیبی خواهد داشت. همچنین نرم‌افزارهایی وجود خواهند داشت که از تامین‌کنندگان تخصصی یا حتی خصوصیِ فضای ابری همچون Predix برای اینترنت اشیای صنعتی یا فضای ابری CIA ساخته شده توسط خدمات وب آمازون استفاده کنند. سازمان‌ها به معماران راه حل‌هایی نیاز خواهند داشت که می‌دانند چگونه از مزایای هر دو مورد بهره مند شوند.

5. ابزارهای ساده‌تر، کارهای بسیاری را ساده‌سازی خواهند کرد.

ابزارهای جدید برای تجزیه و تحلیل خود توسط خود، انجام برخی از انواع کارهای متنوع مربوط با تجزیه و تحلیل داده‌ها را آسان‌تر ساخته است. برخی نیاز به هیچ‌گونه برنامه‌نویسی ندارند، در حالی که برخی از ابزارهای دیگر انجام ترکیبی از کدنویسی، گزینه‌های بصری و متنی را در محیط کار خود ساده‌تر ساخته‌اند. این ابزارها به کاربرانی که آماردان یا در زمینه‌ی داده‌ها متخصص نیستند، قدرت انجام تحلیل‌های منظم را می‌دهد، در نتیجه وقت متخصصین علم داده آزادتر خواهد بود تا بتوانند پروژه‌هایی پیچیده‌تر انجام دهند یا بر روی بهینه‌سازی پیوسته‌ی نرم‌افزارها و خطوط ارتباطی تمرکز کنند.
چند سال است که این روند در جریان است، اما اخیراً شاهد ابزارهایی بوده‌ایم که تجزیه و تحلیل‌های پیشرفته را عمومی‌تر ساخته‌اند (برای مثال Microsoft Azure)، که استفاده از منابع دریافت داده‌ها در مقیاس بزرگ و یادگیری ماشینی پیشرفته (برای مثال بستری ابری گوگل و یادگیری ماشینی آمازون) را میسر ساخته‌اند.

6. جدایی ذخیره‌سازی و محاسبات شتاب بیشتری خواهد یافت.

پروژه AMPLab در دانشگاه کالیفرنیا (برکلی)، نوامبر گذشته به پایان رسید، اما گروه مسئول Apache Spark و Alluxio تنها گروه‌هایی نیستند که بر جدایی ذخیره‌سازی و محاسبات تاکید می‌کنند. همانطور که بالاتر ذکر شد، محل‌های ذخیره‌سازی محبوب اشیا در فضای ابری و حتی برخی معماری‌های یادگیری عمیق روی این الگو تاکید دارند.

7. لپ‌تاپ‌ها و ابزارهای کار، مسیر تکامل ادامه خواهند داد.

Jupyter Notebook به طور گسترده‌ای مورد استفاده متخصصین علم داده است چون یک معماری غنی از عناصری دارد که می‌توانند برای گستره وسیعی از مسائل از جمله پاکسازی و دگرگونی داده‌ها، شبیه‌سازی اعداد، مدل‌سازی آماری و یادگیری ماشینی مورد استفاده و بازسازی قرار گیرند. (برای مثال O’Reilly از Jupyter Notebook به عنوان اساسی برای آموزش‌های تعاملی Oriole استفاده می‌کند.) این دستگاه برای تیم‌های داده‌ای مفید است چون می‌توانید اسنادی ایجاد کنید که حاوی کد زنده، معادلات، مصورسازی‌ها و متون توضیحی است و آن‌ها را به اشتراک بگذارید. و با اتصال Jupyter به Spark، می‌توانید با Spark، با یک رابط کاربری آسان، به جای استفاده از خط فرمان Linux یا Spark Shell ، کدهایی به زبان پایتون بنویسید.
متخصصین علم داده به استفاده از گستره‌ای از ابزارها ادامه خواهند داد. لپ‌تاپ‌های Beaker از بسیاری از زبان‌های برنامه‌نویسی پشتیبانی می‌کنند و اکنون چندین لپ‌تاپ وجود دارد که برای کاربران Spark (Spark Notebook، Apache Zeppelin و Databricks Cloud) تولید شده‌اند. در هر حال، تمام متخصصین داده از لپ‌تاپ‌ها استفاده نمی‌کنند؛ لپ‌تاپ‌ها مناسب مدیریت خطوط پیچیده‌ی ارتباطی داده‌ها نیستند؛ ابزارهای کار برای این امر مناسب‌تر هستند. و مهندسین داده به استفاده از ابزارهای مورد استفاده‌ی توسعه‌دهندگان نرم‌افزار رغبت بیشتری دارند. با ورود یادگیری عمیق و دیگر تکنیک‌های جدید به علم داده و جوامع کلان‌داده، ما پیش‌بینی می‌کنیم که ابزارهای موجود بیشتر تکامل پیدا خواهند کرد.

8. جامعه‌ی داده، به ایجاد بهترین روش برای رسیدن به راه حل‌هایی برای رسیدگی به مسائلی همچون حریم خصوصی و مسائل اخلاقی ادامه خواهد داد.

با رواج یافتن یادگیری ماشینی، تنوع یافتن منابع داده‌ها و پیچیده‌تر شدن الگوریتم‌ها، دستیابی به شفافیت بسیار سخت‌تر خواهد بود. دستیابی به عدالت در برنامه‌های داده‌ای، چالش‌برانگیزتر از همیشه شده است. در سال 2017 منتظر بحث و گفتگوی بیشتری درباره سیاست‌هایی عمومی هستیم که به این نگرانی‌ها بپردازد، بهترین روش‌ها برای آزمایش تعصب و تبعیض ارائه کند و به یک افزایش آگاهی منجر شود که فرضیات جانبدارانه منجر به نتایج جانبدارانه می‌شود.