курси Big Data

курси Big Data

Навчальні курси Live Data у великих регіонах під керівництвом інструктора розпочинаються з вступу в елементальні концепції Big Data, а потім у розвиток мов програмування та методології, що використовуються для аналізу даних. Обговорюються, порівнюються та впроваджуються інструменти та інфраструктура для зберігання великих даних, розподіленої обробки та масштабованості в сеансах демо-практики. Підготовка великих даних доступна як "тренування на місці" або "дистанційна навчальна програма". Навчання на місці може здійснюватися локально на приміщеннях клієнта в Україні україна або в корпоративних навчальних центрах NobleProg в Росії україна . Дистанційне навчання в режимі реального часу здійснюється за допомогою інтерактивного, віддаленого робочого столу. NobleProg - Ваш постачальник місцевих навчальних закладів

Testimonials

★★★★★
★★★★★

Big Data Course Outlines

CodeNameDurationOverview
smtwebintSemantic Web Overview7 hoursSemantic Web - спільний рух під керівництвом консорціуму World Wide Web (W3C), який рекламує загальні формати даних у World Wide Web. Семантична веб-мережа забезпечує загальну структуру, яка дає змогу спільно використовувати дані та використовувати їх у межах програми, корпоративної та спільноти.
ApacheIgniteApache Ignite: Improve Speed, Scale and Availability with In-Memory Computing14 hoursApache Ignite - це платформа для обчислення в пам'яті, яка розташована між додатком та рівнем даних для підвищення швидкості, масштабу та доступності.

У цій інструкції під керівництвом живих тренінгів учасники вивчатимуть принципи стійкого та чистого запам'ятовуючого пристрою в процесі створення пробного проекту обчислення в пам'яті.

До кінця цього тренінгу учасники зможуть:

- Використовуйте Ignite для запам'ятовування, наполегливості на диску, а також чисто розподіленої в базі даних пам'яті.
- Домогтися персистенції без синхронізації даних до реляційної бази даних.
- Використовуйте Ignite для виконання SQL і розподілених об'єднань.
- Покращуйте продуктивність, переміщуючи дані ближче до ЦП, використовуючи оперативну пам'ять як сховище.
- Розповсюджуйте набори даних по всьому кластеру для досягнення горизонтальної масштабованості.
- Інтеграція Ignite з RDBMS, NoSQL, Hadoop та процесорами машинного навчання.

Аудиторія

- Розробники

Формат курсу

- Частина лекції, частина дискусії, вправи та важка практика
graphcomputingIntroduction to Graph Computing28 hoursВелику кількість реальних проблем можна описати в термінах графів. Наприклад, веб-графік, графік соціальної мережі, мережевий графік поїзду та мовний графік. Ці графіки, як правило, надзвичайно великі; обробка їх вимагає спеціалізованого набору інструментів і процесів - ці інструменти та процеси можна називати Graph Computing (також відомі як Graph Analytics).

У цій інструкції під керівництвом тренерів, учасники дізнаються про технологічні пропозиції та підходи до реалізації для обробки даних графіка. Мета полягає в тому, щоб визначити об'єкти реального світу, їх характеристики та взаємозв'язки, потім моделювати ці відносини та обробляти їх як дані, використовуючи графічний підхід. Почнемо з широкого огляду та обмежених конкретними інструментами, коли ми просуваємо низку конкретних досліджень, практичних вправ і живих розробок.

До кінця цього тренінгу учасники зможуть:

- Зрозумійте, як графічні дані зберігаються та переміщуються
- Виберіть найкращі рамки для заданого завдання (від графічних баз даних до пакетної обробки)
- Запровадьте Hadoop, Spark, GraphX ​​і Pregel, щоб провести графічне обчислення на багатьох машинах паралельно
- Перегляньте великі проблеми, пов'язані з даними в реальному масштабі, з точки зору графіків, процесів та переходів

Аудиторія

- Розробники

Формат курсу

- Частина лекції, частина дискусії, вправи та важка практика
matlabpredanalyticsMatlab for Predictive Analytics21 hoursІнтелектуальна аналітика - це процес аналізу даних для прогнозування майбутнього. Цей процес використовує дані разом з обробкою даних, статистикою та методами машинного навчання для створення прогнозної моделі для прогнозування майбутніх подій.

У цій навчальній інструкції, учасники навчаться навчатися, як використовувати Matlab для побудови інтелектуальних моделей та застосувати їх до великих вибіркових наборів даних для прогнозування майбутніх подій на основі даних.

До кінця цього тренінгу учасники зможуть:

- Створіть інтелектуальні моделі для аналізу шаблонів історичних та транзакційних даних
- Використовуйте інтелектуальне моделювання для визначення ризиків та можливостей
- Побудуйте математичні моделі, які фіксують важливі тенденції
- Використовуйте дані з пристроїв та бізнес-систем, щоб зменшити витрати, заощадити час або скоротити витрати

Аудиторія

- Розробники
- Інженери
- Експерти домену

Формат курсу

- Частина лекції, частина дискусії, вправи та важка практика
nifidevApache NiFi for Developers7 hoursApache NiFi (Hortonworks DataFlow) - це інтегрована логістика даних в реальному часі та проста платформа обробки подій, яка дозволяє переміщати, відстежувати та автоматизувати дані між системами. Він написаний з використанням потокового програмування та забезпечує веб-інтерфейс користувача для керування потоками даних у режимі реального часу.

У цій інструкції під керівництвом живих тренінгів учасники вивчатимуть основи потокового програмного забезпечення, оскільки вони розробити ряд демо-розширень, компонентів і процесорів, що використовують Apache NiFi.

До кінця цього тренінгу учасники зможуть:

- Зрозумійте архітектуру NiFi та концепції потоку даних
- Розробіть розширення за допомогою NiFi та сторонніх API
- Користувальницькі розробляють власний процесор Apache Nifi
- Імпортуйте та обробляйте дані в режимі реального часу з різних та незвичних форматів файлів та джерел даних

Аудиторія

- Розробники
- Інженери-дані

Формат курсу

- Частина лекції, частина дискусії, вправи та важка практика
nifiApache NiFi for Administrators21 hoursApache NiFi (Hortonworks DataFlow) - це інтегрована логістика даних в реальному часі та проста платформа обробки подій, яка дозволяє переміщати, відстежувати та автоматизувати дані між системами. Він написаний з використанням потокового програмування та забезпечує веб-інтерфейс користувача для керування потоками даних у режимі реального часу.

У цій інструкції під керівництвом живих тренінгів учасники навчаться, як розпочати та керувати Apache NiFi в живій лабораторії.

До кінця цього тренінгу учасники зможуть:

- Встановити та налаштувати Apachi NiFi
- Джерело, перетворення та управління даними з різнорідних, розподілених джерел даних, включаючи бази даних та великі озера даних
- Автоматизація потоків даних
- Увімкнути потокову аналітику
- Застосовуйте різні підходи для прийому даних
- Трансформуйте великі дані та ділову статистику

Аудиторія

- Системні адміністратори
- Інженери-дані
- Розробники
- DevOps

Формат курсу

- Частина лекції, частина дискусії, вправи та важка практика
solrcloudSolrCloud14 hoursApache SolrCloud - це розподілений двигун обробки даних, який полегшує пошук та індексування файлів у розподіленій мережі.

У цій інструкції під керівництвом тренерів, учасники навчаться створювати екземпляр SolrCloud на Amazon AWS.

До кінця цього тренінгу учасники зможуть:

- Зрозумійте особливості SolCloud і як вони співвідносяться з такими, що належать до звичайних шаблонів-підлеглих
- Настроювання централізованого кластера SolCloud
- Автоматизація таких процесів, як спілкування з відсіками, додавання документів до відсіків тощо.
- Використовуйте Zookeeper спільно з SolrCloud для подальшої автоматизації процесів
- Використовуйте інтерфейс для керування звітами про помилки
- Завантаження балансу встановлення SolrCloud
- Налаштуйте SolrCloud для безперервної обробки та відмови

Аудиторія

- Solr Developers
- Менеджери проектів
- Системні адміністратори
- Пошук аналітиків

Формат курсу

- Частина лекції, частина дискусії, вправи та важка практика
datavaultData Vault: Building a Scalable Data Warehouse28 hoursМоделювання сховища даних - це техніка моделювання баз даних, яка забезпечує багаторічне історичне зберігання даних, що походять з декількох джерел. Сховища даних зберігає одну версію фактів або "всі дані, весь час". Його гнучкий, масштабований, послідовний та адаптивний дизайн охоплює найкращі аспекти 3-ї нормальної форми (3NF) та схеми зірок.

У цій інструкції під керівництвом тренерів, учасники навчаться створювати Data Vault.

До кінця цього тренінгу учасники зможуть:

- Зрозумійте архітектуру та концепції дизайну, що належать до Data Vault 2.0, та її взаємодію з Big Data, NoSQL та AI.
- Використовуйте методи збереження даних, щоб уможливити аудит, відстеження та перевірку історичних даних у сховищі даних
- Розробити послідовний та повторюваний процес ETL (витяг, перетворення, завантаження)
- Створення та розгортання високо масштабованих і повторюваних складів

Аудиторія

- Моделювачі даних
- Спеціаліст зі складування даних
- Спеціалісти з бізнес-аналітики
- Інженери-дані
- Адміністратори баз даних

Формат курсу

- Частина лекції, частина дискусії, вправи та важка практика
datameerDatameer for Data Analysts14 hoursDatameer - це платформа бізнес-аналітики та аналітики, побудована на Hadoop. Це дозволяє кінцевим користувачам легко знаходити, вивчати та корелювати великомасштабні, структуровані, напівструктуровані та неструктуровані дані у зручному для використання спосіб.

У цій інструкції під керівництвом живих тренінгів учасники навчаться використовувати Datameer для подолання крутих навчальних кривої Hadoop, коли вони проходять процедуру встановлення та аналізу ряду великих джерел даних.

До кінця цього тренінгу учасники зможуть:

- Створюйте, перевіряйте та інтерактивно вивчайте озеро даних підприємства
- Доступ до сховищ даних бізнес-аналітики, транзакційних баз даних та інших аналітичних магазинів
- Використовуйте користувальницький інтерфейс електронних таблиць, щоб створювати конвеєрні обробки даних від кінцевого до кінця
- Доступ до попередньо побудованих функцій для вивчення складних зв'язків даних
- Використовуйте майстри перетягування для візуалізації даних та створення інформаційних панелей
- Використовуйте таблиці, діаграми, графіки та карти, щоб аналізувати результати запитів

Аудиторія

- Аналітик даних

Формат курсу

- Частина лекції, частина дискусії, вправи та важка практика
tigonTigon: Real-time Streaming for the Real World14 hoursTigon - це платформа обробки потоків з відкритим вихідним кодом, в режимі реального часу, з низькою затримкою, високою пропускною спроможністю, натуральною оптоволоконною лінією, що стоїть на вершині HDFS та HBase за наполегливість. Прикладні програми Tigon використовують такі випадки, як виявлення та аналіз вторгнення в мережу, аналіз ринку соціальних мереж, аналітика місць розташування та рекомендації користувачам у реальному часі.

Під керівництвом інструктора, живого тренінгу, вводять підхід Тигона до поєднання режиму реального часу та пакетної обробки, оскільки він ходить учасників шляхом створення прикладу програми.

До кінця цього тренінгу учасники зможуть:

- Створюйте потужні поточні програми для обробки великих обсягів даних
- Опрацюйте джерела потоку, такі як Twitter і веб-серверів
- Використовуйте Tigon для швидкого приєднання, фільтрації та об'єднання потоків

Аудиторія

- Розробники

Формат курсу

- Частина лекції, частина дискусії, вправи та важка практика
vespaVespa: Serving Large-Scale Data in Real-Time14 hoursVespa - це велика обробка та обслуговування двигунів з відкритим кодом, створено компанією Yahoo. Він використовується для відповіді на запити користувачів, надання рекомендацій та надання персонального вмісту та реклами в реальному часі.

Цей навчальний курс, навчальний тренінг для вчителів, представляє проблеми, пов'язані з наданням великомасштабних даних і проходженням учасників шляхом створення програми, яка може обчислювати відповіді на запити користувачів, над великими наборами даних в режимі реального часу.

До кінця цього тренінгу учасники зможуть:

- Використовуйте Vespa для швидкого обчислення даних (зберігання, пошуку, ранжування, упорядкування) при обслуговуванні під час очікування користувача
- Впроваджуйте Vespa в існуючі програми, що включають пошук функцій, рекомендації та персоналізацію
- Інтеграція та розгортання Vespa з існуючими великими системами даних, такими як Hadoop і Storm.

Аудиторія

- Розробники

Формат курсу

- Частина лекції, частина дискусії, вправи та важка практика
bigdatabicriminalBig Data Business Intelligence for Criminal Intelligence Analysis35 hoursПрогрес у технологіях та збільшення обсягу інформації перетворюють те, як здійснюється правозастосування. Виклики, які представляють великі дані, майже такі ж складні, як обіцянка Big Data. Ефективне зберігання даних - одне з цих завдань; ефективно аналізуючи це інше.

У цій навчальному посібнику учасники вивчатимуть таку думку, з якою можна буде звертатися до технологій Big Data, оцінити їх вплив на існуючі процеси та політику та впроваджувати ці технології з метою виявлення злочинної діяльності та запобігання злочинності. Будуть вивчені практичні приклади з боку правоохоронних органів у всьому світі, щоб отримати уявлення про підходи, проблеми та результати їх впровадження.

До кінця цього тренінгу учасники зможуть:

- Об'єднайте технологію "Великі дані" із традиційними процесами збору даних, щоб об'єднати історію під час розслідування
- Реалізуйте великі рішення для зберігання та обробки даних для аналізу даних
- Підготуйте пропозицію щодо прийняття найбільш адекватних інструментів та процесів для забезпечення підходу до кримінального розслідування, керованого даними

Аудиторія

- Правоохоронці фахівці з технічної підготовки

Формат курсу

- Частина лекції, частина дискусії, вправи та важка практика
apexApache Apex: Processing Big Data-in-Motion21 hoursApache Apex - це нативна платформа YARN, яка об'єднує потік та пакетну обробку. Він обробляє великі дані в русі таким чином, що це масштабоване, функціональне, відмовостійке, стабільне, безпечне, розподілене і легко працююче.

Навчальний тренінг, присвячений інструктору, представляє уніфіковану архітектуру обробки потоків Apache Apex і проходить учасників шляхом створення розподіленої програми, що використовує Apex на Hadoop.

До кінця цього тренінгу учасники зможуть:

- Зрозумійте поняття трубопровідної обробки даних, такі як з'єднувачі для джерел і раковин, загальні перетворення даних тощо.
- Створення, масштабування та оптимізація програми Apex
- Процес обробки даних у реальному часі надійно та з мінімальною затримкою
- Використовуйте Apex Core і бібліотеку Apex Malhar для швидкого розробки додатків
- Використовуйте Apex API для написання та повторного використання існуючого коду Java
- Інтеграція Apex в інші програми як процесор
- Налаштування, тестування та масштабування додатків Apex

Аудиторія

- Розробники
- Архітектори підприємств

Формат курсу

- Частина лекції, частина дискусії, вправи та важка практика
alluxioAlluxio: Unifying Disparate Storage Systems7 hoursAlluxio - це система віртуальної розподіленої системи зберігання з відкритим кодом, яка об'єднує різноманітні системи зберігання даних та дозволяє програмам взаємодіяти з даними на швидкості пам'яті. Він використовується такими компаніями, як Intel, Baidu та Alibaba.

У цій інструкції під керівництвом живих тренінгів учасники навчаться використовувати Alluxio для монтажу різних обчислювальних систем із системами зберігання даних та ефективного управління даними з декількох петабайтних масштабів, оскільки вони проходять через створення додатка з Alluxio.

До кінця цього тренінгу учасники зможуть:

- Розробіть програму з Alluxio
- Підключіть великі системи та програми даних, зберігаючи при цьому одне простору імен
- Ефективно витягувати значення з великих даних у будь-якому форматі зберігання
- Покращення продуктивності робочого навантаження
- Розгортати та керувати Alluxio автономним або кластеризованим

Аудиторія

- Дані вченого
- Розробник
- Системний адміністратор

Формат курсу

- Частина лекції, частина дискусії, вправи та важка практика
flinkFlink for Scalable Stream and Batch Data Processing28 hoursApache Flink - це система з відкритим кодом для обробки масштабованих потоків та пакетних даних.

Навчальний тренінг, який проводиться інструктором, представляє принципи та підходи щодо обробки розподіленого потоку та пакетної обробки даних, а учасники проходять шляхом створення поточної програми в режимі реального часу.

До кінця цього тренінгу учасники зможуть:

- Налаштування середовища розробки додатків для аналізу даних
- Пакет, виконайте та стежте за програмами потокового передавання даних на базі Flink
- Управління різними робочими навантаженнями
- Використовуйте розширені аналітики за допомогою Flink ML
- Встановіть багатонасельний кластер Flink
- Вимірюйте та оптимізуйте продуктивність
- Інтеграція Flink з різними системами Big Data
- Порівняйте можливості Flink з іншими великими рамками обробки даних

Аудиторія

- Розробники
- Архітектори
- Інженери-дані
- Фахівці з аналітики
- Технічні менеджери

Формат курсу

- Частина лекції, частина дискусії, вправи та важка практика
samzaSamza for Stream Processing14 hoursApache Samza - це нестандартна, асинхронна обчислювальна платформа з відкритим кодом для обробки потоку. Він використовує Apache Kafka для обміну повідомленнями та Apache Hadoop YARN для відмовостійкості, ізоляції процесорів, безпеки та управління ресурсами.

Цей навчальний курс, навчальний курс навчання, означає принципи створення систем обміну повідомленнями та розподіленої обробки потоку, а учасники ходитимуть шляхом створення зразка проекту Samza і виконання роботи.

До кінця цього тренінгу учасники зможуть:

- Використовуйте Samza, щоб спростити код, необхідний для отримання та отримання повідомлень.
- Відокремити обробку повідомлень від програми.
- Використовуйте Samza для реалізації асинхронних обчислень в режимі реального часу.
- Використовуйте обробку потоку, щоб забезпечити більш високий рівень абстракції над системами обміну повідомленнями.

Аудиторія

- Розробники

Формат курсу

- Частина лекції, частина дискусії, вправи та важка практика
zeppelinZeppelin for Interactive Data Analytics14 hoursApache Zeppelin - це веб-ноутбук для захоплення, вивчення, візуалізації та обміну даними Hadoop та Spark.

Навчальний тренінг, який проводиться інструктором, представляє концепції інтерактивних аналітичних даних та допомагає учасникам розгортати та використовувати Zeppelin в однокористувальному або багатокористувацькому середовищі.

До кінця цього тренінгу учасники зможуть:

- Встановіть і налаштуйте Zeppelin
- Розробка, організація, виконання та обмін даними в інтерфейсі на основі браузера
- Візуалізуйте результати, не звертаючись до командного рядка або деталей кластеру
- Виконайте та співпрацюйте над тривалими робочими процесами
- Працюйте з будь-яким числом плагінів мови / обробки даних-бекендалів, таких як Scala (з Apache Spark), Python (з Spark Spyware), Spark SQL, JDBC, Markdown і Shell.
- Інтеграція Zeppelin з іскоркою, Flink та картою зменшення
- Захистіть кілька примірників Zeppelin з Apache Shiro

Аудиторія

- Інженери-дані
- Аналітик даних
- Дані вчених
- Розробники програмного забезпечення

Формат курсу

- Частина лекції, частина дискусії, вправи та важка практика
magellanMagellan: Geospatial Analytics on Spark14 hoursMagellan - це розподілений двигун для роботи з відкритим кодом для геопросторової аналітики з великими даними. Впроваджено на вершині Apache Spark, він розширює Spark SQL і забезпечує реляційну абстракцію для геопросторової аналітики.

Під керівництвом інструктора, живого тренінгу, вводяться концепції та підходи для реалізації геоазіатської аналітики та учасників прогулянок шляхом створення прогностичного аналізу із застосуванням Magellan на Spark.

До кінця цього тренінгу учасники зможуть:

- Ефективно запитуйте, аналізуйте та об'єднуючи геопросторові набори даних в масштабі
- Реалізувати геопросторові дані в бізнес-аналізі та програмах інтелектуальної аналітики
- Використовуйте просторовий контекст, щоб розширити можливості мобільних пристроїв, датчиків, журналів та носіїв

Аудиторія

- Розробники додатків

Формат курсу

- Частина лекції, частина дискусії, вправи та важка практика
hdpHortonworks Data Platform (HDP) for Administrators21 hoursHortonworks Data Platform - це платформа підтримки для платформи Apache Hadoop з відкритим кодом, яка забезпечує стабільну основу для розробки великих рішень даних у екосистемі Apache Hadoop.

Цей навчальний тренінг, присвячений інструктору, вводить Hortonworks та йде учасникам шляхом розгортання рішення Spark + Hadoop.

До кінця цього тренінгу учасники зможуть:

- Використовуйте Hortonworks, щоб надійно запустити Hadoop у великих масштабах
- Об'єднайте можливості безпеки, управління та операцій Hadoop за допомогою оперативних аналітичних робочих процесів Spark.
- Використовуйте Hortonworks для вивчення, перевірки, сертифікації та підтримки кожного з компонентів проекту Spark
- Процес різні типи даних, в тому числі структурований, неструктурований, в русі та відпочинку.

Аудиторія

- Адміністратори Hadoop

Формат курсу

- Частина лекції, частина дискусії, вправи та важка практика
PentahoDIPentaho Data Integration Fundamentals21 hoursІнтеграція даних Pentaho - це інструмент інтеграції з відкритим кодом для визначення робочих місць та перетворень даних.

У цій інструкції під керівництвом живих тренінгів учасники навчаться користуватися потужними можливостями ETL для Pentaho Data Integration і багатим графічним інтерфейсом для керування цілим великим життєвим циклом даних, що дозволить максимально збільшити вартість даних організації.

До кінця цього тренінгу учасники зможуть:

- Створіть, перегляньте та запустіть основні перетворення даних, що містять кроки та хміль
- Налаштуйте та захистіть репозиторій Pentaho Enterprise
- Використовуйте різноманітні джерела даних та створюйте єдину, уніфіковану версію істини у форматі, готовому аналізі.
- Надайте результати для третіх частин додатків для подальшої обробки

Аудиторія

- Аналітик даних
- Розробники ETL

Формат курсу

- Частина лекції, частина дискусії, вправи та важка практика
TalendDITalend Open Studio for Data Integration 28 hoursTalend Open Studio для інтеграції даних - це продукт інтеграції з відкритим вихідним кодом, який використовується для об'єднання, конвертування та оновлення даних у різних регіонах бізнесу.

У цій інструкції під керівництвом тренерів, учасники навчаться використовувати інструмент Talend ETL для здійснення перетворення даних, вилучення даних та підключення до Hadoop, Hive та Pig.

До кінця цього навчання учасники зможуть

- Поясніть поняття позаду ETL (витяг, перетворення, завантаження) та розповсюдження
- Визначте методи ETL та ETL для з'єднання з Hadoop
- Ефективно накопичувати, отримувати, перетворювати, споживати, перетворювати та формувати великі дані відповідно до вимог бізнесу
- Завантажте та витягуйте великі записи з Hadoop (необов'язково), Hive (необов'язково) та бази даних NoSQL

Аудиторія

- Професіонали бізнес-аналітики
- Менеджери проектів
- Фахівці баз даних
- SQL Developers
- ETL Developers
- Архітектори рішення
- Архітектори даних
- Спеціалісти з зберігання даних
- Системні адміністратори та інтегратори

Формат курсу

- Частина лекції, частина дискусії, вправи та важка практика

Примітка

- Щоб просити індивідуальне навчання для цього курсу, зв'яжіться з нами, щоб організувати.
BDATRBig Data Analytics for Telecom Regulators16 hoursДля задоволення відповідності регуляторів, CSPs (постачальники послуг зв'язку) можуть підключитися до Big
Аналіз даних, який не тільки допомагає їм відповідати вимогам, але й у межах того самого
вони можуть збільшити рівень задоволеності клієнтів і, таким чином, зменшити обмін. Насправді з тих пір
відповідність пов'язана з якістю послуг, прив'язаною до контракту, будь-якої ініціативи щодо виконання вимог
відповідність, поліпшить "конкурентну перевагу" ССП. Тому важливо це
Регулятори повинні мати можливість консультувати / керувати комплектом аналітичної практики великих даних для ССП, яка буде
бути взаємовигідним між регуляторами та ЦСП.

2 курсу дня: 8 модулів, по 2 години кожний = 16 годин
sparkpythonPython and Spark for Big Data (PySpark)21 hoursPython - це мова програмування високого рівня, відомий своїм зрозумілим синтаксисом та читаемостью коду. Іскра - це двигун обробки даних, який використовується для запиту, аналізу та перетворення великих даних. PySpark дозволяє користувачам інтерфейсу Spark з Python.

У цій навчальному посібнику, учасники навчаться, як використовувати Python та Spark разом для аналізу великих даних, коли вони працюють на практичних вправ.

До кінця цього тренінгу учасники зможуть:

- Дізнайтеся, як використовувати Spark з Python для аналізу Big Data
- Працюйте над вправ, що імітують реальні обставини
- Використовуйте різні інструменти та методи для великого аналізу даних за допомогою PySpark

Аудиторія

- Розробники
- ІТ-фахівці
- Дані вчених

Формат курсу

- Частина лекції, частина дискусії, вправи та важка практика
ambariApache Ambari: Efficiently Manage Hadoop Clusters21 hoursApache Ambari - це платформа керування відкритим кодом для надання, керування, моніторингу та захисту кластерів Apache Hadoop.

У цьому навчальному тренінгу учасники навчаться інструментам та практичним методам управління, що надаються Амбарі, для успішного управління кластерами Hadoop.

До кінця цього тренінгу учасники зможуть:

- Налаштуйте кластер Big Data, використовуючи Ambari
- Застосовуйте розширені функції та функції Ambari для різних випадків використання
- Необхідно легко додавати та видаляти вузли
- Покращуйте продуктивність кластера Hadoop за допомогою настроювання та налаштування

Аудиторія

- DevOps
- Системні адміністратори
- DBAs
- Hadoop тестування професіоналів

Формат курсу

- Частина лекції, частина дискусії, вправи та важка практика
foundrFoundation R7 hoursМета курсу полягає в тому, щоб дати учасникам можливість освоїти основи R та як працювати з даними.
sparkcloudApache Spark in the Cloud21 hoursApache Spark's learning curve is slowly increasing at the begining, it needs a lot of effort to get the first return. This course aims to jump through the first tough part. After taking this course the participants will understand the basics of Apache Spark , they will clearly differentiate RDD from DataFrame, they will learn Python and Scala API, they will understand executors and tasks, etc. Also following the best practices, this course strongly focuses on cloud deployment, Databricks and AWS. The students will also understand the differences between AWS EMR and AWS Glue, one of the lastest Spark service of AWS.

AUDIENCE:

Data Engineer, DevOps, Data Scientist
bigdataanahealthBig Data Analytics in Health21 hoursВелика аналітика даних включає в себе процес вивчення великої кількості різноманітних наборів даних, з метою виявлення кореляцій, прихованих візерунків та інших корисних відомостей.

Індустрія охорони здоров'я має величезну кількість складних різнорідних медичних та клінічних даних. Застосування великих аналітичних даних щодо даних про стан здоров'я надає величезний потенціал для отримання статистичних даних для покращення надання медичних послуг. Однак величезна кількість цих наборів дає великі проблеми при аналізі та практичному застосуванні до клінічного середовища.

У цьому навчанні під керівництвом інструктора, живе тренування (віддалене), учасники навчаться виконувати великі аналізи даних у сфері здоров'я, коли вони проходять через низку практичних навчань у прямому ефірі.

До кінця цього тренінгу учасники зможуть:

- Встановіть і настройте великі інструменти аналізу даних, такі як Hadoop MapReduce та Spark
- Зрозумійте характеристики медичних даних
- Застосовуйте великі методи передачі медичних даних
- Вивчення великих систем даних та алгоритмів у контексті охорони здоров'я

Аудиторія

- Розробники
- Дані вчених

Формат курсу

- Частина лекції, частина дискусії, вправи та важка практика.

Примітка

- Щоб просити індивідуальне навчання для цього курсу, зв'яжіться з нами, щоб організувати.
arrowApache Arrow for Data Analysis across Disparate Data Sources14 hoursApache Arrow - це структура обробки даних з пам'яттю з відкритим кодом. Він часто використовується разом з іншими інструментами обробки даних для доступу до розрізнених сховищ даних для аналізу. Він добре інтегрується з іншими технологіями, такими як бази даних GPU, бібліотеки та інструменти для машинного навчання, двигуни виконання та візуалізація даних.

У цій навчальній інструкції на місці, навчаючись, учасники навчаться інтегрувати Apache Arrow з різними системами Data Science для доступу до даних з різнорідних джерел даних.

До кінця цього тренінгу учасники зможуть:

- Встановіть та налаштуйте Apache Arrow у розподіленому кластері
- Використовуйте Apache Arrow для доступу до даних з різних джерел даних
- Використовуйте Apache Arrow, щоб уникнути необхідності конструювати та підтримувати складні трубопроводи ETL
- Аналізуйте дані в різних джерелах даних, не консолідуючи їх в централізований сховище

Аудиторія

- Дані вчених
- Інженери-дані

Формат курсу

- Частина лекції, частина дискусії, вправи та важка практика

Примітка

- Щоб просити індивідуальне навчання для цього курсу, зв'яжіться з нами, щоб організувати.
sqoopMoving Data from MySQL to Hadoop with Sqoop14 hoursSqoop - це програмне забезпечення з відкритим кодом для передачі даних між Hadoop і реляційними базами даних або мейнфреймами. Він може використовуватися для імпорту даних з реляційної системи керування базами даних (RDBMS), такими як MySQL, Oracle або мейнфрейм у розподілену файлову систему Hadoop (HDFS). Після цього дані можуть бути перетворені в Hadoop MapReduce, а потім повторно експортуються назад в RDBMS.

У цій навчальній інструкції, учасники навчаться навчатися, як використовувати Sqoop для імпорту даних з традиційної реляційної бази даних до зберігання Hadoop таких HDFS або Hive і навпаки.

До кінця цього тренінгу учасники зможуть:

- Встановити та налаштувати Sqoop
- Імпортувати дані з MySQL на HDFS і Hive
- Імпортувати дані з HDFS і Hive в MySQL

Аудиторія

- Системні адміністратори
- Інженери-дані

Формат курсу

- Частина лекції, частина дискусії, вправи та важка практика

Примітка

- Щоб просити індивідуальне навчання для цього курсу, зв'яжіться з нами, щоб організувати.
beamUnified Batch and Stream Processing with Apache Beam14 hoursApache Beam - це з відкритим вихідним кодом, уніфікована модель програмування для визначення та виконання конвеєрів обробки паралельних даних. Влада полягає в її здатності керувати як партійними, так і потоковими трубопроводами, причому виконання здійснюється одним із підтримуваних розподілених процесів, що підтримуються компанією Beam: Apache Apex, Apache Flink, Apache Spark і Google Cloud Cloud Flow. Apache Beam є корисним для виконання завдань ETL (витягування, перетворення та завантаження), таких як переміщення даних між різними носіями та джерелами даних, перетворення даних у більш бажаний формат та завантаження даних у нову систему.

У цьому навчанні під керівництвом інструктора, живе навчання (на місці або віддаленому), учасники дізнаються, як реалізувати Apache Beam SDK у додатку Java або Python, яка визначає трубопровід обробки даних для розбиття великого набору даних на дрібні шматки для незалежної, паралельної обробки .

До кінця цього тренінгу учасники зможуть:

- Встановити та настроїти Apache Beam.
- Використовуйте єдину програмувальну модель для виконання як пакетної, так і потокової обробки з використанням їх Java або Python програми.
- Виконати трубопроводи в різних середовищах.

Аудиторія

- Розробники

Формат курсу

- Частина лекції, частина дискусії, вправи та важка практика

Примітка

- Цей курс буде доступний Scala в майбутньому. Будь ласка, зв'яжіться з нами, щоб узгодити.

Upcoming Big Data Courses

CourseCourse DateCourse Price [Remote / Classroom]
Big Data Business Intelligence for Telecom and Communication Service Providers - Kiev, Holosiyvskiy Park Mon, 2019-02-04 09:308750EUR / 9950EUR
Amazon Redshift - Kiev, Holosiyvskiy Park Tue, 2019-02-05 09:304500EUR / 5300EUR
Big Data Business Intelligence for Telecom and Communication Service Providers - Kiev, Holosiyvskiy Park Mon, 2019-04-01 09:308750EUR / 9950EUR
Amazon Redshift - Kiev, Holosiyvskiy Park Tue, 2019-04-02 09:304500EUR / 5300EUR
Amazon Redshift - Kiev, Holosiyvskiy Park Mon, 2019-05-27 09:304500EUR / 5300EUR
Weekend Big Data courses, Evening Big Data training, Big Data boot camp, Big Data instructor-led, Weekend Big Data training, Evening Big Data courses, Big Data coaching, Big Data instructor, Big Data trainer, Big Data training courses, Big Data classes, Big Data on-site, Big Data private courses, Big Data one on one training

Course Discounts

CourseVenueCourse DateCourse Price [Remote / Classroom]
Business Process Modeling using BPMN and UMLKiev, Holosiyvskiy Park Tue, 2019-04-02 09:303150EUR / 3750EUR
Elasticsearch Advanced Administration, Monitoring and MaintenanceKiev, Holosiyvskiy Park Tue, 2019-04-02 09:303150EUR / 3750EUR
Introduction to Embedded ComputersKiev, Holosiyvskiy Park Wed, 2019-06-05 09:303150EUR / 3750EUR
Advanced Go ProgrammingKiev, Holosiyvskiy Park Mon, 2019-06-10 09:304725EUR / 5525EUR
Introduction to R for FinanceKiev, Holosiyvskiy Park Mon, 2019-06-17 09:305250EUR / 6050EUR

Course Discounts Newsletter

We respect the privacy of your email address. We will not pass on or sell your address to others.
You can always change your preferences or unsubscribe completely.

Some of our clients

is growing fast!

We are looking to expand our presence in Ukraine!

As a Business Development Manager you will:

  • expand business in Ukraine
  • recruit local talent (sales, agents, trainers, consultants)
  • recruit local trainers and consultants

We offer:

  • Artificial Intelligence and Big Data systems to support your local operation
  • high-tech automation
  • continuously upgraded course catalogue and content
  • good fun in international team

If you are interested in running a high-tech, high-quality training and consulting business.

Apply now!