Как искра Apache преобразовывает обработку больших данных, развитие

искра

Искра Apache ускоряет обработку больших данных фактором 10 – 100 и упрощает разработку приложений до такого градуса, что разработчики вызывают его «переломный момент».Искру Apache вызвали переломным моментом и возможно старшим значащим проектом с открытым исходным кодом следующего десятилетия, и это покоряло мир больших данных, так как это было открыто полученный в результате поиска в 2010.Искра Apache является механизмом обработки данных с открытым исходным кодом, созданным для скорости, простоты использования и сложной аналитики. Искра разработана для выполнения и пакетной обработки данных и новых рабочих нагрузок как потоковая передача, интерактивные запросы и машинное обучение.

«Искра является, несомненно, силой, с которой будут считаться в экосистеме больших данных», сказала Бет Смит, генеральный директор Аналитической платформы для Аналитики IBM. IBM вложил большой объем инвестиций в Искре.

Между тем в разговоре на Саммите Искры на восток 2015, Мэтью Гликмен, управляющий директор в Goldman Sachs, сказали, что он понял, что Искра была чем-то специальным, когда он посетил прошлогодние Слои + Всемирная конференция Hadoop в Нью-Йорке.Он сказал, что вернулся к Гольдману, и «отправил на наших средствах социального общения, что я видел будущее, и это была Искра Apache.

Что я видел, что это было таким образом меняющее правила игры? Это был вид до той же степени [как], когда Вы сначала держали iPhone или когда Вы увидели Тесла в первый раз. Это было абсолютно меняющим правила игры».Мэтеи Зэхэрия, соучредитель и CTO Databricks и создатель Искры, сказали, что Искра eWEEK началась в 2009 как научно-исследовательский проект в Калифорнийском университете Беркли, где он работал с ранними пользователями MapReduce и Hadoop, включая Facebook и Yahoo.

Он сказал, что нашел некоторые типичные проблемы среди тех пользователей, руководителя среди них являющийся этим, они все хотели выполнить более сложные алгоритмы, которые не могли быть сделаны со всего одним шагом MapReduce.«MapReduce является простым способом отсканировать через данные, и совокупная информация параллельно и не каждый алгоритм может быть сделана с ним», сказал Зэхэрия. «Таким образом, мы хотели создать более общую модель программирования для людей для записи кластерных приложений, которые будут быстры и эффективны в этих более составных типах алгоритмов».Зэхэрия отметил, что исследователи, он работал с также сказанным MapReduce, не были только медленными для того, что они хотели сделать, но и они также сочли процесс для записи приложений «неуклюжим». Таким образом, он намерился для поставки чего-то лучше.

Оказалось, что он поставил что-то намного лучше.«Что сделало, это меняющая правила игры [Искра] является он, имел кросс-платформенную возможность», сказал Гликмен. «Это объединило реляционные, функциональные, итеративные API, не проходя через весь шаблон или все преобразования назад и вперед в SQL или нет.

Это был агностик устройства хранения данных, который я думаю, было ключевое понимание, которое пропускал Hadoop, потому что люди думали о том, как поместить, вычисляют на HDFS» [Распределенную файловую систему Hadoop.]Гликмен также видел другие преимущества Искры, включая которую это обеспечивает, вычисляют эластичность, а также способность масштабировать устройство хранения данных и число пользователей приложения.«Питание Искры находится в абстракциях API», сказал Гликмен. «Искра становится лингва франка анализа больших данных.

Мы должны все охватить это».Искра по сравнению с Hadoop

Zaharia, который заработал Ассоциацию вычислительной техники (ACM) Докторская Премия Диссертации за его дизайн механизма Искры Apache, объяснил, что Spark и Hadoop не являются конкурентами, поскольку Hadoop делает вещи, которые не делает Искра.Страница 1 3123Затем