Що таке InputFormat у MapReduce?

InputFormat описує вхідну специфікацію для завдання Map-Reduce. Фреймворк Map-Reduce покладається на InputFormat завдання, щоб: Перевірити вхідну специфікацію завдання. Розбийте вхідні файли на логічні InputSplit, кожен з яких потім призначається окремому Mapper.

Функція Map приймає вхідні дані з диска як пари <ключ, значення>, обробляє їх і створює інший набір проміжних пар <ключ, значення> як вихідні дані. Функція Reduce також приймає вхідні дані як пари <ключ,значення> і створює пари <ключ,значення> як вихідні дані.

Підтримка Hadoop Текст, Паркет, ORC, Послідовність формат файлу тощо. Текст — це стандартний формат файлу, доступний у Hadoop. Залежно від вимог можна використовувати інший формат файлу. Подібно до того, як ORC і Parquet є форматом файлу зі стовпцями, якщо ви хочете обробляти дані вертикально, ви можете використовувати parquet або ORC.

Функції відображення та зменшення в Hadoop MapReduce мають такий загальний вигляд: карта: (K1, V1) → список (K2, V2) зменшити: (K2, список (V2)) → список (K3, V3) Загалом типи ключа та значення введення карти (K1 і V1) відрізняються від типів виводу карти (K2 і V2).

Пари ключ-значення для файлу textinputformat є byteoffset як ключ і весь рядок (введення) як значення. TextInputFormat — це один із форматів файлів Hadoop. Як випливає з назви, він використовується для читання рядків текстових файлів. В основному це допомагає генерувати пари ключ-значення з тексту.

InputFormat описує вхідну специфікацію для завдання Map-Reduce. Фреймворк Map-Reduce покладається на InputFormat завдання, щоб: Перевірити вхідну специфікацію завдання. Розбийте вхідні файли на логічні InputSplit, кожен з яких потім призначається окремому Mapper.