Що таке набір даних Wikispeedia?
Цей набір даних містить людські навігаційні шляхи у Вікіпедії, зібрані через людино-обчислювальну гру Wikispeedia. У Вікіпедії користувачам пропонується перейти від даного джерела до певної цільової статті, натискаючи лише посилання Вікіпедії. Використовується скорочена версія Вікіпедії (4604 статті).
WikiPII, автоматично позначений набір даних, що складається зі сторінок біографії Вікіпедії, анотованих для вилучення особистої інформації.
WikiCLIR є великомасштабний (німецько-англійський) пошуковий набір даних для міжмовного пошуку інформації (CLIR). Він містить загалом 245 294 німецьких запитів з одного речення з 3 200 393 автоматично витягнутими оцінками релевантності для 1 226 741 статей англійської Вікіпедії як документів.
Корпус Multi-Genre Natural Language Inference (MultiNLI) є колекція з 433 тисяч пар речень, анотованих текстовою інформацією.
Дії в конвеєрі визначають дії, які потрібно виконати з вашими даними. Тепер набір даних є іменований перегляд даних, який просто вказує або посилається на дані, які ви хочете використовувати у своїй діяльності як входи та виходи. Набори даних ідентифікують дані в різних сховищах даних, таких як таблиці, файли, папки та документи.
Набори даних створено з дампа Вікіпедії (https://dumps.wikimedia.org/) з одним розділенням на кожну мову. Кожен приклад містить вміст однієї повної статті Вікіпедії з видаленням уцінки та небажаних розділів (посилання тощо).