Анатолій Шара: data science допоможе людству розуміти його проблеми

Анатолій Шара: data science допоможе людству розуміти його проблеми

Боти і тролі впливають на наше бачення світу і можуть нашкодити, поширюючи неправдиву інформацію. Проте є люди, які вміють професійно знешкоджувати ботів і тролів. Про знешкодження ботів та роботу з "великими даними" в ефірі Радіо Культура говорили з дата-сайєнтістом, аналітиком Big Data Анатолієм Шарою, який нещодавно в німецькому виданні "Die Zeit" виявив мережу російських тролів та ботів, що спотворювали інформацію про Україну.

0:00 0:00
10
1x

фото - facebook.com/anfrankleen

— Відомо, що дата-сайєнтіст займається обробкою "великих даних". А що це означає на практиці?

Компанії, бізнес породжують величезні масиви даних. Ніхто не знав, що з ними робити, як їх обробляти. Зараз з’явилася така професія "дата-сайєнс", яка обробляє ці дані. Виокремлює з них певні алгоритми, закономірності, перетворюючи їх у додаткову вартість компанії. Дані соціальних мереж, дані з банківських рахунків, журналістські якісь розслідування, дані з космодрому, обробки цифрових значень в медицині. Це дуже величезні масиви даних.

— Яких знань вимагає ця професія?

Знань з вищої математики, алгебри, статистики, алгоритміки, програмування, лінгвістики і з деяких інших суміжних наук. Тут весь список не назвеш, бо він постійно змінюється.

— Де можна цього навчитися?

Вистачає додаткових курсів. Але це все вимагає попередньої підготовки. Навчитися цього з нуля неможливо. Потрібно мати дуже гарну математичну підготовку, а потім вчитися за допомогою програмування все це реалізувати на практиці.

— Яким є типовий робочий день дата сайєнтіста?

День в нас починається рано, тому що завдань багато. І проєкти дата сайєнс дуже динамічні. Після, скажемо, кави, чаю, води проглядаєш результати свого попереднього дня. Можливо, якийсь алгоритм, можливо, якийсь код, скріпт, як він називається. Тобто що я маю на увазі? У кожного проєкту своя тривалість. Є свій так званий тайм лайн. Ти розбиваєш цей проєкт на зручні шматки. І відповідно по цих шматках ти рухаєшся. І кожен день в тебе запланований. Якщо ти хоч на день збився з цього графіку, то проєкт потім відстає. Це все дуже складно потім наздоганяти. Як правило, це день дуже розпланований. Він ненормований. Проєкти тривалі, дуже громіздкі і об’ємні.

— Чи ваші батьки розуміють, ким ви працюєте?

Ні, батьки не можуть цього зрозуміти. Вони люди старшого покоління. Але вони і не намагаються зрозуміти. Єдине, що важливо для них, — те, що це не пов’язане з криміналом. Це нормально. Це не погано і не добре. Це просто різниця поколінь.

— Чим боти відрізняються від тролів?

Тролі – це люди, які за гроші спотворюють певний інформаційний момент чи якусь подію. А боти – це написана певною комп’ютерною мовою програма, яка продукує якісь меседжі однакові.

— Задля успішного виконання завдання дата-сайєнтісту необхідно бути особисто зацікавленим? Тобто самому мати неприязнь до тих ботів і тролів, яких блокуєш?

Необов’язково, це як лікар. Ти повинен бути неупередженим. І забувати про цей проєкт, інакше просто вигориш емоційно. Тому це нормально робити такі проєкти для вигнання ботів і тролів. Навіть патріотично, я сказав би. Можна бути зацікавленим або ні. Це не повинно впливати на результати твоєї роботи.

— Чи легко дата-сайєнтісту знайти роботу в Україні? Чи гідно вона оплачується у нас?

В принципі, роботи вистачає. Зараз це такий хайп, є хвиля популярності цієї професії. Але справжніх професіоналів не так вже й багато. Роботу знайти можна. Чи оплачується вона гідно? Це все відносно. Найбільший попит на дата-сайєнтістів в телекомунікаційних компаніях, банках, страхувальних компаніях. Почався попит в приватних клініках, на певних промислових заводах. Навіть у міському врядуванні. В онлайн торгівлі так само вони дуже потрібні. Всі приватні замовники. Держава в нас не поспішає займатися обробкою великих даних, хоча в державі якраз їх найбільше. Особливо, наприклад, в дорожніх структурах, медичних закладах. Ми робили певні проєкти, де наш, скажімо так, класифікатор був точніший у визначенні діагнозу за лікаря. Наприклад, є такі хвороби, які мають однакові симптоми. І лікарям дуже важко визначити, що то за хвороба. Наш класифікатор краще визначає, ніж лікар, на 90%.

— Що в роботі дата-сайєнтіста найнеприємніше?

Найскладніше – чітко зрозуміти завдання. Дата сайєнс – це наука точна. Замовник повинен чітко розуміти, що він хоче отримати. Це якраз найнеприємніша штука, тому що замовники не розуміють мети проєкту — думають, що ти як паличкою махнеш, і за місяць вирішиш всі їхні проблеми. Цього не трапляється. Це тяжка, складна робота. Наприклад, банки просять такий класифікатор написати, який би зміг із стовідсотковою гарантією відрізняти надійного позичальника від ненадійного. Для цього треба мати великі дані. І пояснити, що для конкретного банку є нормальним позичальником. А що є поганим позичальником.

— Чим радує ця професія, окрім кількості заблокованих ботів і тролів?

Вона радує тим, що ти можеш впливати на певні процеси. Суспільні в тому числі. Дата сайєнс – це ж не тільки бізнес. Дата сайєнс – це також соціальна відповідальність. Наприклад, мої друзі робили великий проєкт для визначення пробок в місті Києві. Наприклад, можна допомагати лікарям визначати розмір пухлин, допомагати людям на ранній стадії хвороби чітко визначати, чи це злоякісна, чи доброякісна пухлина. Тобто це суттєво допоможе людству розуміти його проблеми.

фото - pixabay.com