Всем привет!
Новый день — новая задача: В последнее время стало появляться много чатов открытых с несколькими тысячами участников из одной отрасли. Возникла задача спарсить адреса e-mail, которые люди оставляют в чате telegram для обратной связи или получения той или иной информации от других участников.
Все довольно просто
- Устанавливаем программу Telegram на свой компьютер (именно десктоп версию). Регистрируемся под собой.
- Нужно экспортировать историю нашего чата. Для этого в программе открываем нужный чат и сверху справа открываем контекстное меню группы. Далее выбираем «экспорт истории чата».
- В открывшемся меню не выбираем никаких вложений (мне они не нужны), по умолчанию стоит формат экспорта HTML. Меня устраивает, его и оставляем. Жмем «экспорт».
- После экспорта получаем папку с несколькими файлами html (зависит от длины истории. Чем больше сообщений, тем больше файлов.
- Далее нужно получить код HTML страничек экспорта. я открываю через notepad++, можно хоть из браузера код скопировать. Копируем весь код страницы в буфер обмена. Заходим на сайт https://gsgen.ru/tools/sitemap-urls-emails-parser/ (спасибо тебе добрый человек за сервис) и просто вставляем наш код html. Сайт сам выплюнет список адресов.
- Дальше проводим действия с другими частями истории чата аналогично.
- По итогу, у меня за 5 минут из 6 файлов 180 адресов e-mail. Пойду добавлю их в свою базу и буду периодически рассылать материалы по теме или создам аудиторию на их основе. Вариантов масса, будем пробовать.
По итогу получилось быстро и довольно просто. Думаю есть гораздо изящнее решения, но времени его искать пока нет. Для разовой задачи вполне себе алгоритм.
Всем добра и чтоб росла борода!