Собираю базу знаний, чтобы все под рукой
 

Парсинг e-mail почтовых адресов в чатах telegram

Всем привет!
Новый день — новая задача: В последнее время стало появляться много чатов открытых с несколькими тысячами участников из одной отрасли. Возникла задача спарсить адреса e-mail, которые люди оставляют в чате telegram для обратной связи или получения той или иной информации от других участников. 

Все довольно просто

  • Устанавливаем программу Telegram на свой компьютер (именно десктоп версию). Регистрируемся под собой.
  • Нужно экспортировать историю нашего чата. Для этого в программе открываем нужный чат и сверху справа открываем контекстное меню группы. Далее выбираем «экспорт истории чата».

  • В открывшемся меню не выбираем никаких вложений (мне они не нужны), по умолчанию стоит формат экспорта HTML. Меня устраивает, его и оставляем. Жмем «экспорт».

  • После экспорта получаем папку с несколькими файлами html (зависит от длины истории. Чем больше сообщений, тем больше файлов.
  • Далее нужно получить код HTML страничек экспорта. я открываю через notepad++, можно хоть из браузера код скопировать. Копируем весь код страницы в буфер обмена. Заходим на сайт https://gsgen.ru/tools/sitemap-urls-emails-parser/ (спасибо тебе добрый человек за  сервис) и просто вставляем наш код html. Сайт сам выплюнет список адресов.
  • Дальше проводим действия с другими частями истории чата аналогично.
  • По итогу, у меня за 5 минут из 6 файлов 180 адресов e-mail. Пойду добавлю их в свою базу и буду периодически рассылать материалы по теме или создам аудиторию на их основе. Вариантов масса, будем пробовать.

По итогу получилось быстро и довольно просто. Думаю есть гораздо изящнее решения, но времени его искать пока нет. Для разовой задачи вполне себе алгоритм.

Всем добра и чтоб росла борода!

Поделиться ссылкой: