Телефонные мошенники. - Курилка

axm2017 · 17.03.2023, 16:18

не совсем в тему но показалось интересным https://habr.com/ru/company/bastion/blog/721986/
Вас похекали! Как мы приносим клиентам дурные вести из Даркнета

Зы показалось интересным про анализ текста, ранее как то не задумывался.
" Когда Эдвард Сноуден только начал общаться с журналистами, то просил не делать из его сообщений длинных цитат, чтобы его не вычислили таким образом.

Тут есть несколько подходов. Первый — семантика. То есть, смысловые характеристики текстов, темы и так далее. Так называемый алгоритм мешочка слов. Он считается неточным, так как если взять, например, все тексты из нашего блога — у них будут примерно одни и те же семантические характеристики. Различить авторов так не получится.

Второй подход, так называемые стилометрические характеристики: частота использования различных стилевых элементов, длина предложений, отдельные фразы и конструкции, слова.

Третий подход — кластеризация и классификация с помощью машинного обучения. Тексты векторизуются, например при помощи Word2vec и сравниваются уже сами вектора. Определяется их близость, и на этой основе уже можно делать какие-то выводы.

В общем, сценарий вполне реальный"