17.03.2023, 16:18 | #9 |
Участник
|
не совсем в тему но показалось интересным https://habr.com/ru/company/bastion/blog/721986/
Вас похекали! Как мы приносим клиентам дурные вести из Даркнета Зы показалось интересным про анализ текста, ранее как то не задумывался. " Когда Эдвард Сноуден только начал общаться с журналистами, то просил не делать из его сообщений длинных цитат, чтобы его не вычислили таким образом. Тут есть несколько подходов. Первый — семантика. То есть, смысловые характеристики текстов, темы и так далее. Так называемый алгоритм мешочка слов. Он считается неточным, так как если взять, например, все тексты из нашего блога — у них будут примерно одни и те же семантические характеристики. Различить авторов так не получится. Второй подход, так называемые стилометрические характеристики: частота использования различных стилевых элементов, длина предложений, отдельные фразы и конструкции, слова. Третий подход — кластеризация и классификация с помощью машинного обучения. Тексты векторизуются, например при помощи Word2vec и сравниваются уже сами вектора. Определяется их близость, и на этой основе уже можно делать какие-то выводы. В общем, сценарий вполне реальный" |
|