AXForum  
Вернуться   AXForum > Прочие обсуждения > Курилка
All
Забыли пароль?
Зарегистрироваться Правила Справка Пользователи Сообщения за день Поиск

 
 
Опции темы Поиск в этой теме Опции просмотра
Старый 17.03.2023, 16:18   #9  
axm2017 is offline
axm2017
Участник
 
1,766 / 293 (13) ++++++
Регистрация: 15.05.2017
не совсем в тему но показалось интересным https://habr.com/ru/company/bastion/blog/721986/
Вас похекали! Как мы приносим клиентам дурные вести из Даркнета

Зы показалось интересным про анализ текста, ранее как то не задумывался.
" Когда Эдвард Сноуден только начал общаться с журналистами, то просил не делать из его сообщений длинных цитат, чтобы его не вычислили таким образом.


Тут есть несколько подходов. Первый — семантика. То есть, смысловые характеристики текстов, темы и так далее. Так называемый алгоритм мешочка слов. Он считается неточным, так как если взять, например, все тексты из нашего блога — у них будут примерно одни и те же семантические характеристики. Различить авторов так не получится.


Второй подход, так называемые стилометрические характеристики: частота использования различных стилевых элементов, длина предложений, отдельные фразы и конструкции, слова.


Третий подход — кластеризация и классификация с помощью машинного обучения. Тексты векторизуются, например при помощи Word2vec и сравниваются уже сами вектора. Определяется их близость, и на этой основе уже можно делать какие-то выводы.


В общем, сценарий вполне реальный"
 


Ваши права в разделе
Вы не можете создавать новые темы
Вы не можете отвечать в темах
Вы не можете прикреплять вложения
Вы не можете редактировать свои сообщения

BB коды Вкл.
Смайлы Вкл.
[IMG] код Вкл.
HTML код Выкл.
Быстрый переход

Рейтинг@Mail.ru
Часовой пояс GMT +3, время: 22:40.
Powered by vBulletin® v3.8.5. Перевод: zCarot
Контактная информация, Реклама.