Интересная статья опубликована в журнале New Scientist о том, как дата-майнинг применяется для анализа большого объёма научной информации. Цель — поиск ценной информации в разрозненных научных статьях. Эти закономерности люди, вероятно, не способны обнаружить собственными силами, без автоматической обработки. Это неудивительно, ведь объём опубликованных научных документов в интернете только на английском языке уже превысил 100 миллионов документов. Это огромный информационный шум, из которого практически невозможно извлечь полезную информацию. То есть, невозможно извлечь человеческим умом.
Понятно, что без дата-майнинга в современной науке нельзя. Скажем, петабайты информации с Большого адронного коллайдера обрабатывают месяцами/годами, чтобы определить наличие или отсутствие эффектов, предполагаемых той или иной теорией. Но здесь речь идёт о более «тонком» анализе научных результатов от разных авторов для поиска скрытых закономерностей, совпадений.
...
Читать дальше »