<<<<

Кузнецов Сергей Валентинович

Исследование рисков и поиск возможностей через Интернет. Введение

Словарь

Обучение

Консультирование

>>>>

Невидимый Интернет для бизнеса

Оглавление

Принятые обозначения

1. Введение.

1.1. Интернет и выживание предприятий.

1.2. Значительная часть открытой информации невидима.

1.3. Разведка через Интернет.

1.4. Интернет – не панацея.

2. Видимо-невидимо.

2.1. Видимый Интернет

2.2. Феномен поисковых систем Интернет

2.3. Невидимый Интернет

3. Почему информация невидима?

3.1. Проблемы процедуры поиска

3.1.1. Неясно, что искать

3.1.2. Неясно, где искать

3.1.3. Нужная база данных не открывается

3.1.4. Ничего полезного не найдено

3.1.5. Найдено слишком много

3.1.6. Тексты доступны в нестандартном формате

3.1.7. Закрытая часть офисных документов

3.1.8. Найденный текст не виден или не копируется

3.1.9. Нетекстовая информация и метаданные

3.2. Проблемы средств поиска

3.2.1. Переходы по гипертекстовым ссылкам малопродуктивны

3.2.2. Поисковые каталоги неполны

3.2.3. Ошибки и ограничения поисковых систем

3.2.4. Ограничения для роботов поисковых систем

3.2.5. Робот не может выполнить элементарный сценарий

3.2.6. Административные и технические барьеры

3.2.7. Неполнота известных поисковых систем

3.2.8. Страницы только для персонала

3.2.9. Сложность процесса индексирования

3.3. Феномен Сети

3.3.1. Разнообразие протоколов Интернет

3.3.2. Альтернативы Сети

3.3.3. Интернет неоднороден в пространстве

3.3.4. Интернет не является единой сетью

3.3.5. Интернет неоднороден во времени

3.3.6. Неизвестные домены

4. Почему сложно находить видимое?

4.1. Непрофессиональное использование поисковых систем

4.2. Структурирование страниц Интернет

4.3. Поиск в одном документе

4.4. Сложности анализа связей

4.5. Изменчивость языка

4.6. Ограниченная функциональность поисковых систем

4.7. Отсутствие поиска по метаданным и его слабость

5. Заключение

6. Список использованной литературы

Принятые обозначения

CD-xxxxx - десятичный номер папки на авторском компакт-диске "Исследование рисков и поиск возможностей через Интернет", например, "CD-61281" (Невидимый Интернет). Если номер заканчивается знаком «плюс», например, «CD-61281+» нужно использовать и все вложенные папки. См. оглавление бесплатного компакт-диска "Исследование рисков и поиск возможностей через Интернет" (600 Кб).

CG-xxxxx - десятичный номер группы ресурсов Интернет в авторской базе данных формата Check&Get 1.14, например, "CG-1112325" (Патентные базы данных). Если номер заканчивается знаком «плюс», например, «CG-1112325+» нужно использовать и все вложенные группы ресурсов. Встроенные каталоги ресурсов Интернет в группе NC-11 сгенерированы программой Check&Get 1.14 (командой "Главное меню – Файл – Импортировать в HTML") и имеют ту же нумерацию.

NC-xxxxx - десятичный номер группы ресурсов Интернет в авторской базе данных "Рабочее место аналитика" формата NetCaptor 6.2, например, "NC-1145" (Обратная стратегия поиска). Если номер заканчивается знаком «плюс», например, «NC-1145+» нужно использовать и все вложенные группы ресурсов. См. оглавление авторской базы данных "Рабочее место аналитика" (720 Кб).

1. Введение.

1.1. Интернет и выживание предприятий. В условиях нарастающей глобальной конкуренции решающим фактором выживания предприятий является их способность быстрее предоставить потребителям большую или уникальную ценность при меньших издержках. Сильной стороной разведки по открытым источникам Интернет является безграничность охвата, высочайшая оперативность и технологичность, невысокая стоимость и минимальный уровень рисков.

1.2. Значительная часть открытой информации невидима. Значение Интернет как экономичного канала распространения и доступа к неограниченным объемам информации неоценимо и будет со временем только возрастать. Феномен «серой литературы» делает Сеть единственным каналом оперативного доступа к критической деловой информации. Статус Интернет как глобальной сети открытых источников информации сводит к нулю риск правонарушения в процессе корректно проведенного расследования (поиск или разведка через Интернет). Использование ошибок на сайтах позволяет легально получить доступ к персональной и коммерческой информации разного рода (через уязвимости, забытые ссылки и пароли, скрытые данные…). При этом более 97% критичной для бизнеса онлайновой информации невидимо (CD-61281, CG-1216+).

1.3. Разведка через Интернет. Техниками поиска и мониторинга в интересах корпораций онлайновой информации о настоящих и будущих рисках и возможностях занимается специальная дисциплина «Разведка через Интернет» [1] (CD-6128+, CG-512+). Однако использование значительных возможностей Интернет для бизнеса своими силами неэффективно (без специальной подготовки, CD-112+), либо дорого и рискованно при заказе услуг на стороне (по крайней мере, в России). Если средства позволяют и минимален риск утечки информации о расследовании, дополнительно рекомендуется использовать агентурные технологии (беседа, посещение объекта, запрос информации…).

Только цифры: По данным измерений NetCraft Ltd (Великобритания) http://news.netcraft.com/ в феврале 2006 года число активных сайтов составляло 35 млн. По мнению автора, число баз данных составляет как минимум половину числа активных сайтов, т.е. не менее 15 млн. 03 сентября 2004 года компания Computer Industry Almanac Inc. (США) http://www.c-i-a.com опубликовала оценку размера глобальной Интернет-аудитории в 2004 году – это более 930 млн. пользователей. Согласно последним исследованиям Фонда "Общественное мнение" (Россия) http://bd.fom.ru аудитория Интернет в России летом 2006 года составляла более 20% населения (NC-7116, CG-3125).

Альтернативы Сети: Пиринговая (файлообменная) анархическая сеть Netsukuku http://netsukuku.freaknet.org/ представляет собой глобальную распределенную сеть, полностью анонимную и базирующихся на физических каналах передачи информации, которая будет существовать параллельно Интернет. Можно предположить успех этого проекта, но и в его рамках нужно будет своевременно находить критическую информацию.

1.4. Интернет – не панацея. Разведка по открытым источникам Интернет не может заменить иные виды деловой разведки, в частности, работу персонала на местах. Специалисты по управлению знаниями создают иллюзии о всесилии Knowledge Management и безосновательно утверждают, что более 80% достаточных для принятия решений сведений есть в самой компании. Сюда можно отнести похороненные в столах сотрудников бумаги, стертые и забытые сообщения электронной почты, незаписанные светлые мысли и наблюдения менеджера, неуслышанные предложения клиента, скрытая нелояльным сотрудником критическая информация, ненайденный в корпоративном хранилище важный документ, утраченные связи и опыт уволившихся и временно отсутствующих специалистов и целых коллективов и т.п. Это – социальная сторона деловой разведки, успешно применяемая компаниями с альтернативной системой менеджмента. Таким образом, разведка через Интернет не может компенсировать недостатки традиционного (репрессивного) управления предприятием, а лишь до предела обнажает его слабости.

2. Видимо-невидимо.

2.1. Видимый Интернет (Visible Web) или Поверхностный Интернет (Surface Web) – это все то, что может быть проиндексировано программами-роботами публичных поисковых машин (Рамблер http://www.rambler.ru) и редакторами поисковых каталогов Интернет (Open Directory http://www.dmoz.org). Иными словами, это то, что пользователь в принципе может найти, используя всевозможные поисковые системы и каталоги.

Только цифры: По оценкам Cyveillance Inc. (США) http://www.cyveillance.com/ в июле 2000 года размер Интернет составлял 2,1 млрд. публично доступных документов. При сохраняющейся тенденции к увеличению скорость роста равнялась 7,3 млн. уникальных страниц в день. По достаточно правдоподобным оценкам http://www.webplanet.ru/ в мае 2005 года размер Видимой части Русского сегмента Интернет превышал 1,2 млрд. страниц.

2.2. Феномен поисковых систем Интернет. Для обеспечения процесса быстрого поиска в базах данных, в частности, во Всемирной Паутине (World Wide Web) требуется заблаговременное формирование и последующее обновление т.н. индексов поисковых систем (CD-61282). Число индексов в конкретной базе данных может быть большим, но всегда конечно. Полнотекстовый индекс содержит информацию о том, какие слова и, возможно, в каком лексическом окружении (контексте) содержатся в конкретном источнике текста. В полнотекстовом индексе возможно сохранение информации о порядковом номере слова от начала текста, абзаца, предложения; о порядковом номере предложения от начала текста, абзаца и о порядковом номере абзаца от начала текста… Индекс ссылок может включать данные о наименовании ссылки, адресе источника и цели, а также возможно о типе ссылки. Для поддержки разнообразных операций со ссылками также используют представления, основанные на графах. Индексы метаданных содержат информацию об источниках, в частности, к какой рубрике (теме) конкретного классификатора относится содержание файла данных в целом или конкретного его фрагмента. Процесс создания индексов называют индексированием. Индексирование может быть ручным (так формируются поисковые каталоги Интернет, библиографические базы данных…) или автоматическим (индексы полнотекстовых поисковых систем Интернет создаются программами-роботами). Поисковые системы Интернет без проблем могут индексировать только документы стандартных или коммуникативных форматов по протоколам http или ftp. К таковым относятся файлы в формате языка гипертекстовой разметки с расширениями htm, html, jsp, asp, php. Также без осложнений индексируются обычные тексты без форматирования: расширения asc, txt, text.

2.3. Невидимый Интернет (Invisible Web) или Глубинный Интернет (Deep Web) или Скрытый Интернет (Hidden Web) – это все то, что в принципе доступно через подключенный в Интернет компьютер (по протоколу http и через http-шлюзы, специализированные клиенты, иные протоколы и сети), но по разным причинам в нужный момент не попадает в поле зрения заинтересованных лиц (CD-61281, CG-1216+).

Только цифры: По оценкам BrightPlanet LLC http://brightplanet.com в июле 2000 года Невидимый Интернет составлял 550 млрд. индивидуальных документов в сравнении с 1 млрд. документов "Видимой" его части. В отчете BrightPlanet отмечается более высокое качество документов в базах данных в сравнении с «Поверхностным» Интернет. По оценке автора размер Невидимой части Русского сегмента Интернет превышает минимально в 20 раз его Видимую часть и составляет более 25 млрд. страниц.

Прогнозы: Seven Technologies That Change Everything By Om Malik, Anders Lotsson, September 21, 2005 http://www.business2.com/b2/web/articles/0,17863,1107751,00.html. «Американский журнал Business 2.0 опубликовал список из семи технологий, которые должны «изменить мир» в ближайшем будущем. Среди них Ajax, WiFi-мобильники, WiMax и поиск в Невидимой сети…

3. Поиск в Невидимой сети. Поиск среди той информации, которая еще никогда не индексировалась роботами поисковых систем. Хотя Google и проиндексировал более 8 млрд веб-страниц, но это лишь малая часть содержимого интернета. Огромное количество информации «заперто» на запароленных сайтах, в базах данных и за корпоративными файерволами. Так называемая «Невидимая сеть», по некоторым оценкам, в 500 раз больше, чем та верхушка айсберга, что доступна обычным поисковым системам. Чтобы извлечь эти данные, нужны специальные технологии…»

Дополнительные материалы см. по запросам Google

"dark OR deep OR hidden OR invisible OR surface OR visible internet OR web" OR "видимый OR глубинный OR невидимый OR поверхностный OR скрытый OR темный интернет OR веб"

3. Почему информация невидима?

3.1. Проблемы процедуры поиска.

3.1.1. Неясно, что искать, хотя сама проблема может быть в общих чертах понятна. Требуется применять процедуры поиска аналогий и/или изучать методы целеполагания из арсенала изобретателей (формулирование цели поиска исходя из стоящей проблемы). См. CD-6542 и результаты поиска по запросу Яндекс:

+(целеполагание | целеуказание | (цель /1 (выбор | выбирать | указание))) /5 +(поиск | поисковый | нахождение | искать | генерация | генерировать | создание | создавать | проектировать | проектирование) /3 +(знания | деятельность | решение | обучение | инновации | инновационный | изобретение | изобретательский | технический)

3.1.2. Неясно, где искать. Интуитивный выбор поисковых систем и неквалифицированная работа только со знакомыми базами данных дают, как правило, разочаровывающий результат. Для промышленных систем сбора и мониторинга через Интернет информации по конкретному объекту или проблеме применяются, как правило, не более 50 проблемно-ориентированных поисковых систем Интернет, удовлетворяющих следующим требованиям:

a) приемлемая достоверность;

b) удовлетворительная абсолютная полнота (число подходящих документов больше, чем в других источниках) или относительная полнота (доля подходящих документов выше, чем в других источниках). Доля подходящих документов - отношение числа подходящих документов к общему числу документов в базе данных.

c) высокая оперативность (абсолютная или относительная полнота, рассчитанная по документам за последний период актуальности: час, день, неделю, месяц...).

Используйте публичные каталоги поисковых систем по тематике (NC-1172+, NC-2144, CG-121121), месту или странам мира (NC-13+, NC-23+, CG-121122), а также языку (NC-22+) и иные из десятка известных способов поиска баз данных.

3.1.3. Не работает нужная база данных. Некоторые базы данных работают или не работают с конкретными версиями конкретных обозревателей Интернет, например, поисковая система http://govportal.garant.ru:8081 не открывается обозревателем Internet Explorer версии 7.0 и Opera версии 9.25. В этой ситуации выручает Firefox. Если нужная Вам база данных, размещенная на работающем сервере, выдает диагностику типа "Данная версия браузера не поддерживается", установите и примените альтернативные обозреватели (CD-58+). Если в базе "Рабочее место аналитика" Вы видите ссылку типа "Минфин Гарант Firefox", для работы с этим ресурсом используйте рекомендованный обозреватель Интернет.

3.1.4. Ничего полезного не найдено. В подходящем открытом источнике ничего полезного для изучения предмета исследования не найдено. Незнакомство с принципами работы полнотекстовых поисковых систем Интернет, неумение быстро выяснить, как работает незнакомая поисковая система, незнание тонкостей поисковой системы постоянного использования, выбор неверной стратегии поиска, незнакомство с принципами поиска по аналогии, ошибки при формировании поисковых запросов ведут к нулевому или разочаровывающему результату поиска.

Оперативное тестирование поисковой системы (методы "черного ящика" и метод аналогии) позволяет быстро и уверенно начинать работать на любой поисковой системе, не снабженной никакой документацией. По многолетним наблюдениям автора 90% поисковых систем Интернет не имеют никакого описания, и только 10% снабжены каким-то средством помощи при поиске (справка, руководство пользователя, описание синтаксиса языка запросов, ответы на часто задаваемые вопросы...). Автор выходит из этого положения, проводя тщательное тестирование поисковых систем, используемых в большинстве исследовательских проектов и документируя эту работу в форме
- компактных описаний (см. примеры описаний поисковых систем Яндекс и Google, такие описания требуют некоторой подготовки и не предназначены для самообучения)
- и курсов обучения (очные и дистанционные)
Программирование запросов поисковых систем позволяет повысить полноту поиска в 3-100 раз (см. пример http://www.onlineci.ru/oci-in-how-to-example-2.htm#1).

Для увеличения результативности поиска изучайте открытые учебные и справочные материалы, например, "Как найти..." http://www.onlineci.ru/howtosea.htm и/или проходите специальную подготовку по выбранному направлению, например, "Исследованию конкурентов через Интернет" http://www.u-learning.ru/oci-in-education-programms.htm

3.1.5. Найдено слишком много (проблема «проклятие размерности»). Любые попытки собрать всю информацию с открытых для индексирования страниц Интернет по всему миру упираются в проблему колоссальности объемов доступной информации. По некоторым оценкам объем информации в Интернет удваивается каждые три года. Чем больше информации, тем медленнее идет обновление индексов поисковых систем и тем дороже становится обеспечение услуг поиска в Интернет. Централизованная архитектура «звезда» (единый полнотекстовый и другие индексы поисковых машин) для Сети в принципе малоэффективна.

Автору неизвестны поисковые системы, выдающих в отчете более 10000 документов, хотя найдено может быть существенно больше.
Нормальный человек не в состоянии проанализировать более 7 альтернатив или более 1 машинописной страницы текста (2000 знаков).

Для решения профессиональных задач используйте метапоисковые системы (NC-1141, NC-2142, CG-1213+), техники построения реестра проблемно-ориентированных баз данных и ищите ближе к потенциальным источникам и каналам распространения критической информации (NC-13+, NC-23+). В ряде случаев приемлемым решением является создание локальной копии интересного сайта (CD-54+) или использование техники закачки проблемно-ориентированных материалов с разных сайтов через поисковые системы (CD-5721) с последующим их изучением средствами локального полнотекстового поиска (CD-4133+). Для разрешения проблемы проклятия размерности весьма продуктивна техника морфологического анализа (CD-654+) результатов поиска с последующей систематизацией (CD-2113) и детальной разработкой более конкретных проблем или объектов. При создании корпоративного хранилища развивайте сервис «корпоративный метапоиск» [2]. Разбивайте поисковые запросы на куски, обеспечивающие последовательную выборку непересекающихся множеств документов, объем которых менее предела выдачи поисковой системы (т.е. его можно закачать на рабочую станцию).

Только цифры: «Google будет работать 300 лет» http://news.filebox.ru/computer/news31769. Выступая на проходившей в Фениксе ежегодной конференции Национальной ассоциации рекламодателей США, глава Google Эрик Шмидт (Eric Schmidt) заявил, что его организация сможет проиндексировать всю информацию на планете примерно через 300 лет. Собственно, это был ответ на вопрос из зала, который звучал так: "Как долго вы собираетесь выполнять свою миссию?". По словам Шмидта, в настоящее время из пяти миллионов терабайт существующей информации проиндексировано лишь 170 Тбайт. Правда, неясно одно - учел ли глава Google при подсчетах ту информацию, которая появится в течение тех самых трех веков. Источник: www.zdnet.co.uk

3.1.6. Тексты доступны в нестандартном формате или кодировке, либо на неизвестном языке (офисные: doc, pdf, xls, ppt…; архивные: zip, rar, arj, chm, msi …, устаревшие chi и др.). Проблему несколько облегчают корпоративные информационные системы (CD-417+), снабженные определителями языка и кодировок, конверторами файлов, программы для скачивания файлов и сайтов из Интернет (NC-54+) в паре с программами поиска на локальных дисках (CD-41338, CD-4133f), а также специализированные поисковые системы Интернет (NC-1182+, CG-12113+) и лингвистические ресурсы (NC-22+, CG-245).

3.1.7. Закрытая часть офисных документов. В большинстве документов офисных форматов есть «невидимая» часть, которая может включать персональные и корпоративные данные, метаданные и, как правило, не индексируется. Например, невидимыми являются данные об авторе (MS Word: «Главное меню – Файл – Свойства – Документ» или «Главное меню – Файл – Свойства – Прочие»), скрытые и удаленные куски текста (CD-413421) и много другое. Для обнаружения и удаления таких фрагментов в файлах DOC, RTF, XLS, PPT, PDF и др. форматов используют специализированные программы (CD-41342+, CD-41343+) и возможности отдельных поисковых систем Интернет (NC-1181+, CG-12113+).

3.1.8. Найденный текст не виден или не копируется. Затруднения доступа к онлайновой информации вызывают сами интернет-технологии, например, всплывающие на страницах Интернет подсказки с фактографической информацией, данные MacroMedia Flash (NC-11813) или шифрование html-кода (CD-532). Критическая информация скрыта в html-коде найденной страницы и не всегда корректно показывается программой – обозревателем ресурсов Интернет (Internet Explorer, Opera, Firefox…). Используйте 2-3 обозревателя Интернет параллельно (CD-58+). Изучайте исходный html-код интересующей страницы (MS Internet Explorer: "Главное меню - Вид - В виде HTML") и ищите непосредственно в нем нужный Вам текст. Сделайте локальную копию сайта (CD-54+). Ищите в html-коде страниц требуемые фрагменты текста, например, используя полнотекстовый поиск Windows. После удаления html-дескрипторов оставшийся текст можно использовать в отчетах.

3.1.9. Нетекстовая информация и метаданные. Нетекстовые файлы и их фрагменты (звуки, изображения, числа, формулы, … и их ряды) могут содержать разнообразные неоцифрованные сведения, пространственную или иную нетекстовую информацию и метаданные (NC-11815). Для их поиска и аналитической обработки можно использовать специализированные поисковые системы (NC-1183+) и прикладные программы оцифровки, извлечения и анализа данных и зависимостей. Как правило, такого рода инструментами комплектуются специализированные поисковые системы и корпоративные хранилища ведущих производителей (CD-417+).

3.2. Проблемы средств поиска.

3.2.1. Переходы по гипертекстовым ссылкам малопродуктивны и не рекомендованы для профессионального поиска фактографической информации. Однако, нужно отметить уникальную методику получения скрытой информации через Интернет – обратную стратегию поиска, использующую индекс ссылок (NC-1145).

3.2.2. Поисковые каталоги (NC-113, NC-213) неполны и покрывают лишь тысячные доли процента из доступных ресурсов Интернет. Например, крупнейший проект «Открытый каталог», поддерживаемый 60+ тыс. редакторов-добровольцев (Open Directory Project, www.dmoz.org) учитывает чуть более 4 млн. ресурсов Интернет.

3.2.3. Ошибки и ограничения поисковых систем. Разнообразные пороки проектирования, ошибки программной реализации, ограничения анализаторов текстов и интерпретаторов поисковых запросов при формировании и обновлении индексов поисковой системы и поиске не позволяют найти нужную информацию без применения специальных техник поиска. Никогда не индексируются спецсимволы – разделители слов. В частности, находить в текстах сумму в долларах "$123" может только Google, остальные поисковые системы показывают 123, 00123 и т.п. Некоторые спецсимволы, попавшие в запрос, вызывают сбои работы конкретной поисковой системы. В результате при значительном количестве подходящих документов и «правильном» запросе пользователь получает «Ничего не найдено». В данном случае выручает только знание принципов работы поисковых систем и умение их оперативно тестировать.

3.2.4. Ограничения для роботов поисковых систем. Робот публичной поисковой системы всегда четко выполняет предписания web-мастеров, могущих ограничить индексирование целиком или частей сайта, отдельных документов и их частей, а также переходы по ссылкам (CD-61283). По мнению специалистов поисковых систем Altavista и Lycos в 2002 году такие ограничения были введены на 5-6% сайтов. Если такие ограничения обнаружены – эти папки сайта, ссылки или документы поисковыми системами не индексируются и их целесообразно исследовать в первую очередь. Предварительно применяйте программы копирования сайтов и локального полнотекстового поиска.

3.2.5. Робот не может выполнить элементарный сценарий. Робот поисковой системы, как правило, не может пройти регистрацию на сайте, авторизацию для входа на закрытую часть корпоративного сайта или ресурс с коммерческим доступом, равно как и выполнить элементарный сценарий – последовательность операций доступа к конкретному файлу, выбора необходимых условий или ввода данных в форму поискового запроса. Практически все динамические документы, формируемые «на лету» по запросам пользователей, большинством поисковых систем не индексируются. Для поиска, мониторинга изменений и выкачивания записей из баз данных используются разнообразные стратегии съема информации и специализированные программы – сеансовые роботы (CD-5b+) и макрокоманды некоторых программ мониторинга страниц и серверов Интернет (CD-5725), а также корпоративные хранилища и системы поиска на локальных дисках.

3.2.6. Административные и технические барьеры не позволяют увидеть через поисковую систему как существующий на сайте документ, так зачастую и весь сайт (нужный текст исключается согласно негласной политике индексирования конкретной поисковой системы Интернет). Причины такого исключения могут быть самыми разнообразными: официальные предписания и судебные решения, авторское право, корпоративная политика, требования хостинг-провайдеров, высокая стоимость перекачки всего подряд, предполагаемое дублирование, поисковый спам, провокации конкурентов, произвол системных администраторов и др. При достаточности ресурсов используйте программы для полного перекачивания сайтов из Интернет (CD-54+) в паре с программами поиска на локальных дисках (CD-4133+) и/или корпоративное хранилище.

Только цифры: Доля проиндексированных крупнейшими поисковыми машинами документов отдельных сайтов по состоянию на 11 ноября 2005 года.а.

Доменное имя	www.fuld.com	computer-forensics-lab.org	cyber-crimes.ru
Уникальных страниц	425	175	5453
Индексировать можно все	Нет	Да	Да
Размещен в	США	Россия	США
Начал работать	Март 1996 года	Март 2005 года	Май 2005 года
www.google.com	51%	22%	5%
www.bing.com	58%	3%	16%
www.alltheweb.com	31%	34%	5%
www.yandex.ru	0%	0%	29%
www.rambler.ru	0%	24%	54%

Для оценки числа уникальных страниц использовались программы для создания локальных копий сайтов (WinHtTrack и Offline Explorer Pro), для оценки числа проиндексированных документов: запросы Google / Bing: site:www.fuld.com, запрос Yandex: #url="www.fuld.com*" и URL http://www.rambler.ru/srch?sort=0&filter=http://www.fuld.com .

Картинка получилась очень неровная и совершенно не вдохновляющая – судя по исследованным сайтам, более половины доступных документов без видимых причин не индексируется.

3.2.7. Неполнота известных поисковых систем. Поисковая система расширяет индексы, в основном, двумя способами: по ссылкам из известных ей документов и по информации web-мастеров, введенной через формы «регистрации в поисковой системе». Если сайт интересующей компании или нужная информация никак не находится через известные Вам поисковые системы, ищите другие подходящие поисковые системы, используйте национальные и глобальные метапоисковые системы (NC-1141, NC-2142), базы данных национальных регистраторов доменных имен (NC-11124), а также поиск по базам газетных публикаций (традиционная реклама, NC-1144, NC-1171+).

3.2.8. Страницы только для персонала. Для авторизованного доступа служащих компании и партнеров предназначена закрытая часть корпоративных сайтов. Из-за некомпетентности и/или неаккуратности их администраторов в ряде случаев конфиденциальная информация предприятий может быть легально получена через Интернет. В некоторых случаях роботы поисковых систем проникают на закрытую часть сайтов, но это скорее исключение, чем правило. Попытки интуитивного поиска закрытой информации на корпоративных сайтах собственными силами, как правило, малопродуктивны. Аутсорсинг такого рода услуг может быть квалифицирован как заказ на промышленный шпионаж и приводит к судебным разбирательствам, утечкам информации и быстрой ликвидации «ценных» брешей. Для выявления ошибок и уязвимостей на корпоративных сайтах конкурентов, а также аудита защищенности собственного сайта можно использовать специализированные программы для копирования сайтов (CD-54+) и поиска на локальных дисках (CD-4133+), сеансовые роботы (CD-5b+), базы известных уязвимостей сайтов и типовых ошибок системных администраторов (CD-5722, NC-911), а также все прочие технологии Интернет-разведки.

3.2.9. Сложность процесса индексирования массы документов сильно замедляет процесс обновления индексов. В этой связи практически полностью выпадают из индекса поисковых систем общего назначения новости, объявления, дискуссии, блоги (персональные дневники), форумы, рассылки, пресс-релизы, тендерная информация и т.п. В этом случае применяются специализированные сервера и службы для поиска и мониторинга актуальной информации – агрегаторы новостей (NC-115+, NC-215), а также специализированные приложения (CD-57+).

3.3. Феномен Сети.

3.3.1. Разнообразие протоколов Интернет. Документы доступны по иным (не только http) протоколам передачи и поиска данных (WAIS, Gopher, WAP, ftp, telnet, gopher, z3950, rss, imap, pop3, smtp …NC-1182+). Информация части сервисов Интернет просто мимолетна – это сообщения электронной почты, чаты… Нужно уметь искать или знать адреса http-шлюзов для поиска в соответствующих коллекциях, либо установить специализированные программы мониторинга и просмотра (клиенты telnet, z3950, rss…CD-573+) или конверторы. Рекомендуется для сбора нежелательной корреспонденции регистрировать на бесплатных почтовых серверах корпоративные почтовые ящики-ловушки и обязательно сохранять любые сообщения, затрагивающие интересы предприятия. В ряде случаев оказываются полезными базы данных борцов со спамом.

3.3.2. Альтернативы Сети. Клиенты для обмена файлами по фирменным протоколам (Ares, BitTorrent, DirectConnect, ED2K, EDonkey, EMule, Gnutella, Kazaa / FastTrack, Magnet, Napster, OpenNapster, Overnet, Piolet, Torrent… NC-11822) и поиска в файловых архивах (FTP…NC-11821, CD-574+, CD-575+, CD-577+) позволяют находить весьма интересные материалы. Для повышения эффективности нахождения файлов используются специальные стратегии поиска.

3.3.3. Интернет неоднороден в пространстве. На практике Интернет является лишь частично прозрачной для сетевого трафика сетью, в которой согласно трехлетнему исследованию (отчет 2001 года) специалистов Arbor Networks Inc. (www.arbornetworks.com) из-за различных организационных и технических проблем между отдельными подсетями и узлами существуют т.н. "Черные дыры". Это сегменты сети, постоянно или временно доступные только через конкретную подсеть и невидимые через остальные конкурирующие подсети. Черные дыры Интернет обуславливают малую вероятность индексирования и обновления информации более 5% серверов. Если критическая информация обнаружена на таком сервере, качайте ее на рабочую станцию или в хранилище, используя местных агентов и провайдеров услуг мониторинга, поиска и доступа к базам данных. В качестве хорошей, не недешевой альтернативы Сети и решения проблемы ее черных дыр можно рассматривать технологии агентурной разведки.

3.3.4. Интернет не является единой сетью. Целенаправленная политика властей Китая по регулированию национального сегмента Интернет и защиты граждан и интересов Поднебесной от вредоносного воздействия США и др. иностранных государств естественным образом завершилась введением с 1 марта 2006 года национальной системы регистрации доменных имен в четырех зонах: .cn (англоязычный домен), а также .china, .net и .com (китайскоязычные), каждый из них представляет собой два иероглифа. Создан прецедент – национальный сегмент Интернет, адресация в котором не обеспечивается зарубежными DNS-серверами, принадлежащие американской организации ICANN. Для работы в таких сегментах Интернет используйте средства международной IP-телефонии и несколько местных сотрудников, работающих под хорошим прикрытием через национальных провайдеров Интернет.

3.3.5. Интернет неоднороден во времени. Вчера критическая для бизнеса информация или доказательство правонарушения были обнаружены, а сегодня их по-тихому сняли с сайта. Нужные тексты могут быть недоступны из-за проблем на серверах (реорганизация, отказы в обслуживании, простои оборудования …). Для получения доступа к таким документам используйте метапоисковые сервера и программы (NC-1141, NC-2142, CD-59+) и обязательно смотрите сохраненные поисковыми системами копии документов (кэш поисковых систем). Применяйте программы мониторинга страниц и сайтов Интернет (CD-57+) и Интернет-архив (www.archive.org).

3.3.6. Неизвестные домены. Служебная часть корпоративных сайтов может быть размещена не только на основном корпоративном домене второго уровня, но и на доменах третьего и четвертого уровней. При этом на «закрытый» домен третьего или четвертого уровня может не быть ни одной ссылки с домашней и других открытых страниц изучаемого сайта, а его просмотр может быть открытым. Роботы поисковых систем также их могут не видеть. Для обнаружения таких доменов на корпоративном домене второго уровня используются специализированные публичные поисковые сервера доменных имен (DNS, NC-11124).

4. Почему сложно находить видимое?

4.1. Непрофессиональное использование поисковых систем. Неумение использовать известные ресурсы Интернет, обходить ограничения поисковых систем Интернет и поисковый спам делает недоступными даже проиндексированные документы. Для снижения остроты этой проблемы нужно уметь применять разнообразные стратегии поиска (по аналогии…) и в полной мере использовать синтаксис языка запросов конкретной поисковой системы (NC-712+), в том числе и ее недокументированные возможности. При "грамотном" поиске и мониторинге Интернет объем собранных материалов возрастает в 3-1000 раз. Также для информационных брокеров и Интернет-аналитиков обязательно умение тестировать поисковые системы.

4.2. Структурирование страниц Интернет открывает возможности специфического поиска конкретных документов по содержимому различных внутренних полей (заголовок, описание, аннотация, ключевые слова, названия ссылок, картинок…) или с учетом характера и инфраструктуры их гипертекстовых связей (обратная стратегия поиска, NC-1145). Таким образом, можно находить невидимую (скрытую) информацию.

4.3. Поиск в одном документе. Сложность исследований по открытым источникам через Интернет усугубляются фундаментальными пороками самого поиска в текстах. При полнотекстовом поиске все условия запроса ограничены рамками одного документа. В большинстве случаев конкретного документа, включающего все существенные элементы решения, в природе не существует. Решение «размазано» по множеству документов и процесс подготовки отчета напоминает классическое уголовное расследование. Операция поиска становится многоходовой и требует грамотного выбора самого экономичного сценария. Каждый следующий этап поиска решения опирается на результаты предыдущего (полная аналогия с лестницей). Поэтому, например, невозможно «в лоб» решить задачу: «Найти санаторий на Финском заливе, принимающий семьи с детьми двух лет, с хорошими отзывами, низкими ценами и свободными за месяц местами на первую декаду июля 2007 года». Разбивайте сложное исследование на мелкие этапы, всегда имея в виду возможность выбора наиболее экономичной последовательности исполнения отдельных шагов (сценарий поиска).

4.4. Сложности анализа связей. Публичные поисковые системы общего назначения в принципе не позволяют учитывать при поиске содержимое группы документов и наличие / характер их связей, как формальных (гипертекстовые ссылки), так и содержательных (субъект А в одно время в конкретном месте находился с субъектом В или А и В работали над одним проектом). Частным решением такого класса задач является применение специальных стратегий полнотекстового поиска и анализа по связям и/или прикладных программ извлечения и анализа связей и досье на статических коллекциях документов небольшого объема (как правило, до 20000 записей, CD-451+).

4.5. Изменчивость языка. Большинство публичных поисковых систем при индексировании текстов и формировании метаданных не учитывают словоизменения конкретного естественного языка. Для эффективного поиска и интернет-мониторинга требуется вместо одной словоформы (инфинитив) «резать» давать в поисковом запросе полный ряд словоизменений (в данном случае их «всего» 99): резать, режа, режем, режема, режемая, режемо, режемого, режемое, режемой, режемом, режемому, режемою, режемся, режемую, режемы, режемые, режемый, режемым, режемыми, режемых, режет, режете, режетесь, режется, режешь, режешься, режу, режусь, режут, режутся, режущая, режущаяся, режущего, режущегося, режущее, режущееся, режущей, режущейся, режущем, режущемся, режущему, режущемуся, режущею, режущеюся, режущие, режущиеся, режущий, режущийся, режущим, режущими, режущимися, режущимся, режущих, режущихся, режущую, режущуюся, режь, режься, режьте, режьтесь, резав, резавшая, резавшего, резавшее, резавшей, резавшем, резавшему, резавшею, резавши, резавшие, резавший, резавшим, резавшими, резавших, резавшую, резал, резала, резалась, резали, резались, резало, резалось, резался, резан, резана, резанная, резанного, резанное, резанной, резанном, резанному, резанною, резанные, резанный, резанным, резанными, резанных, резано, резаны. Используйте генераторы словоформ русского языка (NC-1216, CG-211172) и многоязычные тезаурусы (NC-2241, CG-213, CG-233).

4.6. Ограниченная функциональность поисковых систем. Любимый народом Google при индексировании никакие словоизменения не учитывает и имеет максимальную длину запроса (не считая операторов) на большинстве поисковых форм всего 32 слова. Применяйте техники оптимизации поисковых запросов (универсальная поисковая спецификация), метапоисковые системы (NC-1141, NC-2143) и локальные поисковые системы / корпоративные хранилища, учитывающие морфологию языков стран Евросоюза и/или Большой Восьмерки (CD-4133f).

4.7. Отсутствие поиска по метаданным и его слабость. В процессе поиска редко применяются метаданные (информация об информации, объединенная в существующие классификаторы). При использовании классификаторов игнорируется степень неполноты рубрицирования неструктурированной информации. Согласно ранним исследованиям автора в коллекциях более 50000 текстов не более 3-5% из доступного материала оснащено необходимыми метаданными. Для выбора подходящих рубрик (кодов) классификатора нужно при возможности использовать поиск в самом классификаторе, а ограничение по метаданным добавлять либо отдельно, либо в качестве альтернативы условию полнотекстового поиска для выбранной классификационной рубрики. Таким способом полнотекстовый поиск сочетается с ограничением по метаданным. При отсутствии открытом доступе нужной информации в электронной форме (Интернет, локальные базы данных) используйте метаданные (например, библиографические описания из систематических каталогов библиотек) и агентурные технологии разведки.

5. Заключение.

Практическое решение проблем Невидимого Интернет позволяет минимально в три раза увеличить полноту сбора документов, касающихся конкретных объектов (предприятий, персон, технологий…). При сборе и слежении по открытым источникам за информацией по комплексным проблемам бизнеса, например, «способы аудита лояльности персонала» или «тенденции развития рынка кондитерских изделий», в среднем число найденных документов возрастает в 20 раз.

Авторская технология программирования поисковых систем позволяет практически обеспечить на любых поисковых системах Интернет уровень точности поиска не ниже 90%. Иными словами, доля неподходящих документов, собранных по профессионально сделанным запросам, не превышает 10%. В результате становится возможным строить открытые корпоративные базы знаний [2] для бизнесов, работающих в условиях высоких финансовых рисков и быстрых изменений, в том числе и глобальных.

Для каждого абзаца этой статьи опишите известные Вам способы решения сформулированной проблемы и пришлите автору результаты на проверку. Если хотя бы один предложенный Вами способ автору не известен – он обязуется консультировать Вас в течение года с момента получения Вашей работы по любым вопросам, затронутым в настоящей статье.