Заметным событием "Информационного дня Informatica", который прошел в Москве в начале июля, стало представление нового подразделения компании — Identity Systems (до недавнего времени - дочернего предприятия Nokia). Оно специализируется на разработке технологий и инструментальных средств для решения задач обеспечения качества данных, соответствия нормативным требованиям, управления справочными данными и нормативно-справочной информацией, установления тождественности (идентичности) и поиска при обработке данных, которые могут быть представлены различным образом.
Проще всего пояснить применение продукции Identity Systems на примере работы с именами и фамилиями. Человек по имени John Smith может фигурировать в различных источниках данных как John Smith; Smith, John; John D. Smith; J. D. Smith. Неэффективность традиционных механизмов поиска проявится уже на этом примере, но указанным типом возможных различий дело не ограничивается. Иностранные имена даже в одном языке могут транслитерироваться разными способами, например Ким Чжон Иль и Ким Чен Ир, не говоря уже о разных языках: Shevchenko, Chevtchenko и Schewtschenko. При работе глобальных компаний и взаимодействии государственных учреждений различных стран возникает задача обработки данных, представленных в различных алфавитах. Помимо языковых факторов, однозначности представления данных могут препятствовать ошибки при вводе, ошибки при автоматизированной обработке, злой умысел и др.
По словам директора Informatica Identity Resolution по продажам и обслуживанию в регионе EMEA Тьерри Буа (ранее - вице-президента Identity Systems по региону EMEA), история Identity Systems началась в 1984 году в Сиднее, когда подразделение ИТ-компании SPL WorldGroup занялось разработкой системы идентификации и установления тождественности таких персональных данных, как имена и фамилии, для австралийской иммиграционной службы. В 1986 году подразделение, разработками которого заинтересовалась Служба иммиграции и натурализации США, было выделено в компанию, получившую имя Search Software America и штаб-квартиру в Соединенных Штатах, но сохранившую принадлежность к SPL. В 2004 году SSA была приобретена корпорацией Intellisync, разрабатывавшей технологии оперативной доставки электронной почты, и сменила название на Identity Systems, которое точнее отражало специализацию компании. Intellisync была, в свою очередь, куплена компанией Nokia в 2005 году. Как подчеркнул Буа, Nokia не стесняла свободы действий SSA, поддерживая ее бизнес с помощью адекватных инвестиций. В то же время сделка с Informatica, отметил Буа, в силу специализации последней наиболее точно отвечает задачам Identity Systems.
Сейчас Identity Systems имеет более 500 заказчиков по всему миру; половина из них — государственные организации, однако доля их в доходе компании составляет около 80%. Помимо имен и фамилий, компания специализируется на работе с такими типами данных, как адреса, телефонные номера, описания товаров, идентификаторы поставщиков и др. Отличительными особенностями продуктов Identity Systems, заявил Буа, являются возможность работы с неочищенными данными, с большими объемами данных и высокая скорость обработки. Программные средства Identity Systems поддерживают 65 языковых сред. Основными конкурентами Буа назвал программы работы с данными, создаваемые компаниями-пользователями самостоятельно, а среди поставщиков коммерческих средств упомянул IBM. Очевидно, впрочем, что решение задач точного определения сущностей, обозначаемых данными, помимо различных алгоритмов, в значительной степени базируется на применении типовых таблиц соответствия и словарей, формирование которых требует не только знания языка, культуры и предметной области, но и длительного времени. В этом плане у Identity Systems в уже освоенных предметных областях имеется безусловное преимущество перед самостоятельными разработками.
http://www.osp.ru/cw_online/2008/27/5191236/