Максимальный информационный коэффициент против иерархического агломерационного кластеризации

Question

Максимальный информационный коэффициент против иерархического агломерационного кластеризации

В чем разница между максимальным информационным коэффициентом и иерархическим агломерационным кластерированием при определении функциональных и нефункциональных зависимостей.

Какие из них могут лучше идентифицировать дубликаты?

functional-programming,duplicates,cluster-analysis,coefficients,information-theory,

-1

Ответов: 1

функционально-программирование, дубликаты, кластерный анализ, коэффициенты, информационно-теория,

Похожие вопросы

score 0 · Answer 1

0

Этот вопрос не имеет большого смысла, извините.

MIC и HAC близки к нулю.

MIC является искалеченной формой «корреляции» с очень грубым эвристическим поиском и множеством рекламных видеороликов и анонсов новостей, и получил довольно суровые отзывы от статистиков. Вы можете подать его в категорию « если он был отправлен в соответствующий журнал (а не совсем неспецифическую и переоцененную науку, которая, вероятно, вообще не должна публиковать такие темы, или, по крайней мере, получить лучших рецензентов из предметных доменов. а не первая научная статья этого качества ....), она была бы отвергнута (как есть - лучшие эксперты-эксперты потребовали бы серьезных изменений) ». См., Например,

Ной Саймон и Роберт Тиббирани, комментарий к «Обнаружение новых ассоциаций в больших наборах данных» Решеф и др., Science, 16 декабря 2011 г.

«Как видно из рисунка, MIC имеет более низкую мощность, чем dcor, в каждом случае, за исключением несколько патологической высокочастотной синусоидальной волны. MIC иногда менее эффективен, чем корреляция Пирсона, а линейный случай вызывает особую тревогу».

И «тибс» - очень уважаемый автор. И это только один из многих удивлен, что такие вещи принимаются в таком журнале с высокой репутацией. IIRC, авторы MIC даже не смогли сравниться с «древними» альтернативами, такими как Spearman, с современными альтернативами, такими как dCor, или для надлежащего проведения теста статистической мощности их метода.

MIC работает намного хуже, чем рекламируется при изучении со статистической степенью:

Gorfine, M., Heller, R., & Heller, Y. (2012). Комментарий «обнаружение новых ассоциаций в больших наборах данных»

«при большинстве шумных функционалов и нефункциональных настроек тесты HHG и dCor обладают очень большими преимуществами по сравнению с тестом MIC при практических размерах выборки».

На самом деле, MIC дает крайне неуместные результаты на некоторых тривиальных наборах данных, таких как равномерное распределение шахматной доски, которое считается максимально скоррелированным (как коррелировано как y = x); по дизайну. Их сетчатый дизайн перенастроен на довольно специальный сценарий с синусоидальной кривой. У этого есть некоторые интересные свойства, но это ИМХО, лучше воспринятые более ранними подходами, такими как Spearman и dCor).

Неудача авторов MIC по сравнению с Spearman - это ИМХО серьезное упущение, потому что их собственный метод также чисто ранжирован, если я правильно помню. Спирмен - Пирсон, но они сравниваются только с Пирсоном. Излюбленным примером MIC (еще один сомнительный выбор) является синусоидальная волна, которая после преобразования ранга фактически занята зигзагообразной кривой, а не синусом). Я считаю, что это «обман», чтобы заставить Пирсона выглядеть плохо, не используя преобразование ранга с Пирсоном. Хорошие рецензенты потребовали бы такого сравнения.

Теперь все эти жалобы по существу не связаны с HAC. HAC не пытается определить какую-либо форму, если «корреляция», но ее можно использовать с любым расстоянием или сходством (включая сходство с корреляцией). HAC - это нечто совершенно иное: алгоритм кластеризации. Он анализирует большие строки, а не два (!) Столбца.

Вы могли бы даже комбинировать их: если вы вычисляете MIC против каждой пары переменных (но я предпочел бы использовать корреляцию Пирсона, корреляцию Спирмена или корреляцию на расстоянии dCor вместо), вы можете использовать HAC для переменных кластера.

Для поиска лишних дубликатов ни один из них не является хорошим выбором. Просто отсортируйте свои данные, и дубликаты будут следовать друг за другом. (Или, если вы сортируете столбцы, рядом друг с другом).