Найденный причиной этой проблемы, Hive не применял фильтры разделов на некоторой таблице, потому что эти таблицы были кэшированы. Таким образом, когда я восстановил бережливый сервер, кеш был удален, а фильтры разделов были применены
Я столкнулся с этой проблемой с улей. Когда я запрашиваю таблицу, которая разбита на столбец даты, SELECT count (*) из table_name, где date = '2018-06-01', запрос считывает все данные таблицы и сохраняет в течение рабочих часов. Использование EXPLAIN Я обнаружил, что HIVE не применяя PartitionFilter в запросе, я дважды проверил, что таблица разбита на столбец даты по desc table_name.
Механизм выполнения - это Spark And Data хранится в озере Azure Data в формате паркета
Однако у меня есть другая таблица в базе данных, для которой применяется PartitionFilter, и она выполняется, как ожидалось.
Может ли быть какая-то проблема с метаданными улья или это что-то еще
apache-spark,hive,apache-spark-sql,parquet,