Я довольно новичок в pyspark, начиная с и RDD У меня есть (url, names) в этой форме:
url1 [name1, name2,..., nameN]
url2 [name2, name44,..., nameN]
url3 [name1, name3,..., nameM]
...
Для каждого URL-адреса я хотел бы взять все имена и использовать каждый из них, чтобы загрузить отдельный файл, используя http-запрос, например, для url1, который я хотел бы сделать аналогично этому (если бы я был в классической итерации) :
requests.get('http://some_site.com/'+str(name1))
requests.get('http://some_site.com/'+str(name2))
...
requests.get('http://some_site.com/'+str(nameN))
Проблема в том, что я хотел бы загрузить их непосредственно в hdfs, не копируя все файлы для каждого рабочего, как предлагалось здесь с помощью команды addFile (путь), как dataframereader может читать http? Любой способ сделать это непосредственно из искрового приложения? Файл очень тяжелый, и я не могу сохранить их на своей машине, чтобы загрузить их в hdfs в другой момент
Я довольно новичок в pyspark, начиная с и RDD У меня есть (url, names) в этой форме:
url1 [name1, name2,..., nameN]
url2 [name2, name44,..., nameN]
url3 [name1, name3,..., nameM]
...
Для каждого URL-адреса я хотел бы взять все имена и использовать каждый из них, чтобы загрузить отдельный файл, используя http-запрос, например, для url1, который я хотел бы сделать аналогично этому (если бы я был в классической итерации) :
requests.get('http://some_site.com/'+str(name1))
requests.get('http://some_site.com/'+str(name2))
...
requests.get('http://some_site.com/'+str(nameN))
Проблема в том, что я хотел бы загрузить их непосредственно в hdfs, не копируя все файлы для каждого рабочего, как предлагалось здесь с помощью команды addFile (путь), как dataframereader может читать http? Любой способ сделать это непосредственно из искрового приложения? Файл очень тяжелый, и я не могу сохранить их на своей машине, чтобы загрузить их в hdfs в другой момент
00файл, апач искровые pyspark,