Pyspark: загрузка файлов непосредственно в hdfs

Question

Pyspark: загрузка файлов непосредственно в hdfs

Я довольно новичок в pyspark, начиная с и RDD У меня есть (url, names) в этой форме:

url1 [name1, name2,..., nameN]
url2 [name2, name44,..., nameN]
url3 [name1, name3,..., nameM]
...

Для каждого URL-адреса я хотел бы взять все имена и использовать каждый из них, чтобы загрузить отдельный файл, используя http-запрос, например, для url1, который я хотел бы сделать аналогично этому (если бы я был в классической итерации) :

requests.get('http://some_site.com/'+str(name1))
requests.get('http://some_site.com/'+str(name2))
...
requests.get('http://some_site.com/'+str(nameN))

Проблема в том, что я хотел бы загрузить их непосредственно в hdfs, не копируя все файлы для каждого рабочего, как предлагалось здесь с помощью команды addFile (путь), как dataframereader может читать http? Любой способ сделать это непосредственно из искрового приложения? Файл очень тяжелый, и я не могу сохранить их на своей машине, чтобы загрузить их в hdfs в другой момент

file,apache-spark,pyspark,

0

Ответов: 0

Pyspark: загрузка файлов непосредственно в hdfs

Я довольно новичок в pyspark, начиная с и RDD У меня есть (url, names) в этой форме:

url1 [name1, name2,..., nameN]
url2 [name2, name44,..., nameN]
url3 [name1, name3,..., nameM]
...

Для каждого URL-адреса я хотел бы взять все имена и использовать каждый из них, чтобы загрузить отдельный файл, используя http-запрос, например, для url1, который я хотел бы сделать аналогично этому (если бы я был в классической итерации) :

requests.get('http://some_site.com/'+str(name1))
requests.get('http://some_site.com/'+str(name2))
...
requests.get('http://some_site.com/'+str(nameN))

Проблема в том, что я хотел бы загрузить их непосредственно в hdfs, не копируя все файлы для каждого рабочего, как предлагалось здесь с помощью команды addFile (путь), как dataframereader может читать http? Любой способ сделать это непосредственно из искрового приложения? Файл очень тяжелый, и я не могу сохранить их на своей машине, чтобы загрузить их в hdfs в другой момент

00файл, апач искровые pyspark,

Похожие вопросы