Настройка pyspark на окнах 10

Я попытался установить искру на машину с окнами 10. У меня есть anacondo2 с python 2.7. Мне удалось открыть экземпляр ноутбука ipython. Я могу запустить следующие строки:

airlines=sc.textFile("airlines.csv")
print (airlines)

Но при запуске я получаю сообщение об ошибке: airlines.first()

Вот ошибка, которую я получаю:

---------------------------------------------------------------------------
Exception                                 Traceback (most recent call last)
<ipython-input-6-85a5d6f5110f> in <module>()
----> 1 airlines.first()

C:sparkpythonpyspark
dd.py in first(self)
   1326         ValueError: RDD is empty
   1327         """
-> 1328         rs = self.take(1)
   1329         if rs:
   1330             return rs[0]

C:sparkpythonpyspark
dd.py in take(self, num)
   1308 
   1309             p = range(partsScanned, min(partsScanned + numPartsToTry, totalParts))
-> 1310             res = self.context.runJob(self, takeUpToNumLeft, p)
   1311 
   1312             items += res

C:sparkpythonpysparkcontext.py in runJob(self, rdd, partitionFunc, partitions, allowLocal)
    932         mappedRDD = rdd.mapPartitions(partitionFunc)
    933         port = self._jvm.PythonRDD.runJob(self._jsc.sc(), mappedRDD._jrdd, partitions)
--> 934         return list(_load_from_socket(port, mappedRDD._jrdd_deserializer))
    935 
    936     def show_profiles(self):

C:sparkpythonpyspark
dd.py in _load_from_socket(port, serializer)
    137         break
    138     if not sock:
--> 139         raise Exception("could not open socket")
    140     try:
    141         rf = sock.makefile("rb", 65536)

Exception: could not open socket

Я получаю другую ошибку при выполнении: airlines.collect()

Вот ошибка:

---------------------------------------------------------------------------
error                                     Traceback (most recent call last)
<ipython-input-5-3745b2fa985a> in <module>()
      1 # Using the collect operation, you can view the full dataset
----> 2 airlines.collect()

C:sparkpythonpyspark
dd.py in collect(self)
    775         with SCCallSiteSync(self.context) as css:
    776             port = self.ctx._jvm.PythonRDD.collectAndServe(self._jrdd.rdd())
--> 777         return list(_load_from_socket(port, self._jrdd_deserializer))
    778 
    779     def reduce(self, f):

C:sparkpythonpyspark
dd.py in _load_from_socket(port, serializer)
    140     try:
    141         rf = sock.makefile("rb", 65536)
--> 142         for item in serializer.load_stream(rf):
    143             yield item
    144     finally:

C:sparkpythonpysparkserializers.py in load_stream(self, stream)
    515         try:
    516             while True:
--> 517                 yield self.loads(stream)
    518         except struct.error:
    519             return

C:sparkpythonpysparkserializers.py in loads(self, stream)
    504 
    505     def loads(self, stream):
--> 506         length = read_int(stream)
    507         if length == SpecialLengths.END_OF_DATA_SECTION:
    508             raise EOFError

C:sparkpythonpysparkserializers.py in read_int(stream)
    541 
    542 def read_int(stream):
--> 543     length = stream.read(4)
    544     if not length:
    545         raise EOFError

C:UsersASAnaconda2libsocket.pyc in read(self, size)
    382                 # fragmentation issues on many platforms.
    383                 try:
--> 384                     data = self._sock.recv(left)
    385                 except error, e:
    386                     if e.args[0] == EINTR:

error: [Errno 10054] An existing connection was forcibly closed by the remote host

Пожалуйста помоги.

python-2.7,windows-10,pyspark,anaconda,

1

Ответов: 1


0

УСТАНОВИТЕ PYSPARK на Windows 10 JUPYTER-NOTEBOOK С АНАКОНДНЫМ НАВИГАТОРОМ

ШАГ 1

Загрузить пакеты

1) spark-2.2.0-bin-hadoop2.7.tgz Скачать

2) java jdk 8 version Скачать

3) Anaconda v 5.2 Скачать

4) scala-2.12.6.msi Скачать

5) hadoop v2.7.1 Скачать

ШАГ 2

СДЕЛАЙТЕ ПАКЕТ СПАРКА В C: / ПРИВОД И ПУТЬ ВСЕ ВНУТРЕННУЮ ЭТО Это будет выглядеть так

ПРИМЕЧАНИЕ: ВО ВРЕМЯ УСТАНОВКИ СКАЛА ДАЙТЕ ПУТЬ СКЛАДЫ ВНУТРЕННИЙ ПАПКИ

ШАГ 3

СЕЙЧАС УСТАНОВЛ НОВЫЕ ОКНА ОКРУЖАЮЩЕЙ СРЕДЫ ПЕРЕМЕННЫЕ

  1. HADOOP_HOME=C:sparkhadoop

  2. JAVA_HOME=C:Program FilesJavajdk1.8.0_151

  3. SCALA_HOME=C:sparkscalain

  4. SPARK_HOME=C:sparksparkin

  5. PYSPARK_PYTHON=C:UsersuserAnaconda3python.exe

  6. PYSPARK_DRIVER_PYTHON=C:UsersuserAnaconda3Scriptsjupyter.exe

  7. PYSPARK_DRIVER_PYTHON_OPTS=notebook

  8. ТЕПЕРЬ ВЫБЕРИТЕ ПУТЬ СПАРКА : ИЗМЕНИТЬ И ДОБАВИТЬ НОВУЮ

    Добавить " C: spark spark bin a €? To variable" Патч "Windows

ШАГ 4

  • Создайте папку, в которой вы хотите хранить выходы и файлы Jupyter-Notebook
  • После этого откроется команда командной строки Anaconda и имя папки cd
  • затем введите Pyspark

thats это ваш браузер появится с Juypter localhost

ШАГ 5

Проверка pyspark работает или нет!

Введите простой код и запустите его

from pyspark.sql import Row
a = Row(name = 'Vinay' , age=22 , height=165)
print("a: ",a)
питон-2,7, окна-10, pyspark, анаконда,
Похожие вопросы
Яндекс.Метрика