pyspark實戰指南pdf_第二篇: 詞向量之Spark word2vector實戰

㈠第二篇: 詞向量之Spark word2vector實戰

word2vector 是google開源的一個生成詞向量的工具，以語言模型為優化目標，迭代更新訓練文本中的詞向量，最終收斂獲得詞向量。詞向量可以作為文本分析中重要的特徵，在分類問題、標注問題等場景都有著重要的應用價值。本文總結下了spark word2vector使用過程中遇到的問題，以及給出word2vector使用所需的參數配置，希望能夠減少新手在使用過程中遇到的坑，希望有所幫助。

from pyspark.ml.feature import Word2Vec
from pyspark.sql import SQLContext
from pyspark import SparkConf, SparkContext
from pyspark.sql import Row
conf = (SparkConf().set("spark.driver.maxResultSize","2g"))
sc = SparkContext(conf=conf)
sqlContext = SQLContext(sc)
text = sc.textFile("yourfilepath")
documentDF = text.map(lambda x : Row(text=x.split(" "))).toDF()
word2Vec = Word2Vec(vectorSize=200, minCount=5, numPartitions=100,inputCol="text", outputCol="result")
model = word2Vec.fit(documentDF)
vector_model = model.getVectors()
vector_model.saveAsParquetFile("modelpath")

spark-submit
--master yarn-client
--executor-cores 2
--executor-memory 14g
--queue your-queue
--num-executors 100
--driver-memory 10g
--conf spark.ui.port=$RANDOM
--conf spark.shuffle.manager=SORT
--conf spark.shuffle.memoryFraction=0.2
--conf spark.yarn.executor.memoryOverhead=2048
--conf spark.core.connection.ack.wait.timeout=300
--conf spark.akka.frameSize=600 ./word2vector_training.py

熱點內容

在回收站中可以恢復幾個文件夾發布：2025-03-10 21:06:20 瀏覽：916

phpget轉義發布：2025-03-10 20:54:26 瀏覽：322

我的世界寶可夢伺服器叫什麼名字發布：2025-03-10 20:48:25 瀏覽：748

新聞編譯難嗎發布：2025-03-10 20:48:24 瀏覽：582

ia架構伺服器是什麼意思發布：2025-03-10 20:45:36 瀏覽：220

linux查看區域網發布：2025-03-10 20:37:31 瀏覽：77

金蝶啟動命令發布：2025-03-10 20:27:34 瀏覽：480

安卓如何執行shell命令發布：2025-03-10 20:27:27 瀏覽：947

linux路由控制發布：2025-03-10 20:24:35 瀏覽：434

碧藍航線壓縮包解壓密碼發布：2025-03-10 20:23:51 瀏覽：439

抗性提升命令方塊指令發布：2025-03-10 20:23:50 瀏覽：769

程序員那麼可愛第30集免費看發布：2025-03-10 19:42:28 瀏覽：637

如何下載老友麻將app 發布：2025-03-10 19:31:06 瀏覽：445

java路徑參數發布：2025-03-10 19:31:04 瀏覽：592

php命名空間使用發布：2025-03-10 19:31:03 瀏覽：298

app的競爭力如何寫發布：2025-03-10 19:21:14 瀏覽：587

linux刪除swp 發布：2025-03-10 19:01:32 瀏覽：590

pdfxchange40 發布：2025-03-10 18:54:30 瀏覽：77

車牌號碼是哪個app 發布：2025-03-10 18:54:22 瀏覽：50

文件夾如何添加圓點發布：2025-03-10 18:54:19 瀏覽：731

導航:首頁 > 文檔加密 > pyspark實戰指南pdf

pyspark實戰指南pdf

與pyspark實戰指南pdf相關的資料