pyspark实战指南pdf_第二篇: 词向量之Spark word2vector实战

㈠第二篇: 词向量之Spark word2vector实战

word2vector 是google开源的一个生成词向量的工具，以语言模型为优化目标，迭代更新训练文本中的词向量，最终收敛获得词向量。词向量可以作为文本分析中重要的特征，在分类问题、标注问题等场景都有着重要的应用价值。本文总结下了spark word2vector使用过程中遇到的问题，以及给出word2vector使用所需的参数配置，希望能够减少新手在使用过程中遇到的坑，希望有所帮助。

from pyspark.ml.feature import Word2Vec
from pyspark.sql import SQLContext
from pyspark import SparkConf, SparkContext
from pyspark.sql import Row
conf = (SparkConf().set("spark.driver.maxResultSize","2g"))
sc = SparkContext(conf=conf)
sqlContext = SQLContext(sc)
text = sc.textFile("yourfilepath")
documentDF = text.map(lambda x : Row(text=x.split(" "))).toDF()
word2Vec = Word2Vec(vectorSize=200, minCount=5, numPartitions=100,inputCol="text", outputCol="result")
model = word2Vec.fit(documentDF)
vector_model = model.getVectors()
vector_model.saveAsParquetFile("modelpath")

spark-submit
--master yarn-client
--executor-cores 2
--executor-memory 14g
--queue your-queue
--num-executors 100
--driver-memory 10g
--conf spark.ui.port=$RANDOM
--conf spark.shuffle.manager=SORT
--conf spark.shuffle.memoryFraction=0.2
--conf spark.yarn.executor.memoryOverhead=2048
--conf spark.core.connection.ack.wait.timeout=300
--conf spark.akka.frameSize=600 ./word2vector_training.py

热点内容

怎么拿到服务器权限发布：2025-03-11 00:22:52 浏览：192

延时摄影app如何保存发布：2025-03-11 00:16:06 浏览：195

程序员转正申请职级怎么写发布：2025-03-11 00:15:27 浏览：874

closelinuxsocket 发布：2025-03-11 00:14:35 浏览：268

程序员0基础该怎么学发布：2025-03-11 00:06:25 浏览：276

android支付宝支付原理发布：2025-03-10 23:54:50 浏览：729

股票指标加密可以导入发布：2025-03-10 23:48:18 浏览：935

怎样算法排卵期发布：2025-03-10 23:48:18 浏览：803

小米如何加密第三方软件发布：2025-03-10 23:29:04 浏览：232

安卓工程师有什么证书发布：2025-03-10 23:18:13 浏览：788

小米相册截屏文件夹目录发布：2025-03-10 23:15:33 浏览：552

scum怎么查看服务器的ip地址发布：2025-03-10 23:15:30 浏览：457

程序员面试要那么长时间吗发布：2025-03-10 22:52:12 浏览：63

程序员那么可爱有几集发布：2025-03-10 22:50:54 浏览：721

韩顺平java入门到精通下载发布：2025-03-10 22:49:57 浏览：880

c语音编译器苹果版发布：2025-03-10 22:34:58 浏览：915

华为云服务器忙发布：2025-03-10 22:34:13 浏览：432

9806h命令发布：2025-03-10 22:34:03 浏览：726

无锡人怎么在APP里发布：2025-03-10 22:15:06 浏览：810

安卓系统怎么让应用不保存缓存发布：2025-03-10 22:12:52 浏览：482

导航:首页 > 文档加密 > pyspark实战指南pdf

pyspark实战指南pdf

与pyspark实战指南pdf相关的资料