Je tentais faire columnSimiliraties d'utilisation via pyspark etpySpark toRowMatrix confusion
import pyspark
pyspark.__version__
#'2.2.0'
from pyspark.mllib.linalg.distributed import RowMatrix, IndexedRowMatrix
test = np.array[[1,2,3,4,5,6,7,8,9,10],[1,2,3,4,5,6,7,8,9,10], [1,2,3,4,5,6,7,8,9,10], [1,2,3,4,5,6,7,8,9,10]]
# so I can compare rows with each other I need to transpose my data
test = np.transpose(test)
# Calculate exact similarities
exactSim = mat.columnSimilarities()
print(exactSim.numRows(),exactSim.numCols())
# 4 4
Comme prévu cela me donne une matrice 4 x 4
Quand je produis un rowMatrix de cela, je pense que cela devrait conserver cette forme
rowMat = exactSim.toRowMatrix()
print(rowMat.numRows(), rowMat.numCols())
# 3 4
Donc, en quelque sorte, je perds des lignes sur cette conversion.
Je crois que c'est la dernière ligne qui est tous les zéros - mais idéalement, je voudrais toutes les lignes sorties ... des idées comment je peux obtenir la matrice carrée?
pouvez-vous s'il vous plaît interpréter le résultat de l'entrée maxtrix comme comment puis-je savoir lesquels ont été comparés étant donné que je et j sont les colonnes. Je veux dire quelles données de var test sont comparées. –