Объект Word2Vec в gensim
имеет параметр null_word
, который не объясняется в документации.
class gensim.models.word2vec.Word2Vec (предложения = None, size = 100, alpha = 0.025, window = 5, min_count = 5, max_vocab_size = None, sample = 0.001, seed = 1, worker = 3, min_alpha = 0,0001, sg = 0, hs = 0, negative = 5, cbow_mean = 1, hashfxn =, iter = 5, null_word = 0, trim_rule = None, sorted_vocab = 1, batch_words = 10000)
Для чего используется параметр null_word
?
Проверка кода на https://github.com/RaRe-Technologies/gensim/blob/develop/gensim/models/word2vec.py#L680, в нем говорится:
if self.null_word:
# create null pseudo-word for padding when using concatenative L1 (run-of-words)
# this word is only ever input – never predicted – so count, huffman-point, etc doesn't matter
word, v = '', Vocab(count=1, sample_int=0)
v.index = len(self.wv.vocab)
self.wv.index2word.append(word)
self.wv.vocab[word] = v
Что такое конкатенативный L1?
null_word
используется только при использовании PV-DM в режиме конкатенации — параметры dm=1, dm_concat=1
при инициализации модели.
В этом нестандартном режиме, вектор doctag и векторы соседних слов в window
позициях целевого слова объединяются в очень широкий входной слой, а не при более типичном усреднении.
Такие модели намного крупнее и медленнее других режимов. В случае целевых слов в начале или в конце примера текста может не хватить соседних слов для создания этого входного слоя, но модель требует значений для этих слотов. Таким образом, null_word
по сути используется как отступ.
Хотя в оригинальной статье Paragraph Vectors
упоминалось об использовании этого режима в некоторых из своих экспериментов, этого режима недостаточно для воспроизведения их результатов. (Никто из моих знакомых не смог воспроизвести эти результаты, и другие комментарии одного из авторов подразумевают, что в исходной статье есть какие-то ошибки или упущения в процессе.)
Кроме того, я не нашел случаев, когда этот режим дает явное преимущество, чтобы оправдать добавленное время / память. (Для демонстрации каких-либо преимуществ могут потребоваться очень большие наборы данных или очень долгое время обучения.)
Поэтому вам не следует слишком беспокоиться об этом свойстве модели, если вы не проводите расширенные эксперименты с этим менее распространенным режимом — в этом случае вы можете просмотреть источник для всех мелких деталей о том, как оно используется в качестве заполнения.
person
gojomo
schedule
22.02.2017
888Kristi 0 / 0 / 0 Регистрация: 04.03.2013 Сообщений: 11 |
||||
1 |
||||
20.05.2013, 12:43. Показов 4061. Ответов 13 Метки нет (Все метки)
Вот текст программы:
Что означает запись !=NULL ?
0 |
29 / 29 / 3 Регистрация: 11.02.2012 Сообщений: 339 |
|
20.05.2013, 12:45 |
2 |
Насколько я понимаю. Если файл не пуст, то выполняется условие
1 |
2924 / 1274 / 114 Регистрация: 27.05.2008 Сообщений: 3,465 |
|
20.05.2013, 12:45 |
3 |
1 |
18 / 18 / 11 Регистрация: 19.05.2013 Сообщений: 135 |
|
20.05.2013, 12:45 |
4 |
если не ошибаюсь, то это проверка не пустой ли файл
0 |
0 / 0 / 0 Регистрация: 04.03.2013 Сообщений: 11 |
|
20.05.2013, 12:47 [ТС] |
5 |
Спасибо)
0 |
29 / 29 / 3 Регистрация: 11.02.2012 Сообщений: 339 |
|
20.05.2013, 12:48 |
6 |
! — not
1 |
4773 / 3267 / 497 Регистрация: 19.02.2013 Сообщений: 9,046 |
|
20.05.2013, 12:48 |
7 |
fopen() возвращает NULL (условно: указатель, который указывает в никуда), если не удалось открыть файл.
1 |
29 / 29 / 3 Регистрация: 11.02.2012 Сообщений: 339 |
|
20.05.2013, 12:49 |
8 |
тоесть f != NULL означает «не пустой»
1 |
Ilot 2007 / 1337 / 381 Регистрация: 16.05.2013 Сообщений: 3,457 Записей в блоге: 6 |
||||
20.05.2013, 12:49 |
9 |
|||
Это проверка указывает ли указатель на нулевой адрес или нет. Я пока еще не умею работать с файлами, но эта строчка:
очевидно передает указателю адрес первого элемента в файле.
1 |
18 / 18 / 11 Регистрация: 19.05.2013 Сообщений: 135 |
|
20.05.2013, 12:51 |
10 |
А != — это что? тыц
0 |
4773 / 3267 / 497 Регистрация: 19.02.2013 Сообщений: 9,046 |
|
20.05.2013, 12:52 |
11 |
Если файл не пуст
проверка не пустой ли файл К «пустоте» файла эта проверка никакого отношения не имеет. Добавлено через 1 минуту
очевидно передает указателю адрес первого элемента в файле. Ничего подобного. RTFM http://www.cplusplus.com/reference/cstdio/fopen/
1 |
18 / 18 / 11 Регистрация: 19.05.2013 Сообщений: 135 |
|
20.05.2013, 12:53 |
12 |
К «пустоте» файла эта проверка никакого отношения не имеет. точно
0 |
0 / 0 / 0 Регистрация: 04.03.2013 Сообщений: 11 |
|
20.05.2013, 13:03 [ТС] |
13 |
Tulosba, Спасибо Вам ОГРОМНОЕ , добрый Вы человек)))) Добавлено через 6 минут
Ой блиинн, как тупанула я…..
0 |
402 / 358 / 36 Регистрация: 11.10.2010 Сообщений: 1,907 |
|
20.05.2013, 13:12 |
14 |
тоесть f != NULL означает «не пустой» нет это означает что файл невозможно открыть
0 |
null_word
используется только при использовании PV-DM в режиме конкатенации — параметры dm=1, dm_concat=1
в инициализации модели.
В этом режиме по умолчанию, doctag-вектор и векторы соседних слов в пределах window
позиции целевого слова объединяются в очень широкий входной слой, а не в более типичное усреднение.
Такие модели намного крупнее и медленнее других режимов. В случае целевых слов в начале или в конце текстового примера, возможно, не хватит соседних слов для создания этого входного слоя — но модель требует значений для этих слотов. Итак null_word
в основном используется в качестве дополнения.
Пока оригинал Paragraph Vectors
В статье упоминается использование этого режима в некоторых их экспериментах, такого режима недостаточно для воспроизведения их результатов. (Никто из тех, кого я знаю, не смог воспроизвести эти результаты, и другие комментарии одного из авторов указывают на то, что в оригинальной статье есть некоторые ошибки или упущения в процессе.)
Кроме того, я не нашел случаев, когда этот режим дает явную выгоду, чтобы оправдать добавленное время / память. (Это может потребовать очень большие наборы данных или очень длительное время обучения, чтобы показать какую-либо выгоду.)
Таким образом, вам не следует слишком беспокоиться об этом свойстве модели, если вы не проделываете расширенные эксперименты с этим менее распространенным режимом — в этом случае вы можете просмотреть источник всех мелких деталей о том, как он используется в качестве заполнения.
The null_word
is only used if using the PV-DM with concatenation mode – parameters dm=1, dm_concat=1
in model initialization.
In this non-default mode, the doctag-vector and the vectors of the neighboring words within window
positions of a target word are concatenated into a very-wide input layer, rather than the more typical averaging.
Such models are much larger and slower than other modes. In the case of target words near the beginning or end of a text example, there might not be enough neighboring words to create this input layer – but the model requires values for those slots. So the null_word
is essentially used as padding.
While the original Paragraph Vectors
paper mentioned using this mode in some of their experiments, this mode is not sufficient to reproduce their results. (No one that I know of has been able to reproduce those results, and other comments from one of the authors imply that the original paper has some error or omission in its process.)
Additionally, I haven’t found cases where this mode offers a clear benefit to justify the added time/memory. (It might require very-large datasets or very-long training times to show any benefit.)
So you shouldn’t be too concerned about this model property unless you’re doing advanced experiments with this less-common mode – in which case you can review the source for all the fine details about how it’s used as padding.
Похожие поиски
- » word 10 версия null что это за программа
- » word 2010 версия null что это
- » ключ для word 2010 версия null что это
- » что значит word 2010 версия null
- » что за программа word 2010 версия null
- » word 2010 null что это
- » microsoft office версия null что это
- » ворд 2010 версия null что это
- » world 2010 версия null что это
- » версия null что это
word версия null что это
на UpdateStar
-
-
-
-
Более
Microsoft Update Health Tools 4.66
Используйте приложение PC Health Check, чтобы узнать, соответствует ли ваш текущий компьютер требованиям для запуска Windows 11. Если это так, вы можете получить бесплатное обновление, когда он выкатывается.
подробнее … -
Более
Java Update 8.0.3610.9
Oracle
— 2MB
—
Freeware
—
Среды выполнения Java SE содержит виртуальную машину Javaбиблиотеки классов среды выполнения и запуска приложений Java, которыенеобходимые для запуска программ, написанных на языке программирования Java.Это не среде разработки и не …
подробнее … -
-
-
Более
WinRAR 6.21.0
OCB 2.16 — это новая версия популярной оболочки для архиватора WinRAR. Программа специально предназначена для быстрого и удобного создания резервных копий документов.
подробнее … -
Более
Free PDF to Word Doc Converter 1.1
Бесплатный PDF в Word Doc Converter является инструментом преобразования рабочего документа для преобразования Adobe PDF в MS Word файл. Программа может извлекать текст, изображения, фигуры из файла PDF в Doc файл и сохранить макет.
подробнее … -
Результаты поиска
word версия null что это
Описания содержат
word версия null что это
-
-
Более
Microsoft Update Health Tools 4.66
Используйте приложение PC Health Check, чтобы узнать, соответствует ли ваш текущий компьютер требованиям для запуска Windows 11. Если это так, вы можете получить бесплатное обновление, когда он выкатывается.
подробнее … -
Более
Java Update 8.0.3610.9
Oracle
— 2MB
—
Freeware
—
Среды выполнения Java SE содержит виртуальную машину Javaбиблиотеки классов среды выполнения и запуска приложений Java, которыенеобходимые для запуска программ, написанных на языке программирования Java.Это не среде разработки и не …
подробнее … -
-
Более
WinRAR 6.21.0
OCB 2.16 — это новая версия популярной оболочки для архиватора WinRAR. Программа специально предназначена для быстрого и удобного создания резервных копий документов.
подробнее … -
-
-
-
Более
Microsoft Silverlight 5.1.50918.0
Silverlight — по существу, это не более, чем Microsoft видение кроссбраузерный, кроссплатформенный подключаемый модуль источника опыта богатых онлайн пользователей и выбить вспышки от ее текущей доминирующей позиции на рынке.
подробнее … -
Более
Apple Software Update 2.6.3.1
Обновление программного обеспечения Apple — программное средство компанией Apple, которое устанавливает последнюю версию программного обеспечения Apple. Он был первоначально введен для Mac пользователи в Mac OS 9.
подробнее …
Дополнительные заголовки, содержащие