Как установить словари...(Ответ)

60, A61, A62(S), i62, M92, Aurora, Juliet, Hamlet, Hercules, Nemo, Perseus, Pilgrim, Titan
Аватара пользователя
Kirith
Академик (6 lvl)
Сообщения: 1455
Зарегистрирован: Чт июл 29, 2010 16:38

Сообщение Kirith » Пт янв 04, 2013 21:41

Reader7, интересно. Отпишитесь как что делали (типа "руководства") если успешно сконвертируете, конечно.
"я тысячу раз сожалел о том что сказал и ни разу - о том что промолчал" Фома Аквинский
М90х1, I62HD(st), М92x1, M92Mx12, Prometeus2 x5, Hronos x12

Pooh_
Доктор (4 lvl)
Сообщения: 286
Зарегистрирован: Вс ноя 18, 2012 13:41

Сообщение Pooh_ » Сб янв 05, 2013 00:37

Reader7 писал(а): все устанавливается, собственно для редактирования в качестве исходных и брал уже рабочие словари (но кривые - да все словари кривые, кроме Мюллера, это и хотел поправить).
А что там криво? Может мы тут зря на Оникс наезжали, что транскрипция в карточке слова не показывается...
I62M Albatros HD; 1.8 от 7.01.2013

Reader7
Студент (1 lvl)
Сообщения: 46
Зарегистрирован: Пт сен 14, 2012 19:31

Сообщение Reader7 » Ср янв 30, 2013 18:34

Добрый день,

Извините, тут на время отошел от дел оных...
Но вчера вернулся и глянул свежим взглядом на проблему. Второй подход оказался удачным! Сам не ожидал, что так быстро все решиться, да и несколько нетипично - если следовать традициям, русским сказкам там, успешной должна быть третья попытка. Все-таки отдых полезен, чего и всем желаю. :)

Соответственно, как тут запрашивали, привожу типа "руководства".

1. Сначала скачиваем несколько инструментов, которые нам понадобятся для работы:
- по ссылке
http://code.google.com/p/stardict-3/downloads/list
находим в списке и скачиваем StarDictPortable-stardict.sourceforge.com_3.0.3.paf.exe
- по ссылке
http://sintegrial.com/dictui/pages/en/index.php
скачиваем Win32 DictUI binaries - setup as standalone application
- также будет очень полезен (тем кто еще не пользуется) блокнот notepad++ на замену стандартного блокнота
http://notepad-plus-plus.org/download/
- и такой очень полезный и наверное один из лучших инструментов для работы с регулярными выражениями как RegexBuddy. Это коммерческий продукт, но пролеченные варианты в сети имеются, например:
http://rutracker.org/forum/viewtopic.php?t=3320287

2. Следующая задача состоит в том, чтобы подредактировать какой-либо "кривой" словарь, так чтобы ониксы его более корректно воспринимали.
Например, возьмем универсальный англо-русский словарь из коллекции
http://soft.sibnet.ru/soft/5349-stardic ... -slovarei/

Проблема с ним в том, что оникс не показывает транскрипцию и, наоборот, показывает лишние ссылки на звуковые файлы.
Практически это проблема всех словарей кроме stardict-mueller7-2.4.2.
Поэтому логично подсмотреть как устроен mueller и подогнать другие словари под близкий формат.

Предварительно сделаем копию нашего словаря.

Затем запускаем StarDictPortable-stardict.sourceforge.com_3.0.3.paf.exe, и после раз'архивации этого пакета, использует StarDictEditorPortable.exe для декомпиляции словаря. Подставляем .ifo-файл и выбираем, а в качестве формата "Textual StarDict dictionary".
В результате должны получить одноименный xml-файл.
Остальные файлы словаря кроме этого xml-файла - удаляем.

Прежде всего, видим лишние ссылки на звуковые файлы, типа <rref>help.wav</rref>
Для их удаления можно использовать RegexBuddy в режиме Replace и вкладку GREP, заменяя регулярное выражение <rref>.+</rref> на пустую строку.

Далее, если сравнить, его с аналогично полученным xml-файлом mueller словаря, то станет очевидным, что оникс не понимает теги транскрипции типа <tr>help</tr>, вместо них должно быть [help]. Делаем соответствующую автоматическую групповую замену во всем xml-файле. Для этого также можно использовать Replace-GREP и замену <tr>(.+)</tr> на [\1]

Все, файл исправлен, теперь компилируем его обратно. Опять используем StarDictEditorPortable.exe, для уже компиляции, выбирая в качестве входных данных наш xml-файл, а в качестве формата "Textual StarDict dictionary". Получим 3 одноименных файла: .ifo, .idx и .dict.

Полученный .ifo оникс не понимает (можете сравнить его с исходным если интересно), поэтому мы его заменяем на исходный из сохраненной копии словаря (но это было бы недопустимо, если бы мы добавляли или удаляли словарные статьи из xml-файла).

Далее нам осталось сжать .dict файл в .dict.dz файл. Для этого мы и скачивали ранее Win32 DictUI.
После раз'архивации этого пакета, получим папку DictUI, а в ней dictui.exe (для работы через интерфейс) и dictzip.exe (для работы через командную строку). Так вот, не советую пользоваться dictui.exe, как показало бинарное сравнение файлов эта утилита работает не совсем чисто. Лучше зайдите в cmd или far (как я) и запустите оттуда dictzip.exe "ваш словарь.dict" (предварительно скопировав "ваш словарь.dict" в папку DictUI). В результате получим искомый "ваш словарь.dict.dz"

Все, копируем все 3 файла на оникс и наслаждаемся плодами своих трудов :)
Писал долго, но в реальности все эти операции занимают считанные минуты.

================

Также подкорректировал словарь Apresyan (En-Ru), где изначально после каждой строки в словарных статьях шли 2 лишние пустые строки. Проблема была в тегах, которые оникс корректно не понимает. Просто вычистил эти теги.

Эти уже готовые откорректированные словари, поместил на
http://rusfolder.com/34757246
http://rusfolder.com/34757245

Если кто будет корректировать другие словари, просьба также делится результатами.
Последний раз редактировалось Reader7 Ср янв 30, 2013 21:05, всего редактировалось 10 раз.
M92 и i62ML

Reader7
Студент (1 lvl)
Сообщения: 46
Зарегистрирован: Пт сен 14, 2012 19:31

Сообщение Reader7 » Ср янв 30, 2013 18:39

Pooh_ писал(а): А что там криво? Может мы тут зря на Оникс наезжали, что транскрипция в карточке слова не показывается...
Pooh_, наезжали не зря, транскрипция в самих словарях содержится, но оникс ее не отображает - очевидная недоработка софта.

Встречаются и другие проблемы - ненужные ссылки на звуковые файлы или лишние пустые строчки...

Вообще, многие теги StarDict формата софт не понимает.

Если говорить о версии StarDict формата 2.4.2., который и рекомендуется для оникса, то эта версия от 2003 года! В то время как на офсайте StarDict уже много поколений библиотеки для работы с этим форматам сменилось - сейчас уже идет версия 3.0.4 (от 2013 года).

Поэтому позор китайским (или кто там) программистам! Исходники есть - бери да вставляй, что им мешает?
M92 и i62ML

Аватара пользователя
Kirith
Академик (6 lvl)
Сообщения: 1455
Зарегистрирован: Чт июл 29, 2010 16:38

Сообщение Kirith » Ср янв 30, 2013 20:04

Reader7 писал(а):Например, возьмем stardict-ER-LingvoUniversal-2.4.2 словарь из коллекции
http://rutracker.org ***
Сейчас прямо до Вас доберётся модератор. Исправляйте ссылку на что-то легальное. Банят тут за это... :?
Последний раз редактировалось Kirith Ср янв 30, 2013 20:52, всего редактировалось 1 раз.
"я тысячу раз сожалел о том что сказал и ни разу - о том что промолчал" Фома Аквинский
М90х1, I62HD(st), М92x1, M92Mx12, Prometeus2 x5, Hronos x12

Reader7
Студент (1 lvl)
Сообщения: 46
Зарегистрирован: Пт сен 14, 2012 19:31

Сообщение Reader7 » Ср янв 30, 2013 20:12

Kirith писал(а):Сейчас прямо до Вас доберётся модератор. Исправляйте ссылку на что-то легальное. Банят тут за это... :?
Таки, если правильно помню, на этом форуме изначально и нашел эту ссылку.
Тем более сам контент по этой ссылке вроде не содержит никаких пиратских (нелегальных) данных.

Да и вообще ссылки на инфу не запрещены законом, или здесь модераторы строже чем российское законодательство?
M92 и i62ML

Аватара пользователя
Kirith
Академик (6 lvl)
Сообщения: 1455
Зарегистрирован: Чт июл 29, 2010 16:38

Сообщение Kirith » Ср янв 30, 2013 20:19

Reader7, преценденты были. Прямо с этой ссылкой. В неё позже словари Lingvo ворованные добавили. Убирайте - не хочу, чтобы Вас банили. Модератор DV1024 после 20:00 форум просматривает.
"я тысячу раз сожалел о том что сказал и ни разу - о том что промолчал" Фома Аквинский
М90х1, I62HD(st), М92x1, M92Mx12, Prometeus2 x5, Hronos x12

Аватара пользователя
Kirith
Академик (6 lvl)
Сообщения: 1455
Зарегистрирован: Чт июл 29, 2010 16:38

Сообщение Kirith » Ср янв 30, 2013 20:28

Reader7 писал(а):- также будет очень полезен (тем кто еще не пользуется) блокнот notepad++ на замену стандартного блокнота
http://notepad-plus-plus.org/download/
- и такой очень полезный и наверное один из лучших инструментов для работы с регулярными выражениями как RegexBuddy. Это коммерческий продукт, но пролеченные варианты в сети имеются, например:
Как вариант замены этих двух программ предлагаю полностью свободную - gedit
Currently it features:
Full support for internationalized text (UTF-8)
Configurable syntax highlighting for various languages (C, C++, Java, HTML, XML, Python, Perl and many others)
Undo/Redo
Editing files from remote locations
File reverting
Print and print preview support
Clipboard support (cut/copy/paste)
Search and replace
Go to specific line
Auto indentation
Text wrapping
Line numbers
Right margin
Current line highlighting
Bracket matching
Backup files
Configurable fonts and colors
A complete online user manual
У кого ненависти к Linux-у нет - пользуйтесь. Мне очень нравится. :-)
"я тысячу раз сожалел о том что сказал и ни разу - о том что промолчал" Фома Аквинский
М90х1, I62HD(st), М92x1, M92Mx12, Prometeus2 x5, Hronos x12

ONYX Russia
Нобелевский лауреат (7 lvl)
Сообщения: 7328
Зарегистрирован: Сб фев 06, 2010 16:36

Сообщение ONYX Russia » Ср янв 30, 2013 20:38

Reader7
Спасибо за подробную инструкцию. Но я бы очень попросил в качестве примера брать словари, незащищенные авторским правом. И уж ни в коем случае не Lingvo. Все ссылки на нелицензионные словари Lingvo (особенно с прямым указанием) и инструкции по конвертации словарей Lingvo в Stardict будут удаляться. У МакЦентра есть строгое соглашение с ABBYY.

Предупреждение я Вам давать не стал - ввиду того, что Вы написали действительно хорошую инструкцию. Но, увы, все упоминания Lingvo из нее пришлось удалить. Извиняюсь, но таковы правила данного форума.

Reader7
Студент (1 lvl)
Сообщения: 46
Зарегистрирован: Пт сен 14, 2012 19:31

Сообщение Reader7 » Ср янв 30, 2013 20:42

Kirith писал(а):Убирайте - не хочу, чтобы Вас банили. Модератор DV1024 после 20:00 форум просматривает.
Ок, уважим модератора, раз такие строгости, заменил на другую ссылку.

Кстати notepade++ тоже мультиплатформеная и соотвественно может работать под Linux.
Сейчас также огромную популярность набирает текстовой редактор Sublime Text 2
Мне notepade++ нравится тем что там также есть много полезных плагинов.

Более того адептам Linux и RegexBuddy не понадобится, поскольку там GREP встроен в командную строку.
Последний раз редактировалось Reader7 Ср янв 30, 2013 21:52, всего редактировалось 2 раза.
M92 и i62ML

Аватара пользователя
Kirith
Академик (6 lvl)
Сообщения: 1455
Зарегистрирован: Чт июл 29, 2010 16:38

Сообщение Kirith » Ср янв 30, 2013 20:50

Reader7, успел Вашу статью скопировать сюда. Если всё измените, то там изменю. ;-)
Reader7 писал(а): Более того адептам Linux и RegexBuddy не понадобится, поскольку там GREP встроен в командную строку.
Знаем.. знаем... 8)
dv1024 писал(а): Предупреждение я Вам давать не стал - ввиду того, что Вы написали действительно хорошую инструкцию
+1 Спасибо за понимание.
"я тысячу раз сожалел о том что сказал и ни разу - о том что промолчал" Фома Аквинский
М90х1, I62HD(st), М92x1, M92Mx12, Prometeus2 x5, Hronos x12

Reader7
Студент (1 lvl)
Сообщения: 46
Зарегистрирован: Пт сен 14, 2012 19:31

Сообщение Reader7 » Ср янв 30, 2013 21:07

dv1024 писал(а):Предупреждение я Вам давать не стал - ввиду того, что Вы написали действительно хорошую инструкцию. Но, увы, все упоминания Lingvo из нее пришлось удалить. Извиняюсь, но таковы правила данного форума.
dv1024, спасибо! Пост подкорректировал.
M92 и i62ML

Reader7
Студент (1 lvl)
Сообщения: 46
Зарегистрирован: Пт сен 14, 2012 19:31

Сообщение Reader7 » Ср янв 30, 2013 21:09

Kirith писал(а):Reader7, успел Вашу статью скопировать сюда. Если всё измените, то там изменю. ;-)
Kirith, спасибо за ссылку на интересный ресурс!
(только не понял как там зарегится, чтобы оставлять комменты - вход через google аккаунт не помогает)

Если этот ресурс не связан договоренностью с лингвой, то смысла что-то менять не вижу.
M92 и i62ML

Reader7
Студент (1 lvl)
Сообщения: 46
Зарегистрирован: Пт сен 14, 2012 19:31

Сообщение Reader7 » Ср янв 30, 2013 21:33

Ого, я уже "студентом" стал! Росту однако :)
M92 и i62ML

Аватара пользователя
Злой Зилов
Академик (6 lvl)
Сообщения: 1507
Зарегистрирован: Ср дек 14, 2011 22:45

Сообщение Злой Зилов » Ср янв 30, 2013 22:33

А если выложить словари Лингво и разослать в личку всем линк - это же не нарушает правила форума.

Выложить?
Booken Cybook Muse Frontlight (Carta)

Barnes & Noble NOOK Simple Touch™ with GlowLight™/ReLanch+CoolReader

ONYX Boox M91S Odysseus, Firmware v.1.7 20120517

Ответить