Bug 144682 - Search for unicode text (Tibetan script) does not work
Summary: Search for unicode text (Tibetan script) does not work
Status: RESOLVED NOTABUG
Alias: None
Product: LibreOffice
Classification: Unclassified
Component: LibreOffice (show other bugs)
Version:
(earliest affected)
7.1.5.2 release
Hardware: All All
: medium normal
Assignee: Not Assigned
URL:
Whiteboard:
Keywords:
Depends on:
Blocks:
 
Reported: 2021-09-23 15:45 UTC by Andrew Hughes
Modified: 2021-12-09 13:39 UTC (History)
1 user (show)

See Also:
Crash report or crash signature:


Attachments
Incorrect search for Tibetan text (271.80 KB, image/png)
2021-12-08 16:13 UTC, Andrew Hughes
Details

Note You need to log in before you can comment on or make changes to this bug.
Description Andrew Hughes 2021-09-23 15:45:47 UTC
Description:
In LibreWriter, if one tries to search for Tibetan text, it will match lots of false positives. It will match the searched for text, but it will also match lots of other similar text.

For example, searching for "བླང་" matches: "བྱང་", "བྱང་", etc.



Steps to Reproduce:
1.Search a document with Tibetan text. For example, search the paragraph in other information for "བླང་"
2.
3.

Actual Results:
False matches are included

Expected Results:
Only match searched for string


Reproducible: Always


User Profile Reset: Yes



Additional Info:
།དེས་ན་སྟོང་ཉིད་རྟོགས་པའི་ཤེས་རབ་ནི། །ཐིག་པ་ཆེ་ཆུང་གཉིས་གའི་ཐུན་མང་བ་ཡིན་པས། ཐེག་པ་ཆེ་ཆུང་ལྟ་བས་མི་འབྱེད་ཀྱི། བྱང་ཆུབ་ཀྱི་སེམས་དང་སྤྱོད་པ་བརླབས་པོ་ཆེ་རྣམས་ཀྱིས་འབྱེད་པར་གསུངས་ཏེ། རིན་ཆེན་ཕྲེང་བ་ལས། ཉན་ཐོས་ཐེག་པ་དེ་ལས་ནི། །བྱང་ཆུབ་སེམས་དཔའི་སྨོན་ལམ་དང་། །སྤྱོད་པ་ཡོངས་བསྔོ་མ་བཤད་དེས། །བྱང་ཆུབ་སེམས་དཔར་ག་ལ་འགྱུར། །ཞེས་གསུངས་པ་ལྟར་རོ། །དེ་ལྟར་ན་སྟོང་ཉིད་རྟོགས་པའི་ཤེས་རབ་ཀྱང་ཐེག་པ་ཆེན་པོའི་ལམ་ཐུན་མོང་མ་ཡིན་པར་མི་འགྱུར་ན། དེ་ལས་གཞན་པའི་ལམ་དག་ལྟ་ཅི་སྨོས། དེའི་ཕྱིར་བྱང་ཆུབ་ཀྱི་སེམས་ལ་གདམས་པའི་མཐིལ་དུ་གཟུངས་ནས་སྤྱོདད་པ་མེད་པར། ཐུན་མགོ་


Version: 7.1.5.2 / LibreOffice Community
Build ID: 10(Build:2)
CPU threads: 12; OS: Linux 5.11; UI render: default; VCL: gtk3
Locale: en-US (en_US.UTF-8); UI: en-US
Ubuntu package version: 1:7.1.5-0ubuntu0.21.04.1
Calc: threaded
Comment 1 Andrew Hughes 2021-09-23 15:50:40 UTC
Here is a larger body of Tibetan text for testing.

1 །ཞེས་དཀར་
2 ཆོས་བཞིའི་སྐབས་སུ་གསལ་བར་གསུངས་པས་སོ། །འོན་ཀྱང་ཚེ་འདིར་ཡང་ནག་
3 ཆོས་རྣམས་བསྟེན་ན་སེམས་སྐྱེད་མཐུ་ཆུང་དུ་འགྲོའོ། །དེ་ལྟ་མ་ཡིན་ན་བྱང་སེམས་
4 ཀྱི་སྡོམ་ལྡན་གྱིས་བཞད་གད་ཀྱི་ཕྱིར་བརྫུན་ཅུང་ཟད་ཙམ་ཞིག་སྨྲས་པས་ཀྱང་ཐུན་ཚོད
5 འདས་ན་བྱང་སེམས་ཀྱི་སྡོམ་པ་གཏོང་བར་འགྱུར་ཏེ། དེ་སྨྲས་ན་སྨོན་སེམས་གཏོང་
6 ལ་དེ་བཏང་ན་སྡོམ་པ་གཏོང་བར་བྱང་ས་དང་བསླབ་བཏུས་གཉིས་ཀ་ལས་གསུངས་པའི་
7 ཕྱིར་རོ།།དེ་འདོད་ན་ནི། དེ་དག་ཀྱང་རྩ་ལྟུང་དུ་བཞག་དགོས་པར་འགྱུར་ན། དེ་
8 འདྲ་བ་གང་ནས་ཀྱང་མ་གསུངས་ཤིང་མི་འཐད་པའི་ཕྱིར་རོ། །གཞན་ཡང་ཐུན་ཚོད་
9 བརྩི་བ་ནི། ཉེ་བར་འཁོར་གྱིས་ཞུས་པའི་མདོའི་དོན་མ་རྟོགས་པའི་ལོག་རྟོག་ཏུ་འདུག་
10 སྟེ་འོག་ཏུ་འཆད་པར་འགྱུར་རོ།།སེམས་ཅན་བློས་སྤོང་ལ་ནི། སེམས་ཅན་སྤྱི་ལ་
11 དམིགས་ནས་བློས་སྤངས་ན་སྨོན་སེམས་བཏང་བ་ཉིད་ཡིན་ལ་སེམས་ཅན་བྱེ་བྲག་པ་
12 གཅིག་ལ་དམིགས་ནས། རེ་ཤིག་བདག་གིས། འདིའི་དོན་བྱ་བར་མི་ནུས་སོ་སྙམ་
13 པ་ལྟ་བུ་མ་ཡིན་པར་དུས་ཐམས་ཅད་དུ་འདིའི་དོན་མི་བྱའོ་སྙམ་པས་སྤངས་ན་ནི། ཡ་
14 གྱལ་བཀག་ན་ཚོགས་པ་ཁེགས་པས་སེམས་ཅན་ཐམས་ཅད་ཀྱི་དོན་དུ་སེམས་བསྐྱེད་
15 པ་འཇིག་སྟེ། གཞན་དུ་ན་སེམས་ཅན་བརྒྱ་དང་སྟོང་ལ་སོགས་པ་དོར་ནས། དེའི་
16 ལྷག་གི་སེམས་ཅན་རྣམས་ཀྱི་དོན་དུ་སེམས་བསྐྱེད་པས་ཀྱང་སེམས་བསྐྱེད་མཚན་ཉིད་
17 རྫོགས་པར་ཐལ་བའི་ཕྱིར་རོ། །དེ་བས་ན་སྨོན་སེམས་བཏང་བ་དང་སེམས་ཅན་བློས་
18 སྤོང་མ་གཏོགས་པའི་བསླབ་བྱ་དེ་དག་ལས་འགལ་བ་ནི། སེམས་སྐྱེད་གཏོང་རྒྱུ་མ་ཡིན་
19 ཅིང་། ཇི་སྲིད་འཇུག་པ་སེམས་སྐྱེད་ཆོ་གས་མ་བཟུངས་ཀྱི་བར་དུ་བྱང་སེམས་ཀྱི་སྡོམ་
20 པ་དང་མི་ལྡན་པས། སྡོམ་པ་དང་འགལ་བའི་ལྟུང་བ་མེད་ཀྱང་། བར་མ་དགེ་བ་ཁས་
21 བླངས་པ་དང་འགལ་བའི་ཉེས་པར་སྤྱོད་པ་ཞེས་བྱ་བ་ཡིན་པས་སྟོབས་བཞིས་བཤགས་
Comment 2 Ming Hua 2021-09-23 16:46:29 UTC
(In reply to Andrew Hughes from comment #0)
> Steps to Reproduce:
> 1.Search a document with Tibetan text. For example, search the paragraph in
> other information for "བླང་"
> 
> Additional Info:
> །དེས་ན་སྟོང་ཉིད་རྟོགས་པའི་ཤེས་རབ་ནི། །ཐིག་པ་ཆེ་ཆུང་གཉིས་གའི་ཐུན་མང་བ་ཡིན་པས།
> ཐེག་པ་ཆེ་ཆུང་ལྟ་བས་མི་འབྱེད་ཀྱི།
> བྱང་ཆུབ་ཀྱི་སེམས་དང་སྤྱོད་པ་བརླབས་པོ་ཆེ་རྣམས་ཀྱིས་འབྱེད་པར་གསུངས་ཏེ།
> རིན་ཆེན་ཕྲེང་བ་ལས། ཉན་ཐོས་ཐེག་པ་དེ་ལས་ནི། །བྱང་ཆུབ་སེམས་དཔའི་སྨོན་ལམ་དང་།
> །སྤྱོད་པ་ཡོངས་བསྔོ་མ་བཤད་དེས། །བྱང་ཆུབ་སེམས་དཔར་ག་ལ་འགྱུར།
> །ཞེས་གསུངས་པ་ལྟར་རོ།
> །དེ་ལྟར་ན་སྟོང་ཉིད་རྟོགས་པའི་ཤེས་རབ་ཀྱང་ཐེག་པ་ཆེན་པོའི་ལམ་ཐུན་མོང་མ་ཡིན་པར་མི
> ་འགྱུར་ན། དེ་ལས་གཞན་པའི་ལམ་དག་ལྟ་ཅི་སྨོས།
> དེའི་ཕྱིར་བྱང་ཆུབ་ཀྱི་སེམས་ལ་གདམས་པའི་མཐིལ་དུ་གཟུངས་ནས་སྤྱོདད་པ་མེད་པར།
> ཐུན་མགོ་
I know nothing about Tibetan, but in my testing with the above text in Writer, and searching for "བླང་" using the "Edit > Find and Replace..." dialog (Ctrl+H), I get 4 results when "Diacritic-sensitive" options is not selected (click "Other options" if you can't find it in the dialog), and get 0 results when "Diacritic-sensitive" option is selected.

Looks very reasonable to me.  If this is not the desired result, please elaborate (what search feature did you use, what options did you choose, and what is the correct search result?).

Version: 7.0.6.2 (x64)
Build ID: 144abb84a525d8e30c9dbbefa69cbbf2d8d4ae3b
CPU threads: 2; OS: Windows 10.0 Build 19043; UI render: default; VCL: win
Locale: zh-CN (zh_CN); UI: en-US
Calc: threaded
Comment 3 Andrew Hughes 2021-12-08 16:13:39 UTC
Created attachment 176809 [details]
Incorrect search for Tibetan text
Comment 4 Andrew Hughes 2021-12-08 16:16:45 UTC
The string "བླང་" is not found in the example paragraph. The four matches are incorrect. They are matching a different string "བྱང་". You can use the browsers search function to verify this. Hit Control-F in the browser and input "བླང་" and see that it does not match the example paragraph. However, Writer matches it multiple times. 

Searching for most complex ligatures will result in false matches like this (a single ligature or syllable is delineated by each dot, space, or vertical line).
Comment 5 Andrew Hughes 2021-12-08 16:33:20 UTC
Ah. Sorry. So if I use the Find and Replace popup instead of the inline search in writer (Control-H vs Control-F), and I turn on Diacritic-sensistive, the search does seem to work.
Comment 6 Andrew Hughes 2021-12-08 16:34:06 UTC
Would be nice if the Control-F search worked, but at least there is a functioning workaround for it.
Comment 7 QA Administrators 2021-12-09 04:31:14 UTC Comment hidden (obsolete)
Comment 8 Michael Warner 2021-12-09 13:39:22 UTC
Hello Andrew, thanks for following up on this report. 

(In reply to Andrew Hughes from comment #6)
> Would be nice if the Control-F search worked, but at least there is a
> functioning workaround for it.

Differences between the two types of Find boxes could probably be displayed more clearly, somehow. But any ideas there should be filed in separate bug reports, as enhancements. 

(In reply to Andrew Hughes from comment #5)
> Ah. Sorry. So if I use the Find and Replace popup instead of the inline
> search in writer (Control-H vs Control-F), and I turn on
> Diacritic-sensistive, the search does seem to work.

Resolving as Not A Bug.